Python pour la data-science

Star this website on Github


Ce site web rend public le contenu du cours de deuxième année (Master 1) de l’ENSAE: Python pour la data-science

Tout est présent sur ce site web ! Des Notebooks Jupyter peuvent être récupérés pour s’exercer. L’ensemble des codes sources est stocké sur Github


Get Started Découvrir le cours !

Python pour la _data-science_ <a href="https://github.com/linogaliana/python-datascientist" class="github"><i class="fab fa-python"></i></a>

Thèmes en vrac

Pour découvrir Python de manière thématique

*
Les nouveaux modes d'accès aux données: le format parquet et les données sur le cloud
Les nouveaux modes d'accès aux données: le format parquet et les données sur le cloud

Dans les entreprises et administrations, un nombre croissant d’infrastructure se basent sur des clouds, qui sont des sessions non persistentes où les données ne sont pas stockées dans les mêmes serveurs que les machines qui exécutent du code. L’une des technologies dominantes dans le domaine est un système de stockage nommé S3, développé par Amazon.

Python, à travers plusieurs packages (notamment boto3, s3fs ou pyarrow), permet d’utiliser ce système de stockage distant comme si on accédait à des fichiers depuis son poste personnel. Cette révolution est étroitement associée à l’émergence du format de données Apache Parquet, format utilisable en Python par le biais du package pyarrow ou avec Spark et présentant de nombreux avantages pour l’analyse de données (vitesse d’import, possibilité de traiter des données plus volumineuses que la RAM…)

Les classes en Python

La programmation orientée objet (POO) est l’un des atouts de Python. Elle permet d’adapter des instructions à un type particulier d’objet. En apparence plus complexe que la programmation fonctionnelle évoquée précédemment, elle permet néanmoins de bien rélféchir à la structure des objets utilisés. Ce chapitre vise à quelques rappels sur la programmation orientée objet.

Latent Dirichlet Allocation (LDA)

Le modèle Latent Dirichlet Allocation (LDA) est un modèle probabiliste génératif qui permet de décrire des collections de documents de texte ou d’autres types de données discrètes. La LDA fait partie d’une catégorie de modèles appelés “topic models”, qui cherchent à découvrir des structures thématiques cachées dans des vastes archives de documents.

Documentation

Une documentation complète sur Python

Open-source

Tout est disponible sur Github

Entièrement reproductible

Un dépôt reposant sur les dernières innovations de la conteneurisation pour assurer un contenu reproductible