Apprentissage non supervisé en Python
Apprenez à regrouper, transformer, visualiser et extraire des informations à partir d'ensembles de données non marquées en utilisant scikit-learn et scipy.
Commencer Le Cours Gratuitement4 heures13 vidéos52 exercices146 621 apprenantsDéclaration de réalisation
Créez votre compte gratuit
ou
En continuant, vous acceptez nos Conditions d'utilisation, notre Politique de confidentialité et le fait que vos données sont stockées aux États-Unis.Formation de 2 personnes ou plus ?
Essayer DataCamp for BusinessApprécié par les apprenants de milliers d'entreprises
Description du cours
Supposons que vous disposiez d'une collection de clients présentant diverses caractéristiques telles que l'âge, la localisation et les antécédents financiers, et que vous souhaitiez découvrir des modèles et les classer en groupes. Ou encore, vous disposez d'un ensemble de textes, tels que des pages Wikipédia, et vous souhaitez les segmenter en catégories sur la base de leur contenu. C'est le monde de l'apprentissage non supervisé, appelé ainsi parce que vous ne guidez pas, ou ne supervisez pas, la découverte de modèles par une tâche de prédiction, mais que vous découvrez plutôt une structure cachée à partir de données non étiquetées. L'apprentissage non supervisé englobe une variété de techniques d'apprentissage automatique, allant du regroupement à la réduction des dimensions en passant par la factorisation des matrices. Dans ce cours, vous apprendrez les principes fondamentaux de l'apprentissage non supervisé et mettrez en œuvre les algorithmes essentiels en utilisant scikit-learn et SciPy. Vous apprendrez à regrouper, transformer, visualiser et extraire des informations à partir d'ensembles de données non étiquetées, et terminerez le cours en construisant un système de recommandation d'artistes musicaux populaires.
Formation de 2 personnes ou plus ?
Donnez à votre équipe l’accès à la plateforme DataCamp complète, y compris toutes les fonctionnalités.Dans les titres suivants
Ingénieur IA associé pour les scientifiques de données
Aller à la pistePrincipes fondamentaux de l'apprentissage automatique en Python
Aller à la piste- 1
Regroupement pour l'exploration des ensembles de données
GratuitApprenez à découvrir les groupes sous-jacents (ou "clusters") dans un ensemble de données. À la fin de ce chapitre, vous saurez regrouper les entreprises en fonction de leur cours de bourse et distinguer les différentes espèces en regroupant leurs mesures.
Apprentissage non supervisé50 xpCombien de groupes ?50 xpRegroupement de points 2D100 xpInspectez votre clustering100 xpÉvaluation d'un regroupement50 xpCombien de grappes de céréales ?100 xpÉvaluation du regroupement des grains100 xpTransformer les caractéristiques pour améliorer les regroupements50 xpMise à l'échelle des données sur les poissons pour le regroupement100 xpRegroupement des données sur les poissons100 xpRegroupement des stocks à l'aide de KMeans100 xpQuels sont les titres qui évoluent ensemble ?100 xp - 2
Visualisation avec clustering hiérarchique et t-SNE
Dans ce chapitre, vous découvrirez deux techniques d'apprentissage non supervisé pour la visualisation des données, le clustering hiérarchique et le t-SNE. Le regroupement hiérarchique fusionne les échantillons de données en grappes de plus en plus fines, ce qui donne une visualisation arborescente de la hiérarchie des grappes qui en résulte. t-SNE cartographie les échantillons de données dans l'espace 2D afin de visualiser la proximité des échantillons les uns par rapport aux autres.
Visualisation des hiérarchies50 xpCombien de fusions ?50 xpRegroupement hiérarchique des données sur les grains100 xpHiérarchies de stocks100 xpÉtiquettes de grappes dans les grappes hiérarchiques50 xpQuels sont les groupes les plus proches ?50 xpDes liens différents, des regroupements hiérarchiques différents !100 xpRegroupements intermédiaires50 xpExtraction des étiquettes des grappes100 xpt-SNE pour les cartes à 2 dimensions50 xpt-SNE visualisation de l'ensemble des données sur les céréales100 xpUne carte du marché boursier en t-SNE100 xp - 3
Décorréler vos données et réduire les dimensions
La réduction des dimensions permet de résumer un ensemble de données à l'aide des motifs les plus courants. Dans ce chapitre, vous découvrirez la plus fondamentale des techniques de réduction des dimensions, l'analyse en composantes principales ("PCA"). PCA est souvent utilisée avant l'apprentissage supervisé pour améliorer les performances et la généralisation des modèles. Il peut également être utile pour l'apprentissage non supervisé. Par exemple, vous utiliserez une variante de PCA qui vous permettra de regrouper les articles de Wikipédia en fonction de leur contenu !
Visualisation de la transformation PCA50 xpDonnées corrélées dans la nature100 xpDécorréler les mesures du grain avec PCA100 xpComposantes principales50 xpDimension intrinsèque50 xpLa première composante principale100 xpVariance des caractéristiques du site PCA100 xpDimension intrinsèque des données relatives aux poissons50 xpRéduction des dimensions avec PCA50 xpRéduction des dimensions des mesures de poissons100 xpUn tableau de fréquence de mots tf-idf100 xpLe regroupement sur Wikipédia, partie I100 xpClustering partie de Wikipédia II100 xp - 4
Découvrir les caractéristiques interprétables
Dans ce chapitre, vous découvrirez une technique de réduction des dimensions appelée "factorisation de la matrice non négative" ("NMF") qui exprime les échantillons sous forme de combinaisons de parties interprétables. Par exemple, il exprime les documents comme des combinaisons de sujets, et les images en termes de modèles visuels courants. Vous apprendrez également à utiliser NMF pour construire des systèmes de recommandation qui peuvent vous trouver des articles similaires à lire, ou des artistes musicaux qui correspondent à votre historique d'écoute !
Factorisation de matrices non négatives (NMF)50 xpDonnées non négatives50 xpNMF appliqué aux articles de Wikipédia100 xpNMF caractéristiques des articles de Wikipédia100 xpNMF reconstruit les échantillons50 xpNMF apprend les parties interprétables50 xpNMF apprend les thèmes des documents100 xpExplorez l'ensemble de données LED digits100 xpNMF apprend les parties d'images100 xpPCA n'apprend pas les pièces100 xpConstruire des systèmes de recommandation en utilisant NMF50 xpQuels sont les articles similaires à "Cristiano Ronaldo" ?100 xpRecommander des artistes musicaux partie I100 xpRecommander des artistes musicaux II100 xpDernières réflexions50 xp
Formation de 2 personnes ou plus ?
Donnez à votre équipe l’accès à la plateforme DataCamp complète, y compris toutes les fonctionnalités.Dans les titres suivants
Ingénieur IA associé pour les scientifiques de données
Aller à la pistePrincipes fondamentaux de l'apprentissage automatique en Python
Aller à la pisteDans d’autres morceaux
Scientifique en apprentissage automatique en Pythonensembles de données
Company stock price movementsEurovision 2016Fish measurementsGrainsLCD digitsMusical artistsWikipedia articlesWinecollaborateurs
Benjamin Wilson
Voir PlusDirector of Research at lateral.io
Qu’est-ce que les autres apprenants ont à dire ?
Inscrivez-vous 15 millions d’apprenants et commencer Apprentissage non supervisé en Python Aujourd’hui!
Créez votre compte gratuit
ou
En continuant, vous acceptez nos Conditions d'utilisation, notre Politique de confidentialité et le fait que vos données sont stockées aux États-Unis.