Introduction au traitement du langage naturel en Python
Commencer Le Cours Gratuitement4 heures15 vidéos51 exercices124 559 apprenantsDéclaration de réalisation
Créez votre compte gratuit
ou
En continuant, vous acceptez nos Conditions d'utilisation, notre Politique de confidentialité et le fait que vos données sont stockées aux États-Unis.Formation de 2 personnes ou plus ?
Essayer DataCamp for BusinessApprécié par les apprenants de milliers d'entreprises
Description du cours
Dans ce cours, vous apprendrez les bases du traitement du langage naturel (NLP), comme l'identification et la séparation des mots, l'extraction des sujets dans un texte et la construction de votre propre classificateur de fausses nouvelles. Vous apprendrez également à utiliser des bibliothèques de base telles que NLTK, ainsi que des bibliothèques qui utilisent l'apprentissage profond pour résoudre des problèmes courants NLP. Ce cours vous donnera les bases pour traiter et analyser du texte tout en progressant dans votre apprentissage de Python.
Formation de 2 personnes ou plus ?
Donnez à votre équipe l’accès à la plateforme DataCamp complète, y compris toutes les fonctionnalités.Dans les titres suivants
Scientifique en apprentissage automatique en Python
Aller à la pisteTraitement du langage naturel en Python
Aller à la piste- 1
Expressions régulières et symbolisation des mots
GratuitCe chapitre présente quelques concepts de base de NLP, tels que la tokenisation des mots et les expressions régulières pour aider à analyser le texte. Vous apprendrez également à gérer les textes non anglophones et la tokenisation plus difficile que vous pourriez trouver.
Introduction aux expressions régulières50 xpQuel modèle ?50 xpPratique des expressions régulières : re.split() et re.findall()100 xpIntroduction à la tokenisation50 xpLa tokenisation des mots à l'aide de NLTK100 xpPlus de regex avec re.search()100 xpTokenisation avancée avec NLTK et regex50 xpChoix d'un tokenizer50 xpRegex avec NLTK tokenization100 xpBalisage non ascii100 xpGraphique de la longueur des mots avec NLTK50 xpPratique de la cartographie100 xp - 2
Identification simple du sujet
Ce chapitre vous présente l'identification des sujets, que vous pouvez appliquer à tous les textes que vous rencontrez dans la nature. En utilisant les modèles de base de NLP, vous identifierez les thèmes des textes en fonction de la fréquence des termes. Vous expérimenterez et comparerez deux méthodes simples : bag-of-words et Tf-idf en utilisant NLTK, et une nouvelle bibliothèque Gensim.
Nombre de mots avec les sacs de mots50 xpSélecteur de sacs de mots50 xpConstruction d'un guichet avec un sac de mots100 xpPrétraitement simple du texte50 xpÉtapes du prétraitement du texte50 xpPratique du prétraitement du texte100 xpIntroduction à gensim50 xpQu'est-ce qu'un mot vecteur ?50 xpCréer et interroger un corpus avec gensim100 xpSac de mots Gensim100 xpTf-idf avec gensim50 xpQu'est-ce que le tf-idf ?50 xpTf-idf avec Wikipedia100 xp - 3
Reconnaissance d'entités nommées
Ce chapitre présente un sujet un peu plus avancé : la reconnaissance des entités nommées. Vous apprendrez à identifier le qui, le quoi et le où de vos textes à l'aide de modèles pré-entraînés sur des textes anglais et non-anglais. Vous apprendrez également à utiliser de nouvelles bibliothèques, polyglot et spaCy, pour compléter votre boîte à outils NLP.
Reconnaissance des entités nommées50 xpNER avec NLTK100 xpPratique de la cartographie100 xpBibliothèque de Stanford avec NLTK50 xpIntroduction à SpaCy50 xpComparaison entre NLTK et spaCy NER100 xpspaCy NER Catégories50 xpNER multilingue avec polyglotte50 xpFrançais NER avec polyglotte I100 xpFrançais NER avec polyglotte II100 xpEspagnol NER avec polyglotte100 xp - 4
Construire un classificateur de "fake news" (fausses nouvelles)
Vous appliquerez les bases de ce que vous avez appris ainsi qu'un peu d'apprentissage automatique supervisé pour construire un détecteur de "fake news". Vous commencerez par apprendre les bases de l'apprentissage automatique supervisé, puis vous choisirez quelques caractéristiques importantes et testerez des idées pour identifier et classer les articles de fausses nouvelles.
Classifier les fausses nouvelles à l'aide de l'apprentissage supervisé avec NLP50 xpQuelles sont les caractéristiques possibles ?50 xpEntraînement et tests50 xpConstruire des vecteurs de comptage de mots avec scikit-learn50 xpCountVectorizer pour la classification de textes100 xpTfidfVectorizer pour la classification de textes100 xpInspection des vecteurs100 xpFormation et test d'un modèle de classification avec scikit-learn50 xpModèles de classification de texte50 xpEntraînement et test du modèle "fake news" avec CountVectorizer100 xpEntraînement et test du modèle "fake news" avec TfidfVectorizer100 xpNLP simple, problèmes complexes50 xpAméliorer le modèle50 xpAméliorer votre modèle100 xpInspection de votre modèle100 xp
Formation de 2 personnes ou plus ?
Donnez à votre équipe l’accès à la plateforme DataCamp complète, y compris toutes les fonctionnalités.Dans les titres suivants
Scientifique en apprentissage automatique en Python
Aller à la pisteTraitement du langage naturel en Python
Aller à la pistecollaborateurs
prérequis
Python ToolboxKatharine Jarmul
Voir PlusFounder, kjamistan
Qu’est-ce que les autres apprenants ont à dire ?
Inscrivez-vous 15 millions d’apprenants et commencer Introduction au traitement du langage naturel en Python Aujourd’hui!
Créez votre compte gratuit
ou
En continuant, vous acceptez nos Conditions d'utilisation, notre Politique de confidentialité et le fait que vos données sont stockées aux États-Unis.