Accéder au contenu principal
AccueilPython

Feature Engineering for NLP in Python

Learn techniques to extract useful information from text and process them into a format suitable for machine learning.

Commencer Le Cours Gratuitement
4 heures15 vidéos52 exercices25 028 apprenantsTrophyDéclaration de réalisation

Créez votre compte gratuit

GoogleLinkedInFacebook

ou

En continuant, vous acceptez nos Conditions d'utilisation, notre Politique de confidentialité et le fait que vos données sont stockées aux États-Unis.
Group

Formation de 2 personnes ou plus ?

Essayer DataCamp for Business

Apprécié par les apprenants de milliers d'entreprises


Description du cours

In this course, you will learn techniques that will allow you to extract useful information from text and process them into a format suitable for applying ML models. More specifically, you will learn about POS tagging, named entity recognition, readability scores, the n-gram and tf-idf models, and how to implement them using scikit-learn and spaCy. You will also learn to compute how similar two documents are to each other. In the process, you will predict the sentiment of movie reviews and build movie and Ted Talk recommenders. Following the course, you will be able to engineer critical features out of any text and solve some of the most challenging problems in data science!
Pour les entreprises

Formation de 2 personnes ou plus ?

Donnez à votre équipe l’accès à la plateforme DataCamp complète, y compris toutes les fonctionnalités.
DataCamp Pour Les EntreprisesPour une solution sur mesure , réservez une démo.

Dans les titres suivants

Scientifique en apprentissage automatique en Python

Aller à la piste

Traitement du langage naturel en Python

Aller à la piste
  1. 1

    Basic features and readability scores

    Gratuit

    Learn to compute basic features such as number of words, number of characters, average word length and number of special characters (such as Twitter hashtags and mentions). You will also learn to compute readability scores and determine the amount of education required to comprehend a piece of text.

    Jouez Au Chapitre Maintenant
    Introduction to NLP feature engineering
    50 xp
    Data format for ML algorithms
    50 xp
    One-hot encoding
    100 xp
    Basic feature extraction
    50 xp
    Character count of Russian tweets
    100 xp
    Word count of TED talks
    100 xp
    Hashtags and mentions in Russian tweets
    100 xp
    Readability tests
    50 xp
    Readability of 'The Myth of Sisyphus'
    100 xp
    Readability of various publications
    100 xp
  2. 2

    Text preprocessing, POS tagging and NER

    In this chapter, you will learn about tokenization and lemmatization. You will then learn how to perform text cleaning, part-of-speech tagging, and named entity recognition using the spaCy library. Upon mastering these concepts, you will proceed to make the Gettysburg address machine-friendly, analyze noun usage in fake news, and identify people mentioned in a TechCrunch article.

    Jouez Au Chapitre Maintenant
Pour les entreprises

Formation de 2 personnes ou plus ?

Donnez à votre équipe l’accès à la plateforme DataCamp complète, y compris toutes les fonctionnalités.

Dans les titres suivants

Scientifique en apprentissage automatique en Python

Aller à la piste

Traitement du langage naturel en Python

Aller à la piste

ensembles de données

Russian Troll TweetsMovie Overviews and TaglinesPreprocessed Movie ReviewsTED Talk TranscriptsReal and Fake News Headlines

collaborateurs

Collaborator's avatar
Adrián Soto
Collaborator's avatar
Hillary Green-Lerman
Rounak Banik HeadshotRounak Banik

Data Scientist at Fractal Analytics

Voir Plus

Qu’est-ce que les autres apprenants ont à dire ?

Inscrivez-vous 15 millions d’apprenants et commencer Feature Engineering for NLP in Python Aujourd’hui!

Créez votre compte gratuit

GoogleLinkedInFacebook

ou

En continuant, vous acceptez nos Conditions d'utilisation, notre Politique de confidentialité et le fait que vos données sont stockées aux États-Unis.