Direkt zum Inhalt
StartseiteSpark

Feature Engineering with PySpark

Learn the gritty details that data scientists are spending 70-80% of their time on; data wrangling and feature engineering.

Kurs Kostenlos Starten
4 Stunden16 Videos60 Übungen14.806 LernendeTrophyLeistungsnachweis

Kostenloses Konto erstellen

GoogleLinkedInFacebook

oder

Durch Klick auf die Schaltfläche akzeptierst du unsere Nutzungsbedingungen, unsere Datenschutzrichtlinie und die Speicherung deiner Daten in den USA.
Group

Trainierst du 2 oder mehr?

Versuchen DataCamp for Business

Beliebt bei Lernenden in Tausenden Unternehmen


Kursbeschreibung

The real world is messy and your job is to make sense of it. Toy datasets like MTCars and Iris are the result of careful curation and cleaning, even so the data needs to be transformed for it to be useful for powerful machine learning algorithms to extract meaning, forecast, classify or cluster. This course will cover the gritty details that data scientists are spending 70-80% of their time on; data wrangling and feature engineering. With size of datasets now becoming ever larger, let's use PySpark to cut this Big Data problem down to size!
Für Unternehmen

Trainierst du 2 oder mehr?

Verschaffen Sie Ihrem Team Zugriff auf die vollständige DataCamp-Plattform, einschließlich aller Funktionen.
DataCamp Für UnternehmenFür eine maßgeschneiderte Lösung buchen Sie eine Demo.

In den folgenden Tracks

Big Data mit PySpark

Gehe zu Track
  1. 1

    Exploratory Data Analysis

    Kostenlos

    Get to know a bit about your problem before you dive in! Then learn how to statistically and visually inspect your dataset!

    Kapitel Jetzt Abspielen
    Where to Begin
    50 xp
    Where to begin?
    50 xp
    Check Version
    100 xp
    Load in the data
    100 xp
    Defining A Problem
    50 xp
    What are we predicting?
    100 xp
    Verifying Data Load
    100 xp
    Verifying DataTypes
    100 xp
    Visually Inspecting Data / EDA
    50 xp
    Using Corr()
    100 xp
    Using Visualizations: distplot
    100 xp
    Using Visualizations: lmplot
    100 xp
  2. 3

    Feature Engineering

    In this chapter learn how to create new features for your machine learning model to learn from. We'll look at generating them by combining fields, extracting values from messy columns or encoding them for better results.

    Kapitel Jetzt Abspielen
Für Unternehmen

Trainierst du 2 oder mehr?

Verschaffen Sie Ihrem Team Zugriff auf die vollständige DataCamp-Plattform, einschließlich aller Funktionen.

In den folgenden Tracks

Big Data mit PySpark

Gehe zu Track

Datensätze

2017 St Paul MN Real Estate Dataset

Mitwirkende

Collaborator's avatar
Adrián Soto
Collaborator's avatar
Nick Solomon
John Hogue HeadshotJohn Hogue

Lead Data Scientist, General Mills

Mehr Anzeigen

Was sagen andere Lernende?

Melden Sie sich an 15 Millionen Lernende und starten Sie Feature Engineering with PySpark Heute!

Kostenloses Konto erstellen

GoogleLinkedInFacebook

oder

Durch Klick auf die Schaltfläche akzeptierst du unsere Nutzungsbedingungen, unsere Datenschutzrichtlinie und die Speicherung deiner Daten in den USA.