Saltar al contenido principal
InicioSpark

Feature Engineering with PySpark

Learn the gritty details that data scientists are spending 70-80% of their time on; data wrangling and feature engineering.

Comienza El Curso Gratis
4 horas16 vídeos60 ejercicios14.806 aprendicesTrophyDeclaración de cumplimiento

Crea Tu Cuenta Gratuita

GoogleLinkedInFacebook

o

Al continuar, acepta nuestros Términos de uso, nuestra Política de privacidad y que sus datos se almacenan en los EE. UU.
Group

¿Entrenar a 2 o más personas?

Probar DataCamp for Business

Preferido por estudiantes en miles de empresas


Descripción del curso

The real world is messy and your job is to make sense of it. Toy datasets like MTCars and Iris are the result of careful curation and cleaning, even so the data needs to be transformed for it to be useful for powerful machine learning algorithms to extract meaning, forecast, classify or cluster. This course will cover the gritty details that data scientists are spending 70-80% of their time on; data wrangling and feature engineering. With size of datasets now becoming ever larger, let's use PySpark to cut this Big Data problem down to size!
Empresas

¿Entrenar a 2 o más personas?

Obtén a tu equipo acceso a la plataforma DataCamp completa, incluidas todas las funciones.
DataCamp Para EmpresasPara obtener una solución a medida, reserve una demostración.

En las siguientes pistas

Big Data con PySpark

Ir a la pista
  1. 1

    Exploratory Data Analysis

    Gratuito

    Get to know a bit about your problem before you dive in! Then learn how to statistically and visually inspect your dataset!

    Reproducir Capítulo Ahora
    Where to Begin
    50 xp
    Where to begin?
    50 xp
    Check Version
    100 xp
    Load in the data
    100 xp
    Defining A Problem
    50 xp
    What are we predicting?
    100 xp
    Verifying Data Load
    100 xp
    Verifying DataTypes
    100 xp
    Visually Inspecting Data / EDA
    50 xp
    Using Corr()
    100 xp
    Using Visualizations: distplot
    100 xp
    Using Visualizations: lmplot
    100 xp
  2. 3

    Feature Engineering

    In this chapter learn how to create new features for your machine learning model to learn from. We'll look at generating them by combining fields, extracting values from messy columns or encoding them for better results.

    Reproducir Capítulo Ahora
Empresas

¿Entrenar a 2 o más personas?

Obtén a tu equipo acceso a la plataforma DataCamp completa, incluidas todas las funciones.

En las siguientes pistas

Big Data con PySpark

Ir a la pista

conjuntos de datos

2017 St Paul MN Real Estate Dataset

colaboradores

Collaborator's avatar
Adrián Soto
Collaborator's avatar
Nick Solomon
John Hogue HeadshotJohn Hogue

Lead Data Scientist, General Mills

Ver Más

¿Qué tienen que decir otros alumnos?

¡Únete a 15 millones de estudiantes y empieza Feature Engineering with PySpark hoy mismo!

Crea Tu Cuenta Gratuita

GoogleLinkedInFacebook

o

Al continuar, acepta nuestros Términos de uso, nuestra Política de privacidad y que sus datos se almacenan en los EE. UU.