Saltar al contenido principal
InicioData EngineeringIntroducción a PySpark

Introducción a PySpark

Aprende a implementar la gestión de datos distribuidos y el machine learning en Spark utilizando el paquete PySpark.

Comience El Curso Gratis
4 Horas45 Ejercicios
135.133 AprendicesTrophyDeclaración de cumplimiento

Crea Tu Cuenta Gratuita

GoogleLinkedInFacebook

o

Al continuar, acepta nuestros Términos de uso, nuestra Política de privacidad y que sus datos se almacenan en los EE. UU.
Group¿Entrenar a 2 o más personas?Pruebe DataCamp para empresas

Preferido por estudiantes en miles de empresas


Descripción del curso

En este curso, aprenderás a utilizar Spark desde Python. Spark es una herramienta para realizar computación paralela con grandes conjuntos de datos y se integra bien con Python. PySpark es el paquete de Python que hace que se produzca la magia. Utilizarás este paquete para trabajar con datos sobre vuelos que viajan desde Portland y Seattle. Aprenderás a organizar estos datos y a construir todo un pipeline de machine learning para prever si dichos vuelos van a retrasarse o no. Prepárate para poner un poco de Spark en tu código Python y sumergirte en el mundo del machine learning de alto rendimiento.
Empresas

Group¿Entrenar a 2 o más personas?

Obtenga acceso de su equipo a la biblioteca completa de DataCamp, con informes centralizados, tareas, proyectos y más
Pruebe DataCamp Para EmpresasPara obtener una solución a medida, reserve una demostración.

En las siguientes pistas

Big Data con PySpark

Ir a la pista

Científico de Machine Learning con Python

Ir a la pista
  1. 1

    Conocer PySpark

    Gratuito

    En este capítulo, aprenderás cómo gestiona Spark los datos y cómo leer y escribir tablas desde Python.

    Reproducir Capítulo Ahora
    ¿Qué es la Chispa?
    50 xp
    Uso de Spark en Python
    50 xp
    Examen de SparkContext
    100 xp
    Uso de DataFrames
    50 xp
    Creación de SparkSession
    100 xp
    Visualización de tablas
    100 xp
    ¿Algo que consultar?
    100 xp
    Pandafy en Spark DataFrame
    100 xp
    Pon algo de Spark en tus datos
    100 xp
    Abandono del intermediario
    100 xp
  2. 3

    Introducción a los pipelines de machine learning

    PySpark tiene rutinas de machine learning de última generación integradas, junto con utilidades para crear pipelines completos de machine learning. Aprenderás todo esto en este capítulo.

    Reproducir Capítulo Ahora
Empresas

Group¿Entrenar a 2 o más personas?

Obtenga acceso de su equipo a la biblioteca completa de DataCamp, con informes centralizados, tareas, proyectos y más

En las siguientes pistas

Big Data con PySpark

Ir a la pista

Científico de Machine Learning con Python

Ir a la pista

Sets De Datos

AirportsFlightsPlanes

Colaboradores

Collaborator's avatar
Colin Ricardo

Requisitos Previos

Introduction to Python
Lore Dirick HeadshotLore Dirick

Director of Data Science Education at Flatiron School

Ver Mas

¿Qué tienen que decir otros alumnos?

¡Únete a 13 millones de estudiantes y empieza Introducción a PySpark hoy mismo!

Crea Tu Cuenta Gratuita

GoogleLinkedInFacebook

o

Al continuar, acepta nuestros Términos de uso, nuestra Política de privacidad y que sus datos se almacenan en los EE. UU.