Saltar al contenido principal

curso

Introducción a PySpark

Intermedio

Updated 12/2024

"Aprende a implementar gestión de datos distribuidos y aprendizaje automático en Spark con PySpark."

Comienza el curso gratis

Incluido de forma gratuitaPremium or Teams

SparkIngeniería de datos4 horas45 ejercicios3,850 XP148,587Declaración de cumplimiento

Crea Tu Cuenta Gratuita

Google LinkedIn Facebook

o

Al continuar, acepta nuestros Términos de uso, nuestra Política de privacidad y que sus datos se almacenan en los EE. UU.

¿Entrenar a 2 o más personas?

Probar DataCamp for Business

Preferido por estudiantes en miles de empresas

Descripción del curso

En este curso, aprenderás a utilizar Spark desde Python. Spark es una herramienta para realizar computación paralela con grandes conjuntos de datos y se integra bien con Python. PySpark es el paquete de Python que hace que se produzca la magia. Utilizarás este paquete para trabajar con datos sobre vuelos que viajan desde Portland y Seattle. Aprenderás a organizar estos datos y a construir toda una canalización de machine learning para prever si dichos vuelos van a retrasarse o no. Prepárate para poner un poco de Spark en tu código Python y sumergirte en el mundo del machine learning de alto rendimiento.

Prerrequisitos

Introduction to Python

1

Conocer PySpark

Iniciar capítulo

¿Pero qué es Spark?

Uso de Spark en Python

Examen de SparkContext

Uso de DataFrames

Creación de SparkSession

Visualización de tablas

¿Algo que consultar?

Pandafy en Spark DataFrame

Pon algo de Spark en tus datos

Abandono del intermediario

2

Manipulación de datos

Iniciar capítulo

Creación de columnas

SQL en pocas palabras

SQL en pocas palabras (2)

Filtrado de datos

Selección II

Agregación

Agregación II

Agrupación y agregación I

Agrupación y agregación II

3

Introducción a las canalizaciones de machine learning

Iniciar capítulo

Canalizaciones de machine learning

Unir los DataFrames

Tipos de datos

De cadena a entero

Crear una nueva columna

Creación de un valor booleano

Cadenas y factores

Ensamblar un vector

Crear la canalización

Probar frente a entrenar

Transformar los datos

Dividir los datos

4

Ajuste y selección de modelos

Iniciar capítulo

¿Qué es la regresión logística?

Crear el modelador

Validación cruzada

Crear el evaluador

Crear una cuadrícula

Crear el validador

Ajustar los modelos

Evaluación de clasificadores binarios

Evaluar el modelo

Introducción a PySpark

Curso
Completo

Obtener Declaración de Logro

Añade esta credencial a tu perfil, currículum vitae o CV de LinkedIn
Compártelo en las redes sociales y en tu evaluación de desempeño

Incluido conPremium or Teams

Inscríbete ahora

Únete a más 15 millones de estudiantes y empezar Introducción a PySpark ¡Hoy!

Crea Tu Cuenta Gratuita

Google LinkedIn Facebook

o

Al continuar, acepta nuestros Términos de uso, nuestra Política de privacidad y que sus datos se almacenan en los EE. UU.