Accéder au contenu principal

cours

Introduction à PySpark

Intermédiaire

Updated 12/2024

Apprenez à mettre en œuvre la gestion des données distribuées et l'apprentissage automatique dans Spark à l'aide du package PySpark.

Commencer le cours gratuitement

Inclus gratuitementPremium or Teams

SparkIngénierie des données4 heures45 exercices3,850 XP148,588Déclaration de réalisation

Créez votre compte gratuit

Google LinkedIn Facebook

ou

En continuant, vous acceptez nos Conditions d'utilisation, notre Politique de confidentialité et le fait que vos données sont stockées aux États-Unis.

Formation de 2 personnes ou plus ?

Essayer DataCamp for Business

Apprécié par les apprenants de milliers d’entreprises

Description du cours

Dans ce cours, vous apprendrez à utiliser Spark depuis Python ! Spark est un outil permettant d'effectuer des calculs parallèles avec de grands ensembles de données et il s'intègre bien à Python. PySpark est le paquetage Python qui permet à la magie d'opérer. Vous utiliserez ce paquet pour travailler avec des données sur les vols au départ de Portland et de Seattle. Vous apprendrez à manipuler ces données et à construire un pipeline d'apprentissage automatique pour prédire si les vols seront retardés ou non. Préparez-vous à mettre un peu de Spark dans votre code Python et à plonger dans le monde de l'apprentissage automatique haute performance !

Conditions préalables

Introduction to Python

1

Apprendre à connaître PySpark

Commencer le chapitre

Qu'est-ce que Spark ?

Utiliser Spark en Python

Examiner le SparkContext

Utilisation des DataFrame

Créer une session SparkSession

Visualisation des tableaux

Êtes-vous curieux ?

Pandafy un DataFrame Spark

Mettez du Spark dans vos données

Abandonner l'intermédiaire

2

Manipulation des données

Commencer le chapitre

Création de colonnes

SQL en bref

SQL en bref (2)

Filtrage des données

Sélection II

Agrégation

Agrégation II

Regroupement et agrégation I

Regroupement et agrégation II

Adhésion II

3

Commencer avec les pipelines d'apprentissage automatique

Commencer le chapitre

Pipelines d'apprentissage automatique

Rejoindre les DataFrame

Types de données

Chaîne vers entier

Créer une nouvelle colonne

Fabrication d'un booléen

Cordes et facteurs

Transporteur

Destination

Assembler un vecteur

Créer le pipeline

Test vs. Train

Transformer les données

Diviser les données

4

Mise au point et sélection du modèle

Commencer le chapitre

Qu'est-ce que la régression logistique ?

Créer le modeleur

Validation croisée

Créer l'évaluateur

Créez une grille

Faire le validateur

Ajuster le(s) modèle(s)

Évaluation des classificateurs binaires

Évaluer le modèle

Introduction à PySpark

Cours
terminé

Earn Déclaration de réalisation

Ajoutez ces informations d’identification à votre profil LinkedIn, à votre CV ou à votre CV
Partagez-le sur les réseaux sociaux et dans votre évaluation de performance

Inclus avecPremium or Teams

S'inscrire maintenant

Inscrivez-vous 15 millions d’apprenants et commencer Introduction à PySpark Aujourd’hui!

Créez votre compte gratuit

Google LinkedIn Facebook

ou

En continuant, vous acceptez nos Conditions d'utilisation, notre Politique de confidentialité et le fait que vos données sont stockées aux États-Unis.