Accéder au contenu principal
AccueilSpark

Introduction à PySpark

Apprenez à mettre en œuvre la gestion des données distribuées et l'apprentissage automatique dans Spark à l'aide du package PySpark.

Commencer Le Cours Gratuitement
4 heures45 exercices146 789 apprenantsTrophyDéclaration de réalisation

Créez votre compte gratuit

GoogleLinkedInFacebook

ou

En continuant, vous acceptez nos Conditions d'utilisation, notre Politique de confidentialité et le fait que vos données sont stockées aux États-Unis.
Group

Formation de 2 personnes ou plus ?

Essayer DataCamp for Business

Apprécié par les apprenants de milliers d'entreprises


Description du cours

Dans ce cours, vous apprendrez à utiliser Spark depuis Python ! Spark est un outil permettant d'effectuer des calculs parallèles avec de grands ensembles de données et il s'intègre bien à Python. PySpark est le paquetage Python qui permet à la magie d'opérer. Vous utiliserez ce paquet pour travailler avec des données sur les vols au départ de Portland et de Seattle. Vous apprendrez à manipuler ces données et à construire un pipeline d'apprentissage automatique pour prédire si les vols seront retardés ou non. Préparez-vous à mettre un peu de Spark dans votre code Python et à plonger dans le monde de l'apprentissage automatique haute performance !
Pour les entreprises

Formation de 2 personnes ou plus ?

Donnez à votre équipe l’accès à la plateforme DataCamp complète, y compris toutes les fonctionnalités.
DataCamp Pour Les EntreprisesPour une solution sur mesure , réservez une démo.

Dans les titres suivants

Big Data avec PySpark

Aller à la piste

Scientifique en apprentissage automatique en Python

Aller à la piste
  1. 1

    Apprendre à connaître PySpark

    Gratuit

    Dans ce chapitre, vous apprendrez comment Spark gère les données et comment vous pouvez lire et écrire des tableaux depuis Python.

    Jouez Au Chapitre Maintenant
    Qu'est-ce que Spark ?
    50 xp
    Utiliser Spark en Python
    50 xp
    Examiner le SparkContext
    100 xp
    Utilisation des DataFrame
    50 xp
    Créer une session SparkSession
    100 xp
    Visualisation des tableaux
    100 xp
    Êtes-vous curieux ?
    100 xp
    Pandafy un DataFrame Spark
    100 xp
    Mettez du Spark dans vos données
    100 xp
    Abandonner l'intermédiaire
    100 xp
  2. 3

    Commencer avec les pipelines d'apprentissage automatique

    PySpark intègre des routines d'apprentissage automatique de pointe, ainsi que des utilitaires permettant de créer des pipelines d'apprentissage automatique complets. Vous les découvrirez dans ce chapitre.

    Jouez Au Chapitre Maintenant
  3. 4

    Mise au point et sélection du modèle

    Dans ce dernier chapitre, vous appliquerez ce que vous avez appris pour créer un modèle qui prédit les vols qui seront retardés.

    Jouez Au Chapitre Maintenant
Pour les entreprises

Formation de 2 personnes ou plus ?

Donnez à votre équipe l’accès à la plateforme DataCamp complète, y compris toutes les fonctionnalités.

Dans les titres suivants

Big Data avec PySpark

Aller à la piste

Scientifique en apprentissage automatique en Python

Aller à la piste

ensembles de données

AirportsFlightsPlanes

collaborateurs

Collaborator's avatar
Colin Ricardo
Lore Dirick HeadshotLore Dirick

Director of Data Science Education at Flatiron School

Voir Plus

Qu’est-ce que les autres apprenants ont à dire ?

Inscrivez-vous 15 millions d’apprenants et commencer Introduction à PySpark Aujourd’hui!

Créez votre compte gratuit

GoogleLinkedInFacebook

ou

En continuant, vous acceptez nos Conditions d'utilisation, notre Politique de confidentialité et le fait que vos données sont stockées aux États-Unis.