Accéder au contenu principal
AccueilSpark

Machine Learning with PySpark

Learn how to make predictions from data with Apache Spark, using decision trees, logistic regression, linear regression, ensembles, and pipelines.

Commencer Le Cours Gratuitement
4 heures16 vidéos56 exercices23 731 apprenantsTrophyDéclaration de réalisation

Créez votre compte gratuit

GoogleLinkedInFacebook

ou

En continuant, vous acceptez nos Conditions d'utilisation, notre Politique de confidentialité et le fait que vos données sont stockées aux États-Unis.
Group

Formation de 2 personnes ou plus ?

Essayer DataCamp for Business

Apprécié par les apprenants de milliers d'entreprises


Description du cours

Learn to Use Apache Spark for Machine Learning

Spark is a powerful, general purpose tool for working with Big Data. Spark transparently handles the distribution of compute tasks across a cluster. This means that operations are fast, but it also allows you to focus on the analysis rather than worry about technical details. In this course you'll learn how to get data into Spark and then delve into the three fundamental Spark Machine Learning algorithms: Linear Regression, Logistic Regression/Classifiers, and creating pipelines.

Build and Test Decision Trees

Building your own decision trees is a great way to start exploring machine learning models. You’ll use an algorithm called ‘Recursive Partitioning’ to divide data into two classes and find a predictor within your data that results in the most informative split of the two classes, and repeat this action with further nodes. You can then use your decision tree to make predictions with new data.

Master Logistic and Linear Regression in PySpark

Logistic and linear regression are essential machine learning techniques that are supported by PySpark. You’ll learn to build and evaluate logistic regression models, before moving on to creating linear regression models to help you refine your predictors to only the most relevant options.

By the end of the course, you’ll feel confident in applying your new-found machine learning knowledge, thanks to hands-on tasks and practice data sets found throughout the course.
Pour les entreprises

Formation de 2 personnes ou plus ?

Donnez à votre équipe l’accès à la plateforme DataCamp complète, y compris toutes les fonctionnalités.
DataCamp Pour Les EntreprisesPour une solution sur mesure , réservez une démo.

Dans les titres suivants

Big Data avec PySpark

Aller à la piste

Scientifique en apprentissage automatique en Python

Aller à la piste
  1. 1

    Introduction

    Gratuit

    Spark is a framework for working with Big Data. In this chapter you'll cover some background about Spark and Machine Learning. You'll then find out how to connect to Spark using Python and load CSV data.

    Jouez Au Chapitre Maintenant
    Machine Learning & Spark
    50 xp
    Characteristics of Spark
    50 xp
    Components in a Spark Cluster
    50 xp
    Connecting to Spark
    50 xp
    Location of Spark master
    50 xp
    Creating a SparkSession
    100 xp
    Loading Data
    50 xp
    Loading flights data
    100 xp
    Loading SMS spam data
    100 xp
Pour les entreprises

Formation de 2 personnes ou plus ?

Donnez à votre équipe l’accès à la plateforme DataCamp complète, y compris toutes les fonctionnalités.

Dans les titres suivants

Big Data avec PySpark

Aller à la piste

Scientifique en apprentissage automatique en Python

Aller à la piste

ensembles de données

FlightsSMS

collaborateurs

Collaborator's avatar
Hadrien Lacroix
Collaborator's avatar
Mona Khalil
Andrew Collier HeadshotAndrew Collier

Data Scientist @ Exegetic Analytics

Voir Plus

Qu’est-ce que les autres apprenants ont à dire ?

Inscrivez-vous 15 millions d’apprenants et commencer Machine Learning with PySpark Aujourd’hui!

Créez votre compte gratuit

GoogleLinkedInFacebook

ou

En continuant, vous acceptez nos Conditions d'utilisation, notre Politique de confidentialité et le fait que vos données sont stockées aux États-Unis.