Einführung in PySpark
Lernen Sie, verteiltes Datenmanagement und maschinelles Lernen in Spark mit dem PySpark-Paket umzusetzen.
Kurs Kostenlos Starten4 Stunden45 Übungen146.788 LernendeLeistungsnachweis
Kostenloses Konto erstellen
oder
Durch Klick auf die Schaltfläche akzeptierst du unsere Nutzungsbedingungen, unsere Datenschutzrichtlinie und die Speicherung deiner Daten in den USA.Trainierst du 2 oder mehr?
Versuchen DataCamp for BusinessBeliebt bei Lernenden in Tausenden Unternehmen
Kursbeschreibung
In diesem Kurs lernst du, wie du Spark mit Python verwendest! Spark ist ein Tool für parallele Berechnungen mit großen Datensätzen und lässt sich gut in Python integrieren. PySpark ist das Python-Paket, das diese Magie möglich macht. Du wirst dieses Paket nutzen, um mit Daten über Flüge von Portland nach Seattle zu arbeiten. Du lernst, diese Daten zu verarbeiten und eine ganze Machine-Learning-Pipeline zu erstellen, um vorherzusagen, ob Flüge verspätet sein werden oder nicht. Mach dich bereit, Spark in deinen Python-Code einzubauen und in die Welt des leistungsstarken Machine Learning einzutauchen!
Trainierst du 2 oder mehr?
Verschaffen Sie Ihrem Team Zugriff auf die vollständige DataCamp-Plattform, einschließlich aller Funktionen.In den folgenden Tracks
Big Data mit PySpark
Gehe zu TrackMachine Learning Scientist mit Python
Gehe zu Track- 1
PySpark kennen lernen
KostenlosIn diesem Kapitel lernst du, wie Spark mit Daten umgeht und wie du mit Python Tabellen lesen und schreiben kannst.
Was ist Spark eigentlich?50 xpSpark in Python verwenden50 xpDen SparkContext untersuchen100 xpDataFrames verwenden50 xpErstellen einer SparkSession100 xpTabellen betrachten100 xpNeugierig geworden?100 xpEinen Spark DataFrame pandafizieren100 xpBringe etwas Spark in deine Daten100 xpDen Mittelsmann weglassen100 xp - 2
Daten manipulieren
In diesem Kapitel lernst du das Modul pyspark.sql kennen, das optimierte Datenabfragen für deine Spark-Sitzung bereitstellt.
- 3
Erste Schritte mit Machine-Learning-Pipelines
PySpark verfügt über integrierte, hochmoderne Machine-Learning-Routinen sowie über Hilfsprogramme zur Erstellung kompletter Machine-Learning-Pipelines. In diesem Kapitel lernst du mehr darüber.
Machine-Learning-Pipelines50 xpDie DataFrames verknüpfen100 xpDatentypen50 xpString zu Ganzzahl100 xpEine neue Spalte erstellen100 xpEinen booleschen Wert erstellen100 xpStrings und Faktoren50 xpFluggesellschaft100 xpZiel100 xpEinen Vektor erstellen100 xpDie Pipeline erstellen100 xpTest vs. Train50 xpDaten transformieren100 xpDaten teilen100 xp - 4
Modelloptimierung und -auswahl
In diesem letzten Kapitel wendest du das Gelernte an, um ein Modell zu erstellen, das vorhersagt, welche Flüge verspätet sein werden.
Trainierst du 2 oder mehr?
Verschaffen Sie Ihrem Team Zugriff auf die vollständige DataCamp-Plattform, einschließlich aller Funktionen.In den folgenden Tracks
Big Data mit PySpark
Gehe zu TrackMachine Learning Scientist mit Python
Gehe zu TrackLore Dirick
Mehr AnzeigenDirector of Data Science Education at Flatiron School
Nick Solomon
Mehr AnzeigenData Scientist
Was sagen andere Lernende?
Melden Sie sich an 15 Millionen Lernende und starten Sie Einführung in PySpark Heute!
Kostenloses Konto erstellen
oder
Durch Klick auf die Schaltfläche akzeptierst du unsere Nutzungsbedingungen, unsere Datenschutzrichtlinie und die Speicherung deiner Daten in den USA.