Direkt zum Inhalt

Startseite Spark

Kurs

Einführung in PySpark

Fortgeschrittener Anfänger

Updated 12.2024

Lernen Sie, verteiltes Datenmanagement und maschinelles Lernen in Spark mit dem PySpark-Paket umzusetzen.

Kurs kostenlos starten

Kostenlos inbegriffenPremium or Teams

SparkData Engineering4 Stunden45 Übungen3,850 XP148,587Leistungsnachweis

Kostenloses Konto erstellen

Google LinkedIn Facebook

oder

Durch Klick auf die Schaltfläche akzeptierst du unsere Nutzungsbedingungen, unsere Datenschutzrichtlinie und die Speicherung deiner Daten in den USA.

Trainierst du 2 oder mehr?

Versuchen DataCamp for Business

Beliebt bei Lernenden in Tausenden Unternehmen

Kursbeschreibung

In diesem Kurs lernst du, wie du Spark mit Python verwendest! Spark ist ein Tool für parallele Berechnungen mit großen Datensätzen und lässt sich gut in Python integrieren. PySpark ist das Python-Paket, das diese Magie möglich macht. Du wirst dieses Paket nutzen, um mit Daten über Flüge von Portland nach Seattle zu arbeiten. Du lernst, diese Daten zu verarbeiten und eine ganze Machine-Learning-Pipeline zu erstellen, um vorherzusagen, ob Flüge verspätet sein werden oder nicht. Mach dich bereit, Spark in deinen Python-Code einzubauen und in die Welt des leistungsstarken Machine Learning einzutauchen!

Voraussetzungen

Introduction to Python

1

PySpark kennen lernen

Kapitel starten

Was ist Spark eigentlich?

Spark in Python verwenden

Den SparkContext untersuchen

DataFrames verwenden

Erstellen einer SparkSession

Tabellen betrachten

Neugierig geworden?

Einen Spark DataFrame pandafizieren

Bringe etwas Spark in deine Daten

Den Mittelsmann weglassen

2

Daten manipulieren

Kapitel starten

Spalten erzeugen

SQL kurz und bündig

SQL kurz und bündig (2)

Daten filtern

Auswählen von II

Aggregieren

Aggregieren von II

Gruppieren und Aggregieren I

Gruppieren und Aggregieren von II

Verknüpfen

Verknüpfen von II

3

Erste Schritte mit Machine-Learning-Pipelines

Kapitel starten

Machine-Learning-Pipelines

Die DataFrames verknüpfen

String zu Ganzzahl

Eine neue Spalte erstellen

Einen booleschen Wert erstellen

Strings und Faktoren

Fluggesellschaft

Ziel

Einen Vektor erstellen

Die Pipeline erstellen

Test vs. Train

Daten transformieren

Daten teilen

4

Modelloptimierung und -auswahl

Kapitel starten

Was ist logistische Regression?

Modellierer erstellen

Kreuzvalidierung

Den Evaluator erstellen

Ein Raster erstellen

Validator erstellen

Modell(e) trainieren

Binäre Klassifikatoren bewerten

Das Modell bewerten

Einführung in PySpark

Kurs
abgeschlossen

Leistungsnachweis verdienen

Fügen Sie diese Anmeldeinformationen zu Ihrem LinkedIn-Profil, Lebenslauf oder Lebenslauf hinzu
Teilen Sie es in den sozialen Medien und in Ihrer Leistungsbeurteilung

Im Lieferumfang enthaltenPremium or Teams

Machen Sie mit 15 Millionen Lernende und starten Sie Einführung in PySpark Heute!

Kostenloses Konto erstellen

Google LinkedIn Facebook

oder

Durch Klick auf die Schaltfläche akzeptierst du unsere Nutzungsbedingungen, unsere Datenschutzrichtlinie und die Speicherung deiner Daten in den USA.