Direkt zum Inhalt
StartseiteSpark

Big Data Fundamentals with PySpark

Learn the fundamentals of working with big data with PySpark.

Kurs Kostenlos Starten
4 Stunden16 Videos55 Übungen52.260 LernendeTrophyLeistungsnachweis

Kostenloses Konto erstellen

GoogleLinkedInFacebook

oder

Durch Klick auf die Schaltfläche akzeptierst du unsere Nutzungsbedingungen, unsere Datenschutzrichtlinie und die Speicherung deiner Daten in den USA.
Group

Trainierst du 2 oder mehr?

Versuchen DataCamp for Business

Beliebt bei Lernenden in Tausenden Unternehmen


Kursbeschreibung

There's been a lot of buzz about Big Data over the past few years, and it's finally become mainstream for many companies. But what is this Big Data? This course covers the fundamentals of Big Data via PySpark. Spark is a "lightning fast cluster computing" framework for Big Data. It provides a general data processing platform engine and lets you run programs up to 100x faster in memory, or 10x faster on disk, than Hadoop. You’ll use PySpark, a Python package for Spark programming and its powerful, higher-level libraries such as SparkSQL, MLlib (for machine learning), etc. You will explore the works of William Shakespeare, analyze Fifa 2018 data and perform clustering on genomic datasets. At the end of this course, you will have gained an in-depth understanding of PySpark and its application to general Big Data analysis.
Für Unternehmen

Trainierst du 2 oder mehr?

Verschaffen Sie Ihrem Team Zugriff auf die vollständige DataCamp-Plattform, einschließlich aller Funktionen.
DataCamp Für UnternehmenFür eine maßgeschneiderte Lösung buchen Sie eine Demo.

In den folgenden Tracks

Big Data mit PySpark

Gehe zu Track
  1. 1

    Introduction to Big Data analysis with Spark

    Kostenlos

    This chapter introduces the exciting world of Big Data, as well as the various concepts and different frameworks for processing Big Data. You will understand why Apache Spark is considered the best framework for BigData.

    Kapitel Jetzt Abspielen
    What is Big Data?
    50 xp
    The 3 V's of Big Data
    50 xp
    PySpark: Spark with Python
    50 xp
    Understanding SparkContext
    100 xp
    Interactive Use of PySpark
    100 xp
    Loading data in PySpark shell
    100 xp
    Review of functional programming in Python
    50 xp
    Use of lambda() with map()
    100 xp
    Use of lambda() with filter()
    100 xp
  2. 4

    Machine Learning with PySpark MLlib

    PySpark MLlib is the Apache Spark scalable machine learning library in Python consisting of common learning algorithms and utilities. Throughout this last chapter, you'll learn important Machine Learning algorithms. You will build a movie recommendation engine and a spam filter, and use k-means clustering.

    Kapitel Jetzt Abspielen
Für Unternehmen

Trainierst du 2 oder mehr?

Verschaffen Sie Ihrem Team Zugriff auf die vollständige DataCamp-Plattform, einschließlich aller Funktionen.

In den folgenden Tracks

Big Data mit PySpark

Gehe zu Track

Datensätze

Complete ShakespeareMovie ratings5000 pointsFIFA 2018PeopleSpamHam

Mitwirkende

Collaborator's avatar
Hadrien Lacroix
Collaborator's avatar
Chester Ismay

Voraussetzungen

Introduction to Python
Upendra Kumar Devisetty HeadshotUpendra Kumar Devisetty

Science Analyst at CyVerse

Mehr Anzeigen

Was sagen andere Lernende?

Melden Sie sich an 15 Millionen Lernende und starten Sie Big Data Fundamentals with PySpark Heute!

Kostenloses Konto erstellen

GoogleLinkedInFacebook

oder

Durch Klick auf die Schaltfläche akzeptierst du unsere Nutzungsbedingungen, unsere Datenschutzrichtlinie und die Speicherung deiner Daten in den USA.