Daten in R bereinigen
Lernen Sie, Daten schnell und genau zu bereinigen, um Ihr Unternehmen von Rohdaten zu tollen Erkenntnissen zu führen.
Kurs Kostenlos Starten4 Stunden13 Videos44 Übungen52.112 LernendeLeistungsnachweis
Kostenloses Konto erstellen
oder
Durch Klick auf die Schaltfläche akzeptierst du unsere Nutzungsbedingungen, unsere Datenschutzrichtlinie und die Speicherung deiner Daten in den USA.Trainierst du 2 oder mehr?
Versuchen DataCamp for BusinessBeliebt bei Lernenden in Tausenden Unternehmen
Kursbeschreibung
Überwinde häufige Datenprobleme wie das Entfernen von Duplikaten in R
Man sagt, dass Datenwissenschaftler/innen 80 % ihrer Zeit mit dem Bereinigen und Bearbeiten von Daten verbringen und nur 20 % ihrer Zeit mit der Analyse. Die Zeit, die du für die Bereinigung aufbringst, ist sehr wichtig, denn die Analyse verschmutzter Daten kann dich zu falschen Schlussfolgerungen verleiten.In diesem Kurs lernst du eine Reihe von Techniken kennen, mit denen du schmutzige Daten mit R bereinigen kannst. Du beginnst mit der Konvertierung von Datentypen, der Anwendung von Bereichseinschränkungen und dem Umgang mit vollständigen und teilweisen Duplikaten, um Doppelzählungen zu vermeiden.
Sich mit fortgeschrittenen Datenherausforderungen befassen
Wenn du dich mit den üblichen Datenproblemen vertraut gemacht hast, kannst du dich fortgeschritteneren Herausforderungen zuwenden, wie z.B. der Sicherstellung der Konsistenz von Messungen und dem Umgang mit fehlenden Daten. Nach jedem neuen Konzept hast du die Möglichkeit, eine praktische Übung zu absolvieren, um dein Wissen zu festigen und deine Erfahrung zu erweitern.Lerne die Datensatzverknüpfung bei der Datenbereinigung zu nutzen
Die Datensatzverknüpfung wird verwendet, um Datensätze zusammenzuführen, wenn die Werte Probleme wie Tippfehler oder unterschiedliche Schreibweisen aufweisen. Im letzten Kapitel lernst du diese nützliche Technik kennen und übst ihre Anwendung, indem du zwei Datensätze von Restaurantbewertungen zu einem einzigen Datensatz zusammenfügst.Trainierst du 2 oder mehr?
Verschaffen Sie Ihrem Team Zugriff auf die vollständige DataCamp-Plattform, einschließlich aller Funktionen.In den folgenden Tracks
Daten importieren und bereinigen mit R
Gehe zu Track- 1
Häufige Datenprobleme
KostenlosIn diesem Kapitel erfährst du, wie du einige der häufigsten Probleme mit schmutzigen Daten lösen kannst. Du konvertierst Datentypen, wendest Bereichsbeschränkungen an, um zukünftige Datenpunkte zu entfernen, und entfernst doppelte Datenpunkte, um Doppelzählungen zu vermeiden.
Datentyp-Beschränkungen50 xpGemeinsame Datentypen100 xpDatentypen umwandeln100 xpSchnüre trimmen100 xpBereichseinschränkungen50 xpEinschränkungen bei der Fahrtdauer100 xpZurück in die Zukunft100 xpEinzigartigkeitsbeschränkungen50 xpVollständige Duplikate100 xpEntfernen von teilweisen Duplikaten100 xpTeilweise Duplikate zusammenfassen100 xp - 2
Kategoriale und Textdaten
Kategoriale und Textdaten gehören oft zu den unübersichtlichsten Teilen eines Datensatzes, weil sie unstrukturiert sind. In diesem Kapitel erfährst du, wie du Unstimmigkeiten bei Leerzeichen und Großschreibung in Kategoriebeschriftungen behebst, mehrere Kategorien zu einer zusammenfasst und Zeichenketten neu formatierst, um die Konsistenz zu gewährleisten.
Überprüfung der Mitgliedschaft50 xpNur für Mitglieder100 xpKein Mitglied100 xpProbleme mit kategorischen Daten50 xpErkennen von Unstimmigkeiten100 xpKorrektur von Unstimmigkeiten100 xpZusammenfallende Kategorien100 xpTextdaten bereinigen50 xpErkennen von inkonsistenten Textdaten100 xpAuswechseln und Entfernen100 xpUngültige Telefonnummern100 xp - 3
Erweiterte Datenprobleme
In diesem Kapitel beschäftigst du dich mit fortgeschrittenen Datenbereinigungsproblemen, z. B. mit der Sicherstellung, dass alle Gewichte in Kilogramm statt in Pfund angegeben werden. Du erwirbst außerdem unschätzbare Fähigkeiten, mit denen du überprüfen kannst, ob die Werte korrekt hinzugefügt wurden und ob fehlende Werte deine Analysen nicht negativ beeinflussen.
- 4
Datensatzverknüpfung
Die Datensatzverknüpfung ist eine leistungsstarke Technik, mit der mehrere Datensätze zusammengeführt werden können, wenn die Werte Tippfehler oder unterschiedliche Schreibweisen aufweisen. In diesem Kapitel lernst du, wie du Datensätze miteinander verknüpfst, indem du die Ähnlichkeit zwischen Zeichenketten berechnest - und dann deine neuen Kenntnisse einsetzt, um zwei Restaurantbewertungsdatensätze zu einem einzigen, sauberen Masterdatensatz zu verbinden.
Zeichenketten vergleichen50 xpEntfernung berechnen50 xpKleiner Abstand, kleiner Unterschied100 xpTippfehler mit String-Abstand korrigieren100 xpPaare generieren und vergleichen50 xpVerlinken oder mitmachen?100 xpBlockieren von Paaren100 xpPaare vergleichen100 xpPunktevergabe und Verlinkung50 xpErst punkten, dann auswählen oder erst auswählen, dann punkten?100 xpZusammenstellen100 xpHerzlichen Glückwunsch!50 xp
Trainierst du 2 oder mehr?
Verschaffen Sie Ihrem Team Zugriff auf die vollständige DataCamp-Plattform, einschließlich aller Funktionen.In den folgenden Tracks
Daten importieren und bereinigen mit R
Gehe zu TrackMitwirkende
Voraussetzungen
Joining Data with dplyrMaggie Matsui
Mehr AnzeigenCurriculum Manager at DataCamp
Was sagen andere Lernende?
Melden Sie sich an 15 Millionen Lernende und starten Sie Daten in R bereinigen Heute!
Kostenloses Konto erstellen
oder
Durch Klick auf die Schaltfläche akzeptierst du unsere Nutzungsbedingungen, unsere Datenschutzrichtlinie und die Speicherung deiner Daten in den USA.