Was sind Trainingsdaten? Wie es beim maschinellen Lernen verwendet wird
Veröffentlicht: 2021-07-30Modelle für maschinelles Lernen sind so gut wie die Daten, mit denen sie trainiert werden.
Ohne hochwertige Trainingsdaten auch am effizientesten maschinelles Lernen Algorithmen werden nicht funktionieren.
Der Bedarf an qualitativ hochwertigen, genauen, vollständigen und relevanten Daten beginnt schon früh im Schulungsprozess. Nur wenn der Algorithmus mit guten Trainingsdaten gefüttert wird, kann er die Merkmale leicht aufgreifen und Beziehungen finden, die er später vorhersagen muss.
Genauer gesagt sind qualitativ hochwertige Trainingsdaten der wichtigste Aspekt des maschinellen Lernens (und der künstlichen Intelligenz) wie kein anderer. Wenn Sie die Algorithmen für maschinelles Lernen (ML) in die richtigen Daten einführen, richten Sie sie auf Genauigkeit und Erfolg ein.
Was sind Trainingsdaten?
Trainingsdaten sind der anfängliche Datensatz, der zum Trainieren von maschinellen Lernalgorithmen verwendet wird. Modelle erstellen und verfeinern ihre Regeln anhand dieser Daten. Es handelt sich um eine Reihe von Datenbeispielen, die verwendet werden, um die Parameter eines maschinellen Lernmodells anzupassen, um es anhand von Beispielen zu trainieren.
Trainingsdaten werden auch als Trainingsdatensatz, Lernsatz und Trainingssatz bezeichnet. Es ist eine wesentliche Komponente jedes maschinellen Lernmodells und hilft ihnen, genaue Vorhersagen zu treffen oder eine gewünschte Aufgabe auszuführen.
Einfach ausgedrückt: Trainingsdaten bilden das maschinelle Lernmodell. Es lehrt, wie die erwartete Ausgabe aussieht. Das Modell analysiert den Datensatz wiederholt, um seine Eigenschaften genau zu verstehen und sich selbst für eine bessere Leistung anzupassen.
Im weiteren Sinne können Trainingsdaten in zwei Kategorien eingeteilt werden: gekennzeichnete Daten und nicht gekennzeichnete Daten .
Was sind gekennzeichnete Daten?
Beschriftete Daten sind eine Gruppe von Datenbeispielen, die mit einer oder mehreren aussagekräftigen Beschriftungen versehen sind. Sie werden auch als annotierte Daten bezeichnet, und ihre Beschriftungen identifizieren bestimmte Merkmale, Eigenschaften, Klassifizierungen oder enthaltene Objekte.
Beispielsweise können die Bilder von Früchten als Äpfel, Bananen oder Trauben getaggt werden.
Gekennzeichnete Trainingsdaten werden verwendet in überwachtes Lernen. Es ermöglicht ML-Modellen, die mit bestimmten Labels verbundenen Merkmale zu lernen, die zur Klassifizierung neuerer Datenpunkte verwendet werden können. Im obigen Beispiel bedeutet dies, dass ein Modell beschriftete Bilddaten verwenden kann, um die Merkmale bestimmter Früchte zu verstehen, und diese Informationen zum Gruppieren neuer Bilder verwenden kann.
Die Datenbeschriftung oder -anmerkung ist ein zeitaufwändiger Prozess, da Menschen die Datenpunkte markieren oder beschriften müssen. Die Erfassung beschrifteter Daten ist anspruchsvoll und teuer. Es ist nicht einfach, gekennzeichnete Daten im Vergleich zu nicht gekennzeichneten Daten zu speichern.
Was sind unbeschriftete Daten?
Wie erwartet sind unbeschriftete Daten das Gegenteil von beschrifteten Daten. Es handelt sich um Rohdaten oder Daten, die nicht mit Labels zur Identifizierung von Klassifikationen, Merkmalen oder Eigenschaften versehen sind. Es ist in verwendet unüberwachtes maschinelles Lernen, und die ML-Modelle müssen Muster oder Ähnlichkeiten in den Daten finden, um Schlussfolgerungen zu ziehen.
Um auf das vorherige Beispiel mit Äpfeln , Bananen und Trauben zurückzukommen, werden in unbeschrifteten Trainingsdaten die Bilder dieser Früchte nicht beschriftet. Das Modell muss jedes Bild anhand seiner Eigenschaften wie Farbe und Form bewerten.
Nach der Analyse einer beträchtlichen Anzahl von Bildern wird das Modell in der Lage sein, neue Bilder (neue Daten) in die Fruchtarten Äpfel , Bananen oder Trauben zu differenzieren. Natürlich wüsste das Model nicht, dass die jeweilige Frucht Apfel heißt. Stattdessen kennt es die Merkmale, die zu seiner Identifizierung erforderlich sind.
Es gibt hybride Modelle, die eine Kombination aus überwachtem und unüberwachtem maschinellem Lernen verwenden.
Wie Trainingsdaten beim maschinellen Lernen verwendet werden
Im Gegensatz zu maschinellen Lernalgorithmen folgen herkömmliche Programmieralgorithmen einer Reihe von Anweisungen, um Eingabedaten zu akzeptieren und Ausgaben bereitzustellen. Sie verlassen sich nicht auf historische Daten, und jede ihrer Aktionen ist regelbasiert. Das bedeutet auch, dass sie sich im Laufe der Zeit nicht verbessern, was beim maschinellen Lernen nicht der Fall ist.
Für maschinelle Lernmodelle sind historische Daten Futter. So wie sich Menschen auf frühere Erfahrungen verlassen, um bessere Entscheidungen zu treffen, betrachten ML-Modelle ihren Trainingsdatensatz mit früheren Beobachtungen, um Vorhersagen zu treffen.
Vorhersagen könnten das Klassifizieren von Bildern wie im Fall von beinhalten Bilderkennung oder das Verstehen des Kontexts eines Satzes wie bei der Verarbeitung natürlicher Sprache (NLP).
Stellen Sie sich einen Datenwissenschaftler als Lehrer, den maschinellen Lernalgorithmus als Schüler und den Trainingsdatensatz als Sammlung aller Lehrbücher vor.
Der Anspruch des Lehrers ist, dass der Schüler in Prüfungen und auch in der realen Welt gute Leistungen erbringen muss. Im Fall von ML-Algorithmen ist das Testen wie eine Prüfung. Die Lehrbücher (Trainingsdatensatz) enthalten mehrere Beispiele für die Art von Fragen, die in der Prüfung gestellt werden.
Tipp: Sehen Sie sich Big-Data-Analysen an zu wissen, wie große Datenmengen gesammelt, strukturiert, bereinigt und analysiert werden.
Natürlich enthält es nicht alle Beispiele für Fragen, die in der Prüfung gestellt werden, noch werden alle Beispiele aus dem Lehrbuch in der Prüfung gestellt. Die Lehrbücher können den Schülern helfen, sich darauf vorzubereiten, indem sie ihnen beibringen, was zu erwarten ist und wie sie reagieren sollen.
Kein Lehrbuch kann jemals vollständig sein. Im Laufe der Zeit wird sich die Art der gestellten Fragen ändern, und daher müssen die in den Lehrbüchern enthaltenen Informationen geändert werden. Im Fall von ML-Algorithmen sollte der Trainingssatz regelmäßig aktualisiert werden, um neue Informationen aufzunehmen.
Kurz gesagt, Trainingsdaten sind ein Lehrbuch, das Datenwissenschaftlern hilft, ML-Algorithmen eine Vorstellung davon zu geben, was sie zu erwarten haben. Obwohl das Trainings-Dataset nicht alle möglichen Beispiele enthält, wird es Algorithmen in die Lage versetzen, Vorhersagen zu treffen.
Trainingsdaten vs. Testdaten vs. Validierungsdaten
Trainingsdaten werden beim Modelltraining verwendet, oder mit anderen Worten, es sind die Daten, die zum Anpassen des Modells verwendet werden. Im Gegensatz dazu werden Testdaten verwendet, um die Leistung oder Genauigkeit des Modells zu bewerten. Es handelt sich um eine Stichprobe von Daten, die verwendet werden, um eine unvoreingenommene Bewertung der endgültigen Anpassung des Modells an die Trainingsdaten vorzunehmen.
Ein Trainingsdatensatz ist ein Anfangsdatensatz, der den ML-Modellen beibringt, gewünschte Muster zu identifizieren oder eine bestimmte Aufgabe auszuführen. Ein Testdatensatz wird verwendet, um zu bewerten, wie effektiv das Training war oder wie genau das Modell ist.
Sobald ein ML-Algorithmus auf einem bestimmten Datensatz trainiert wurde und Sie ihn auf demselben Datensatz testen, ist es wahrscheinlicher, dass er eine hohe Genauigkeit aufweist, da das Modell weiß, was zu erwarten ist. Wenn der Trainingsdatensatz alle möglichen Werte enthält, auf die das Modell in Zukunft stoßen könnte, schön und gut.
Aber das ist nie der Fall. Ein Trainingsdatensatz kann niemals umfassend sein und kann nicht alles vermitteln, was einem Modell in der realen Welt begegnen könnte. Daher wird ein Testdatensatz verwendet, der unsichtbare Datenpunkte enthält, um die Genauigkeit des Modells zu bewerten.

Dann gibt es Validierungsdaten . Dies ist ein Datensatz, der für häufige Auswertungen während der Trainingsphase verwendet wird. Obwohl das Modell diesen Datensatz gelegentlich sieht, lernt es nicht daraus. Das Validierungsset wird auch als Development Set oder Dev Set bezeichnet. Es schützt Modelle vor Overfitting und Underfitting.
Obwohl Validierungsdaten von Trainingsdaten getrennt sind, können Data Scientists einen Teil der Trainingsdaten für die Validierung reservieren. Aber das bedeutet natürlich automatisch, dass die Validierungsdaten während des Trainings ferngehalten wurden.
Tipp: Wenn Sie über eine begrenzte Datenmenge verfügen, kann eine Technik namens Kreuzvalidierung verwendet werden, um die Leistung des Modells abzuschätzen. Bei dieser Methode werden die Trainingsdaten nach dem Zufallsprinzip in mehrere Teilmengen aufgeteilt und eine zur Auswertung reserviert.
Viele verwenden die Begriffe „Testdaten“ und „Validierungsdaten“ synonym. Der Hauptunterschied zwischen den beiden besteht darin, dass Validierungsdaten zum Validieren des Modells während des Trainings verwendet werden, während das Testset zum Testen des Modells nach Abschluss des Trainings verwendet wird.

Der Validierungsdatensatz gibt dem Modell einen ersten Vorgeschmack auf unsichtbare Daten. Allerdings führen nicht alle Data Scientists eine Erstprüfung anhand von Validierungsdaten durch. Sie könnten diesen Teil überspringen und direkt zum Testen von Daten übergehen.
Was ist Human in the Loop?
Human in the Loop bezieht sich auf die Personen, die an der Erfassung und Aufbereitung von Trainingsdaten beteiligt sind.
Rohdaten werden aus mehreren Quellen gesammelt, darunter IoT-Geräte, Social-Media-Plattformen, Websites und Kundenfeedback. Nach der Erfassung würden die am Prozess beteiligten Personen die entscheidenden Attribute der Daten bestimmen, die gute Indikatoren für das Ergebnis sind, das das Modell vorhersagen soll.
Die Daten werden vorbereitet, indem sie bereinigt, fehlende Werte berücksichtigt, Ausreißer entfernt, Datenpunkte markiert und an geeigneten Stellen zum Trainieren von ML-Algorithmen geladen werden. Es wird auch mehrere Runden von Qualitätsprüfungen geben; Wie Sie wissen, können falsche Beschriftungen die Genauigkeit des Modells erheblich beeinträchtigen.
Was macht Trainingsdaten gut?
Hochwertige Daten werden in genaue Machine-Learning-Modelle übersetzt.
Daten von geringer Qualität können die Genauigkeit von Modellen erheblich beeinträchtigen, was zu erheblichen finanziellen Verlusten führen kann. Es ist fast so, als würde man einem Schüler ein Lehrbuch geben, das falsche Informationen enthält, und erwarten, dass er die Prüfung hervorragend meistert.
Im Folgenden sind die vier Hauptmerkmale qualitativ hochwertiger Trainingsdaten aufgeführt.
Relevant
Die Daten müssen für die jeweilige Aufgabe relevant sein. Wenn Sie zum Beispiel a trainieren möchten Computer Vision Algorithmus für autonome Fahrzeuge benötigen Sie wahrscheinlich keine Bilder von Obst und Gemüse. Stattdessen benötigen Sie einen Trainingsdatensatz mit Fotos von Straßen, Gehwegen, Fußgängern und Fahrzeugen.
Vertreter
Die KI-Trainingsdaten müssen die Datenpunkte oder Merkmale aufweisen, die die Anwendung vorhersagen oder klassifizieren soll. Natürlich kann der Datensatz niemals absolut sein, aber er muss mindestens die Attribute haben, die die KI-Anwendung erkennen soll.
Wenn das Modell beispielsweise Gesichter in Bildern erkennen soll, muss es mit diversen Daten gefüttert werden, die Gesichter von Menschen verschiedener Ethnien enthalten. Dadurch wird das Problem der KI-Voreingenommenheit verringert, und das Modell wird nicht voreingenommen gegenüber einer bestimmten Rasse, einem bestimmten Geschlecht oder einer bestimmten Altersgruppe sein.
Uniform
Alle Daten sollten das gleiche Attribut haben und müssen aus der gleichen Quelle stammen.
Angenommen, Ihr maschinelles Lernprojekt zielt darauf ab, die Abwanderungsrate vorherzusagen, indem es sich Kundeninformationen ansieht. Dafür haben Sie eine Kundeninformationsdatenbank, die Kundenname, Adresse, Anzahl der Bestellungen, Bestellhäufigkeit und andere relevante Informationen enthält. Dies sind historische Daten und können als Trainingsdaten verwendet werden.
Ein Teil der Daten darf keine zusätzlichen Informationen wie Alter oder Geschlecht enthalten. Dadurch werden die Trainingsdaten unvollständig und das Modell ungenau. Kurz gesagt, Einheitlichkeit ist ein kritischer Aspekt qualitativ hochwertiger Trainingsdaten.
Umfassend
Auch hier können die Trainingsdaten niemals absolut sein. Aber es sollte ein großer Datensatz sein, der die Mehrheit der Anwendungsfälle des Modells darstellt. Die Trainingsdaten müssen genügend Beispiele enthalten, damit das Modell angemessen lernen kann. Es muss reale Datenbeispiele enthalten, da es hilft, das Modell zu trainieren, um zu verstehen, was zu erwarten ist.
Wenn Sie an Trainingsdaten als Werte denken, die in einer großen Anzahl von Zeilen und Spalten platziert sind, liegen Sie leider falsch. Dabei kann es sich um beliebige Datentypen wie Text, Bilder, Audio oder Videos handeln.
Was beeinflusst die Qualität der Trainingsdaten?
Menschen sind sehr soziale Wesen, aber es gibt einige Vorurteile, die wir uns vielleicht als Kinder zugezogen haben und die ständige bewusste Anstrengung erfordern, um sie loszuwerden. Obwohl ungünstig, können solche Verzerrungen unsere Kreationen beeinflussen, und Anwendungen für maschinelles Lernen sind nicht anders.
Für ML-Modelle sind Trainingsdaten das einzige Buch, das sie lesen. Ihre Leistung oder Genauigkeit hängt davon ab, wie umfassend, relevant und repräsentativ das Buch selbst ist.
Allerdings beeinflussen drei Faktoren die Qualität der Trainingsdaten:
Personen: Die Personen, die das Modell trainieren, haben einen erheblichen Einfluss auf seine Genauigkeit oder Leistung. Wenn sie voreingenommen sind, wirkt sich das natürlich darauf aus, wie sie Daten taggen und letztendlich, wie das ML-Modell funktioniert.
Prozesse: Der Datenkennzeichnungsprozess muss strenge Qualitätskontrollen beinhalten. Dadurch wird die Qualität der Trainingsdaten deutlich gesteigert.
Tools: Inkompatible oder veraltete Tools können die Datenqualität beeinträchtigen. Die Verwendung einer robusten Datenkennzeichnungssoftware kann die mit dem Prozess verbundenen Kosten und den Zeitaufwand reduzieren.
Wo bekomme ich Trainingsdaten?
Es gibt mehrere Möglichkeiten, Trainingsdaten zu erhalten. Ihre Wahl der Quellen kann je nach Umfang Ihres maschinellen Lernprojekts, Budget und verfügbarer Zeit variieren. Im Folgenden sind die drei Hauptquellen für die Datenerhebung aufgeführt.
Open-Source-Trainingsdaten
Die meisten Amateur-ML-Entwickler und kleine Unternehmen, die sich keine Datenerfassung oder Kennzeichnung leisten können, verlassen sich auf Open-Source-Trainingsdaten. Es ist eine einfache Wahl, da es bereits gesammelt und kostenlos ist. Allerdings müssen Sie solche Datensätze höchstwahrscheinlich optimieren oder neu annotieren, um sie an Ihre Trainingsanforderungen anzupassen. ImageNet, Kaggle und Google Dataset Search sind einige Beispiele für Open-Source-Datensätze.
Internet und IoT
Die meisten mittelständischen Unternehmen sammeln Daten über das Internet und IoT-Geräte. Kameras, Sensoren und andere intelligente Geräte helfen beim Sammeln von Rohdaten, die später bereinigt und kommentiert werden. Diese Datenerfassungsmethode wird im Gegensatz zu Open-Source-Datensätzen speziell auf die Anforderungen Ihres Machine-Learning-Projekts zugeschnitten. Das Bereinigen, Standardisieren und Kennzeichnen der Daten ist jedoch ein zeitaufwändiger und ressourcenintensiver Prozess.
Künstliche Trainingsdaten
Wie der Name schon sagt, handelt es sich bei künstlichen Trainingsdaten um künstlich erstellte Daten, die maschinelle Lernmodelle verwenden. Sie werden auch als synthetische Daten bezeichnet und sind eine ausgezeichnete Wahl, wenn Sie qualitativ hochwertige Trainingsdaten mit spezifischen Funktionen zum Trainieren eines Algorithmus benötigen. Natürlich erfordert dieses Verfahren große Mengen an Rechenressourcen und viel Zeit.
Wie viele Trainingsdaten sind genug?
Es gibt keine spezifische Antwort darauf, wie viele Trainingsdaten genug Trainingsdaten sind. Es hängt von dem Algorithmus ab, den Sie trainieren – dem erwarteten Ergebnis, der Anwendung, der Komplexität und vielen anderen Faktoren.
Angenommen, Sie möchten einen Textklassifikator trainieren, der Sätze basierend auf dem Vorkommen der Begriffe „Katze“ und „Hund“ und ihrer Synonyme wie „Kätzchen“, „Kätzchen“, „Pussykatze“, „Welpe“ oder „Hündchen“ kategorisiert. . Dies erfordert möglicherweise keinen großen Datensatz, da nur wenige Begriffe abgeglichen und sortiert werden müssen.
Wenn dies jedoch ein Bildklassifikator wäre, der Bilder als „Katzen“ und „Hunde“ kategorisiert, würde die Anzahl der im Trainingsdatensatz benötigten Datenpunkte erheblich in die Höhe schnellen. Kurz gesagt, es spielen viele Faktoren eine Rolle, um zu entscheiden, welche Trainingsdaten genügend Trainingsdaten sind.
Die benötigte Datenmenge ändert sich je nach verwendetem Algorithmus.
Für den Kontext, Deep Learning, eine Teilmenge des maschinellen Lernens, erfordert Millionen von Datenpunkten, um die künstlichen neuronalen Netze (KNNs) zu trainieren. Im Gegensatz dazu benötigen maschinelle Lernalgorithmen nur Tausende von Datenpunkten. Aber das ist natürlich eine weit hergeholte Verallgemeinerung, da die benötigte Datenmenge je nach Anwendung unterschiedlich ist.
Je mehr Sie das Modell trainieren, desto genauer wird es. Daher ist es immer besser, eine große Datenmenge als Trainingsdaten zu haben.
Müll rein, Müll raus
Der Ausdruck „Garbage in, Garbage out“ ist einer der ältesten und am häufigsten verwendeten Ausdrücke in der Datenwissenschaft. Selbst wenn die Rate der Datengenerierung exponentiell wächst, gilt es immer noch.
Der Schlüssel liegt darin, qualitativ hochwertige, repräsentative Daten in maschinelle Lernalgorithmen einzuspeisen. Dadurch kann die Genauigkeit von Modellen erheblich verbessert werden. Qualitativ hochwertige Trainingsdaten sind auch entscheidend für die Erstellung unvoreingenommener Anwendungen für maschinelles Lernen.
Haben Sie sich jemals gefragt, wozu Computer mit menschenähnlicher Intelligenz fähig wären? Das Computeräquivalent der menschlichen Intelligenz ist als künstliche allgemeine Intelligenz bekannt, und wir müssen noch feststellen, ob es die größte oder die gefährlichste Erfindung aller Zeiten sein wird.

