Grafik von Clay Banks – https://unsplash.com/@claybanks

Einführung in Supervised Learning

Supervised Learning stellt eine der vier Themengebiete des Machine Learnings dar. Dieser Post soll eine Einführung in das Thema geben.

Henrik Bartsch

Henrik Bartsch

Einordnung

Machine Learning hat in den letzten Jahren einiges an Aufsehen erzeugt. Machine Learning wurde als Potenzial für Individuen und Unternehmen angesehen, Verfahren oder Vorhersagen zu verbessern, auch über den Grad hinaus, welchen Menschen erreichen können. Das dabei am häufigsten angewandte Themengebiet: Supervised Learning, ein Grundwerkzeug des Machine Learning’s. Dieser Post beschreibt die Grundzüge vom Supervised Learning und gibt einen groben Überblick über Problematiken und Anwendungsbereiche.

Einführung in Supervised Learning

Beim Supervised Learning (auch als Supervised Machine Learning bekannt) geht es darum, Modelle zu generieren, welche eine präzise Abbildung zwischen bekannten Input-Informationen und bekannten Output-Informationen generieren. Durch Eingabe dieser Input-Informationen wird nach und nach das Modell iterativ angepasst, um besser auf den Daten zu arbeiten. Dieses Verfahren wird so lange durchgeführt, bis bestimmte Voraussetzungen oder Metriken erfüllt werden. 1 Auch Mustererkennung ist ein wichtiger Bestandteil solcher Algorithmen, welche anschließend ausgewertet durch den Nutzer verwendet werden können. 2 3

Funktionsweise von Supervised Learning

Beim Supervised Learning verwenden wir einen Datensatz für das Training. Dieser wird im Allgemeinen in zwei Teile unterteilt: Einen Trainingsdatensatz und einen Testdatensatz. Der Trainingsdatensatz wird hierbei verwendet, um die Gewichte oder Parameter des Modells zu aktualisieren und der Testdatensatz wird verwendet, um die Verallgemeinerung des Modells zu überprüfen und die reale Anwendbarkeit zu testen. Beim Training wird hierbei eine Loss-Funktion minimiert, welche die Abweichung zwischen den tatsächlichen und den vorhergesagten Output-Informationen misst. 4

Beim Supervised Learning gibt es grundsätzlich zwei verschiedene Arten von Problemen, welche hiermit behandelt werden können:

  1. Klassifizierung: Input-Informationen sollen dazu verwendet werden, um den Informationssatz einer bestimmten Klasse zuzuordnen. Das Modell soll dabei versuchen Zusammenhänge zu erkennen oder Definitionen zu finden, welche zu jeder Klasse am besten passen. Beispiele für solche Algorithmen sind Linear Classifier, Support Vector Machines, Decision Trees, k-Nearest Neighbor, oder Random Forest.

  2. Regression: Regressionsprobleme versuchen den Zusammenhang zwischen abhängigen und unabhängigen Variablen zu erklären. Ein Regressionsmodell soll hierbei Vorhersagen treffen, wie sich bestimmte Werte in speziellen Situationen oder zu bestimmten Zeitpunkten entwickeln wird. Beispiele für solche Algorithmen sind Linear Regression, Logistic Regression, Polynomial Regression.

Grundsätzlich können allerdings auch alle Algorithmen durch künstliche neuronale Netze abgebildet werden. Vor allem bei komplexen Regressionsproblemen bietet sich dies an, da die oben genannten Algorithmen nur eine bestimmte Genauigkeit aufweisen können.

Vorteile von Supervised Learning

Es gibt eine Reihe von Argumenten, welche für die Verwendung von Supervised Learning sprechen: 5

  1. Lernerfahrung fließt in den Prozess mit ein (Datensatz),
  2. Hervorragend für Vorhersagen,
  3. Kann Empfehlungen generieren,
  4. Einfache Implementierung des Lernprozesses.

Nachteile von Supervised Learning

Für das Training von “Supervised Learning”-Algorithmen müssen eine Reihe von Voraussetzungen erfüllt sein, welche sich nachteilig auswirken können: 4 6

  1. Die Modelle benötigen eine gewisse Expertise, um sinnvolle Ergebnisse zu erzielen,
  2. Training kann zeit-intensiv sein,
  3. Datensätze können höhere Fehlerraten haben als der menschliche Fehler, was in fehlerhaftem Lernverhalten resultieren kann,
  4. “Supervised Learning”-Methoden können nicht auf sich allein gestellt eine Klassifizierung oder Clustering durchführen.
  5. Die Daten aus dem Datensatz sollten möglichst heterogen sein und eine möglichst große Varianz besitzen, um entsprechend gute Ergebnisse zu liefern,
  6. Datenaufbereitung für entsprechende Algorithmen kann komplex sein.

Anwendungen von Supervised Learning

Beim Supervised Learning gibt es grundsätzlich zwei verschiedene Anwendungsbereiche, in welchem die Algorithmen häufig angewandt werden.

Classification

Bei einer Classification (deut.: Klassifikation) geht es darum, aus Eingangsdaten eine Vorhersage über eine Zugehörigkeit zu treffen. Diese Zugehörigkeit wird üblicherweise als Klasse bezeichnet. 7 8

Als Beispiel kann eine Unterteilung von Bildern in Hunde und Katzen gesehen werden.

Regression

Bei einer Regression geht es darum, mithilfe von Eingangsdaten eine oder mehrere verschiedene Ausgangsvariablen vorherzusagen. 7

Als Beispiel hierfür können Kursvorhersagen für Aktien oder geschichtliche Entwicklung verschiedener Eigenschaften angesehen werden.

Anwendungsbeispiele

Supervised Learning kann in verschiedenen Problemfällen angewandt werden: 4 6 9

  1. Klassifizierung von E-Mails nach Spam/Nicht-Spam.
  2. Vorhersagen von Verkaufszahlen (Predictive Analytics)
  3. Bild- und Objekterkennung
  4. Vorhersage von emotionalen Zuständen (Sentiment Analysis)
  5. Spracherkennung

Allgemein wird Supervised Learning verwendet, um den Arbeitsaufwand repetitiver Aufgaben zu reduzieren. Klassischerweise handelt es sich hierbei um Klassifizierung großer Datenmengen von Daten oder auch die Hilfestellung bei komplexen Aufgaben für Mitarbeiter. Notwendig ist hierfür menschliche Expertise, um entsprechende Trainingsdatensätze zu generieren und trainierte Modelle zu auf Korrektheit zu überprüfen.

Quellen

Footnotes

  1. aracom.de

  2. ionos.de

  3. edureka.co

  4. ibm.com 2 3

  5. datasolut.com

  6. wikipedia.org 2

  7. builtin.com 2

  8. towardsdatascience.com

  9. openai.com