Grafik von Conny Schneider – https://unsplash.com/@choys_

Einführung in Unsupervised Learning

Unsupervised Learning stellt eine der vier Themengebiete des Machine Learnings dar. Dieser Post soll eine Einführung in das Thema geben.

Henrik Bartsch

Henrik Bartsch

Einordnung

Maschinelles Lernen hat in den letzten Jahren viel Aufmerksamkeit erregt. Sei es durch Vorhersagen in einer Klassifikation oder auch Regression, Machine Learning zeichnet sich durch seinen exzellenten Umgang mit großen Mengen von Daten aus. Im Supervised Learning wird hierbei häufig auf große Mengen von gelabelten Daten zurückgegriffen. 1

Bei Labeln handelt es sich um eine korrespondierende Zuordnung der Daten, welche gesucht ist.

Doch was, wenn nicht immer große Mengen von Label zur Verfügung stehen oder das Generieren entsprechender Label zu teuer ist?


Definition von Unsupervised Learning

Beim Unsupervised Learning sprechen wir von einer Kategorie des maschinellen Lernens, bei welchem wir aus vollständig ungelabelten Daten Relationen gebildet werden sollen. Durch Nachahmung - welches bei Menschen ein wichtiger Teil des Lernprozesses ist - eine präzise Darstellung der Umwelt zu generieren. Der Algorithmus soll während des Trainings Muster und Zusammenhänge eigenständig in den Daten erkennen. Das “Training” bei solchen Algorithmen geschieht ohne jegliche Überwachung. 2 3

Vorteile von Unsupervised Learning

Unsupervised Learning hat viele Anwendungsfelder, vor allem in der explorativen Datenanalyse. Die Vorteile von Unsupervised Learning sind hierbei: 4

  1. Ungelabelte Daten sind bedeutend einfacher zu erhalten, als manuell Label zuweisen zu müssen.
  2. Es findet unbekannte Muster in beliebigen Datensätzen,
  3. Unsupervised Learning unterstützt den Nutzer, neue Kriterien für eine Klassifizierung zu finden oder unwichtige Eigenschaften, um die Dimension eines Datensatzes zu reduzieren ohne viele Informationen zu verlieren.
  4. Bei Verwendung auf einem Datensatz findet das Training zur Echtzeit statt, anstatt dass das Training vorher geschehen sein muss.

Nachteile von Unsupervised Learning

Neben vielen Vorteilen vom Unsupervised Learning bestehen dort auch einige Nachteile. Diese sind:

  1. Höhere Komplexität aufgrund von großen Datenmengen,
  2. Lange Trainingszeiten,
  3. Höheres Risiko von ungenauen Ergebnissen.
  4. Es kann notwendig sein, die entsprechenden Ergebnisse zu validieren und das Training zu steuern, wenn die Ergebnisse so nicht nutzbar sind.
  5. Fehlende Transparenz, wie Ergebnisse entstanden sind.

Am Ende des Tages stellen Algorithmen des Unsupervised Learnings mächtige Werkzeuge dar, um Beziehungen innerhalb von Datensätzen zu bestimmen, allerdings ergeben sich durch die Abwesenheit von Datenlabeln Schwierigkeiten, welche berücksichtigt werden müssen. 5


Aufgaben von Unsupervised Learning

Unsupervised Learning kann verwendet werden, um eine Reihe von Aufgaben zu lösen. Eine Auflistung solcher Aufgaben folgt.

Clustering

Beim Clustering geht es darum, aus Daten mit unbekannten Gruppierungen eine Zuordnung zu finden, welche nach Möglichkeit größtmögliche Unterschiede zwischen den Elementen der Gruppierungen findet, aber größtmögliche Ähnlichkeit zwischen den Elementen der Gruppierungen. Dass es sich hierbei um keine klaren “Klassen” im eigentlichen Sinne handelt, sondern nur um angenommene Beziehungen, wird das Ergebnis hierbei als Cluster bezeichnet. Die einzelnen Cluster sind hierbei nicht vorgegeben und ergeben sich dynamisch während der Laufzeit.

Dem Nutzer sollte hierbei klar sein, dass der Algorithmus selbst Beziehungen herstellt und diese nicht unbedingt klar erkenntlich sein müssen. Dies ist ein klarer Unterschied zum Supervised Learning, bei welchem man als Nutzer eine klare Vorgabe zum Ergebnis gibt. 2 6

Bei der Vorgabe von sowohl Hunde- und Katzenfotos kann der Algorithmus jeweils zwei Cluster bilden - jeweils einen für Hunde- und einen für Katzenfotos. Dies ist allerdings nicht zwangsläufig der Fall; es kann auch sein dass der Algorithmus ein Clustering nach Fellfarbe erstellt.

Association

Ein weiteres Verfahren ist die Association. Hierbei werden Daten, die sich mit anderen Daten über bestimmte Attribute in Verbindung bringen lassen, kategorisiert. Die Aufgabe der Algorithmen ist es also, Objekte zu finden, die in Verbindung miteinander stehen – dafür müssen sie aber nicht gleich sein. Wieder das Beispiel mit den Hundefotos: Bei der Association würde der Unsupervised-Learning-Algorithmus nicht alle Hunde zusammenfassen, sondern beispielsweise eine Leine mit dem Hund in Verbindung bringen. 6

Dimensionality Reduction

Bei vielen Analysen oder Datensätze für beispielsweise das Supervised Learning gibt man als Nutzer klassischerweise Datensätze mit hoher Dimension vor. Datensätze mit hoher Dimension an Eingangsvariablen liefern zwar häufig bessere Ergebnisse, leiden allerdings auch unter langsamerem Training.

Ziel der Dimensionality Reduction ist es nun, Eingangsvariablen aus dem eigentlichen Datensatz zu entfernen, welche geringen oder keinen Informationsgehalt besitzen. Als Ergebnis wird der höher-dimensionale Datensatz in einen niedrig-dimensionalen Datensatz reduziert, welcher einfacher zu handhaben ist. Hierbei ist es wichtig nicht zu viele Eingangsvariablen aus dem Datensatz zu entfernen, damit dieser die wichtigsten Informationen weiterhin enthält und somit die eigentliche Aufgabe nicht verkompliziert wird.

Für weitere Informationen bezüglich der Problematik großer Dimensionen von Eingangsvariablen beim maschinellen Lernen, siehe wikipedia.org oder builtin.com.

Zusätzlich wird es hierdurch ermöglicht, eine vereinfachte Visualisierung des Datensatzes zu erreichen. 2 5


Anwendungsbeispiele von Unsupervised Learning

Durch die Eigenschaft selbstständig Beziehungen in den Daten zu finden, wird Unsupervised Learning im Allgemeinen in vielen Bereichen mit anderen Aufgaben verwendet. Beispiele hierfür können sein:

  1. Marketing: Durch Clustering können Personengruppen zusammengestellt werden, welche sich von anderen Personengruppen durch verschiedene Eigenschaften abgrenzen. Hierdurch lassen sich vor allem Zielgruppen finden. Auch Kundenempfehlungen können getroffen werden.
  2. Spracherkennung: Durch Spracheingaben kann Sprachverarbeitung immer weiter spezialisiert werden und genauer auf die Nutzer angepasst werden.
  3. Sprachverarbeitung: Mittels Unsupervised Learning kann toxische Sprache im Internet erkannt werden und entsprechende Maßnahmen nach Analyse der Sprache getroffen werden.
  4. Anomalie-Detektion: In vielen Datenströmen (beispielsweise bei Transaktionen) geht jeden Tag eine große Menge von Daten ein. Hierin können Abweichungen von der Norm in Echtzeit gemessen werden und entsprechend gesondert überprüft werden.
  5. Kaufassoziationen: Mithilfe von Kaufverläufen können Muster in den Warenkörben der Menschen gefunden werden. Aus solchen Daten können Marketingstrategien und Produktplatzierungen generiert werden, um entsprechenden Umsatz zu steigern.

Durch Clustering können Personengruppen zusammengestellt werden, welche sich von anderen Personengruppen durch verschiedene Eigenschaften abgrenzen. Hierdurch lassen sich vor allem Zielgruppen finden. 6 4


Quellen

Footnotes

  1. wikipedia.org

  2. wikipedia.org 2 3

  3. deepai.org

  4. datasolut.com 2

  5. ibm.com 2

  6. ionos.de 2 3