Einordnung der linearen Regression
Bei der linearen Regression befinden wir uns im sogenannten Supervised Learning, eine Unterart des maschinellen Lernens. Bei dieser Art des maschinellen Lernens geht es darum, mithilfe bekannter Eingangs- und Ausgangsdaten Korrelationen zu finden und daraus ein Modell zu generieren.
Anwendungsgebiete der linearen Regression
Lineare Regression ist ein einfaches Werkzeug, um in vielen Daten-getriebenen Bereichen einfache und verständliche Korrelationen aufzustellen und um aus diesen Erkenntnissen zu ziehen. Die Qualität der Ergebnisse ist hierbei nicht unbedingt im Vordergrund, Fehler sollten bis zu einem bestimmten Punkt akzeptiert werden können. Trotz allem erreicht die lineare Regression es hiermit, sehr gut Trends oder andere Veränderungen erkennen zu lassen.
Klassische Themengebiete in welchen die lineare Regression verwendet werden sind die Psychologie und Wirtschaft, wenn Studien ausgewertet werden sollen. Wie Unternehmen lineare Regression beispielsweise verwenden könnten, wird auch in diesem Artikel kurz erklärt.
Wie funktioniert die lineare Regression?
Die lineare Regression basiert in ihrer Grundform auf dem Versuch, lineare Ausdrücke für den Zusammenhang zwischen verschiedener Metriken (den unabhängigen Variablen) und einer Zielmetrik (der sogenannten abhängigen Variable) zu finden, wobei von allen Metriken vorliegen müssen. Weiterhin ist die lineare Regression auf eine abhängige Variable beschränkt, während die Anzahl der unabhängigen Variablen grundsätzlich unbeschränkt ist. Die Anzahl der abhängigen Variablen wird in diesem Kontext mit bezeichnet. Es gibt ebenfalls Formen der linearen Regression, welche es erlauben mehrere abhängige Variablen zu definieren, auf diese wird hier allerdings nicht eingegangen.
Beispiel: Wir wollen die Abhängigkeiten von Notenschnitten von Schülern herausfinden. Diese Größe definieren wir uns hierfür als abhängige Variable, während wir uns Größen wie Schulstunden, Aufwand der Hausaufgaben (in Stunden) und das Einkommen der Eltern (in Euro) als abhängige Variablen definieren.
Nach der Definition verwenden wir eine lineare Gleichung, welche Parameter aufweist: Parameter für die Korrelation der abhängigen Variablen und ein Parameter für den “Grundwert” der unabhängigen Variable.
In dieser Gleichung bezeichnet die abhängige Variable und die abhängigen Variablen, die Definitionsmengen der unabhängigen Variablen (alle möglichen Werte) und die Definitionsmenge der abhängigen Variable (klassischerweise die reellen Zahlen). Durch Lösung der Parameter , erhalten wir letztlich unser Modell. 1 2
Lösen der Parameter für die lineare Regression
Um nun auch die Parameter für die lineare Regression zu erhalten, verwenden wir den minimalen quadratischen Abstand (auch als least-squares Estimation bekannt). Dazu wollen wir die Summe des quadratischen Abstandes zwischen unserer “exakten Lösung” (hier: ) und unseren Datenpunkten () minimieren:
Die Funktion wird hierbei als Kostenfunktion bezeichnet. Diese Funktion beschreibt, wie gut unser Modell sich an unsere Daten angepasst hat - niedrigere Werte stellen eine bessere Lösung dar. Dies geschieht allerdings nur durch eine “ideale” Anpassung der Parameter.
Einfache unabhängige Variable
Für eine einzelne unabhängige Variable haben wir ein Modell der Form
Hierbei lässt sich durch least-squares Estimation und
die Lösung
berechnen. Dies kann direkt für die Berechnung von Korrelationen oder Trends verwendet werden.
Mehrere unabhängige Variablen
Bei mehreren unabhängigen Variablen ist die Lösung nicht mehr algebraisch direkt zu berechnen. In diesem Fall benötigen wir eine andere Kostenfunktion:
mit den Parameter-Vektoren als Vektor aller Parameter (auch ). Die Funktion stellt dann lediglich die Linearkombination aller Parameter mit den jeweiligen Features des Eingangsvektors dar.
Zur Lösung muss hier das sogenannte Gradientenverfahren herangezogen werden. Bei diesem Verfahren handelt es sich um einen iterativen Löser, welcher unseren Parametern kontinuierlichen Updates unterzieht, sodass die Kostenfunktion nach und nach minimiert wird. Grundsätzlich wird unser Verfahren dann nach einer Weile konvergieren, eine Garantie besteht hierbei allerdings nicht. Als klassischen Lösungsansatz wird hier meist das Ändern der Startparameter gelehrt. 3
Ein Anwendungsbeispiel
Eine lineare Regression kann auf die verschiedenste Daten angewandt werden.
Die Daten aus dem obigen Bild wurden der Einfachheit zufällig generiert. Eine Anwendung der linearen Regression auf die entsprechenden Daten ergibt das folgende Bild:
Aus dem berechneten mathematischen Modell und dem Bild können Schlussfolgerungen gezogen werden.
Bezogen auf das Beispiel mit Schulnoten könnten wir relativ klar aus der Steigung der Kurve identifizieren, das Schulnoten mit entsprechend höherem Zeitaufwand bessere Ergebnisse bringen. Hierbei sei angemerkt das die Daten oben in keinem Zusammenhang zu dieser Thematik stehen und dies lediglich eine Erklärung des Verfahrens darstellen soll.
Implementierung
Eine Implementierung einer linearen Regression ist mit unterschiedlichen Sprachen grundsätzlich nicht komplex. Hier eine Auflistung für verschiedene Programmiersprachen:
Python: geeksforgeeks.com, prepml.com
Java: medium.com
Änderungen
[1] 03.01.2023: Einfügen einer Visualisierung der linearen Regression.
[2] 26.03.2023: Einfügen interaktiver Plots.