Grafik von ThisisEngineering RAEng – https://unsplash.com/@thisisengineering

Logistische Regression - Vorhersage von Ereigniseintritten

Eintrittswahrscheinlichkeiten von Ereignissen sind häufig ein komplex zu modellierendes Problem. In diesem Artikel wird eine grundlegende Methode hierzu vorgestellt: Die logistische Regression.

Henrik Bartsch

Henrik Bartsch

Die Texte in diesem Artikel wurden teilweise mit Hilfe künstlicher Intelligenz erarbeitet und von uns korrigiert und überarbeitet. Für die Generierung wurden folgende Dienste verwendet:

Wie wir maschinelles Lernen bei der Erstellung unserer Artikel einsetzen

Einordnung

Machine Learning besitzt grundsätzlich viele Anwendungsbereiche. Häufig befassen diese sich mit Klassifizierung, Clustering oder anderen Problemen. Auch Regressionen spielen eine Rolle. In diesem Artikel wird eine besondere Art der Regression betrachtet: die logistische Regression.


Definition logistischer Regression

Bei der logistischen Regression handelt es sich um ein statistisches Modell, welches zur Vorhersage des Eintritts eines Ereignisses auf Basis der Linearkombination verschiedener Variablen handelt. Klassischerweise wird eine binäre abhängige Variable durch eine Reihe unabhängiger Variablen dargestellt. Die unabhängigen Variablen können hierbei sowohl binär (nur Werte 0/1) oder stetig (alle Zahlen im Intervall [0,1][0, 1]) sein. 1 2 3

Vereinfacht gesagt handelt es sich bei der Linearkombination um eine Summation, welche auch über Elemente höherer Dimensionen funktioniert.

Anforderungen an die Variablen

Es gibt zwei relevante Anforderungen, welche an die vorkommenden Variablen gestellt werden sollten, damit die logistische Regression auch Erfolg hat: 4 5

  1. Die abhängige Variable muss eine binäre Variable sein,
  2. Die unabhängigen Variablen sollten nicht multi-kollinear sein.

Multi-Kolinearität beschreibt das Konzept, das zwei oder mehr stochastische Variablen miteinander korreliert sind, also linear durcheinander dargestellt werden können. Ver

Vereinfacht gesagt bedeutet Multi-Kolinearität für uns, dass durch eine oder mehrere Variablen keine Informationen gewonnen werden können, da wir diese auch durch eine oder mehrere andere Variablen darstellen können. Ein solcher Zusammenhang wird später in der logistischen Funktion dargestellt.

Mathematische Basis des Modells

Grundlage des statistischen Modells ist die logistische Funktion, definiert durch

p(x):=11+exp((xμ)/s).p(x) := \frac{1}{1 + exp(-(x - \mu)/s)}.

Diese Definition enthält jeweils die Parameter μ\mu, welcher so berechnet werden muss, dass p(μ)=12p(\mu) = \frac{1}{2} gilt und der Skalenparameter ss. Die Funktion p(x)p(x) stellt die Wahrscheinlichkeit dar, mit der das entsprechende Ereignis eintritt. Da es sich hierbei um eine Wahrscheinlichkeit handelt, ist die Funktion auf p(x)[0,1]p(x) \in [0, 1] begrenzt, da ein Ereignis keine Eintrittswahrscheinlichkeit >100%> 100 \% besitzen kann. 4

Annahme an das Problem: Es liegt lediglich eine abhängige Variable vor.

Der Ausdruck L(μ)=12L(\mu) = \frac{1}{2} bedeutet anschaulich, dass sich dort der Mittelpunkt der Kurve durch die logistische Funktion ergibt.

Durch Neudefinition der Parameter erhalten wir im Argument der Exponentialfunktion eine klassische lineare Funktion:

p(x):=11+exp((β0+β1x)).p(x) := \frac{1}{1 + exp(-(\beta_0 + \beta_1 x))}.

Die neuen Parameter β0,β1\beta_0, \beta_1 entstehen hierbei wie folgt: β0=μs,β1=1s.\beta_0 = \frac{\mu}{s}, \beta_1 = \frac{1}{s}.

Die Aufgabe des mathematischen Modells ist es nun, entsprechende Parameter β0,β1\beta_0, \beta_1 zu finden, sodass eine möglichst genaue Vorhersage getroffen werden kann.

Training des Modells

Grundsätzlich können die beiden Parameter in dem Ausdruck nicht beliebig gewählt werden, es müssen optimale Parameter bestimmt werden. Durch die Nichtlinearität der Exponentialfunktion ist es allerdings nicht direkt möglich, durch beispielsweise eine simple mathematische Operation wie eine Mittelwertbildung einen Parameter zu bestimmen, wie dies bei der linearen Regression der Fall war.

Klassicherweise muss hier auf iterative numerische Methoden wie Gradient Descent (deut.: Gradientenverfahren) zurückgegriffen werden. Hierzu wird eine Fehlerfunktion (engl.: Loss Function) minimiert, welche als Maß der Unsicherheit des statistischen Modells auf den Trainingsdaten fungiert.

Das Gradientenverfahren basiert auf der Idee, dass eine Funktion genau dann minimiert wird, wenn man eine Abstiegsrichtung wählt und diese Schritt für Schritt verfolgt. Hierzu wird der Gradient (mehrdimensionale Ableitung) berechnet und aus den Gradienteninformationen eine Abstiegsrichtung gewonnen. 6

Die Fehlerfunktion

Bei dem Beispiel oben wird üblicherweise eine Kreuzentropie (engl.: Cross entropy) verwendet. Für einen Datensatz {xi,yi}i=1N\{ x_i, y_i \}_{i=1}^N mit Eingangsvariablen xix_i, entsprechenden Labeln yiy_i und insgesamt NN Datenpunkten ist die Binary Cross Entropy 7 definiert als

L:=1Ni=1Nyilog(p(xi))+(1yi)log(1p(xi)).L := -\frac{1}{N} \sum_{i=1}^N y_i log(p(x_i)) + (1-y_i)log(1 - p(x_i)).

Hinweis: Der Faktor 1N\frac{1}{N} ändert nichts an der Minimierung, stellt hier lediglich einen Normierungsfaktor dar.

Diese Funktion wird anschließend minimiert, um entsprechend optimale Parameter zu finden. Ein solches Vorgehen wird auch als Maximum Likelihood Estimation bezeichnet. 1

Entscheidungsgrenze

Für eine Einteilung, ob das Ereignis eintritt oder nicht, muss eine Entscheidungsgrenze (engl.: Decision Boundary) festgelegt werden. Anhand dieses Grenzwertes wird entschieden, ob das Ergebnis von p(xi)p(x_i) zu 00 oder 11 gesetzt werden soll.

Als Beispiel kann bei einer Spam-Detection die Nachricht xix_i als Spam angenommen werden, wenn p(xi)0.5p(x_i) \geq 0.5 gilt. Es gibt verschiedene Arten von solchen Entscheidungsgrenzen, diese sind nach Anwendung und Nutzerforderung anzupassen. 3


Vorteile der logistischen Regression

Für eine Implementierung einer logistischen Regression für manche Anwendungsfälle sprechen folgende Eigenschaften: 5

  1. Logistische Regression ist einfacher zu implementieren als manche anderen Methoden.
  2. Logistische Regression funktioniert gut, wenn der Datensatz linear trennbar ist.
  3. Logistische Regression gibt Aufschluss über die Wichtigkeit einer bestimmten unabhängigen Variable. Die Wichtigkeit spiegelt sich in der Größe des entsprechenden Koeffizienten wider. Zusätzlich zeigt sich durch das Vorzeichen, ob die unabhängige und abhängige Variable [positiv oder negativ korreliert] (https://www.indeed.com/career-advice/career-development/positive-and-negative-correlations) sind.

Lineare Trennbarkeit bedeutet in diesem Fall, dass bei einer Visualisierung des Datensatzes die Klassen durch eine Linie voneinander getrennt werden können.

Hinweis: Korrelation deutet nicht immer auf einen Kausalen Zusammenhang hin, vor allem nicht wenn die entsprechende Stichprobe sehr klein ist!

Nachteile der logistischen Regression

Neben den Vorteilen der logistischen Regression finden sich auch eine Reihe von Nachteilen, welche mit der Implementierung kommen: 5

  1. Die logistische Regression kann nicht dazu verwendet werden, eine stetige Variable vorherzusagen, lediglich eine binäre Variable.
  2. Die logistische Variable nimmt einen linearen Zusammenhang zwischen den unabhängigen Variablen an. Dies stellt eine Einschränkung dar, da unsere Umwelt häufig nicht linear ist, eine lineare Funktion solche Zusammenhänge zwar häufig näherungsweise korrekt darstellt, allerdings auch häufig Fehler mit sich bringt - und damit nicht zwangsläufig perfekte Vorhersagen treffen kann.
  3. So wie alle Methode des maschinellen Lernens ist eine größere Menge von Datenpunkten notwendig. Die notwendige Menge ist abhängig von verschiedenen Parametern des Datensatzes, so beispielsweise die Anzahl der Eingangsvariablen.

Versionen der logistischen Regression

In der logistischen Regression ist es möglich, viele verschiedene Einteilungen treffen zu können. Diese sollen im Folgenden charakterisiert werden. 2 3

Binäre logistische Regression

Bei einer binären logistischen Regression handelt es sich um eine abhängige Variable, welcher nur die Werte 00 und 11 annehmen kann.

Multinomiale logistische Regression

Bei einer multinomialen logistischen Regression handelt es sich um mehrere abhängige Variablen, welche keine Reihenfolge besitzen.

Beispiel: Bevorzugung von Essensarten Vegan, Vegatarisch oder Nicht-Vegetarisch.

Ordinelle logistische Regression

Bei einer ordinellen logistischen Regression handelt es sich um mehrere abhängige Variablen, welche in Beziehung zueinander stehen und eine Reihenfolge besitzen.

Beispiel: Bewertung eines Videos von einem bis fünf Sternen.

Anwendungsbeispiele logistischer Regression

Die logistische Regression findet an vielen Stellen in der realen Welt Anwendung: 8 9

  1. Medizin: Verständnis von Ursachen bei der Erkrankung von Patienten an verschiedenen Krankheiten
  2. Textbearbeitung: Bearbeitung von Dokumenten zur Transformation in ein einheitliches Format
  3. Hotelbuchungen: Vorhersage, welche Hotels wahrscheinlich bei einem bestimmten Nutzer gebucht werden könnten.

Quellen

Footnotes

  1. wikipedia.org 2

  2. ibm.com 2

  3. towardsdatascience.com 2 3

  4. javatpoint.com 2

  5. careerfoundry.com 2 3

  6. wikipedia.org

  7. towardsdatascience.com

  8. activewizards.com

  9. microsoft.com