Ethik und Verzerrung im Machine Learning

Wie in vielen anderen Bereichen sind auch bei der Anwendung verschiedener Produkte ethische Fragen für einen sicheren und gerechten Einsatz notwendig. In diesem Artikel wollen wir uns mit ethischen Fragen im Zusammenhang mit Machine Learning beschäftigen.

Henrik Bartsch

Henrik Bartsch

Die Texte in diesem Artikel wurden teilweise mit Hilfe künstlicher Intelligenz erarbeitet und von uns korrigiert und überarbeitet. Für die Generierung wurden folgende Dienste verwendet:

Das Grundproblem

”Machine Learning”-Algorithmen werden bereits in vielen Bereichen unseres Lebens eingesetzt, um automatisierte Entscheidungen zu treffen. Wissenschaftliche Arbeiten können zeigen, dass solche Modelle ungewollt und zum Teil unbewusst menschliche Stereotype übernehmen. Ein gutes Beispiel ist die Textverarbeitung, wo ein solches Modell einer Frau eher den Job einer Sekretärin zuweist, während der Mann hier eher als Manager trainiert wird - obwohl das nie das Ziel war. 1 Genau in solchen Fragen besteht Aufklärungsbedarf - und in diesem Artikel wollen wir über die ethischen Fragen des maschinellen Lernens aufklären.

Was ist Verzerrung?

Im Machine Learning sprechen wir von Verzerrung, wenn wir im Modelle eine Tendenz feststellen können, ungenaue oder unfaire Vorhersagen zu treffen. Dies hängt häufig mit systematischen Fehlern im Modelle oder den verwendeten Trainingsdaten zusammen.

Verzerrung im Machine Learning kann durch eine Vielzahl von Faktoren verursacht werden. Einige häufige Ursachen sind:

  1. Eine zu geringe Anzahl an Trainingsdaten
  2. Übertragung menschlicher Stereotypen in die Trainingsdaten oder
  3. Fehlerhafte Auswahl des Trainingsmodells, welche nicht für die Aufgabenstellung geeignet ist oder die Daten nicht genug verstehen kann. 2

Es gibt viele verschiedene Arten von Verzerrungen - verschiedene Arten von Bias. Wir wollen hier allerdings auf die Grundproblematik von Verzerrung in der Anwendung eingehen, weitere Informationen zu den verschiedenen Arten von Verzerrungen sind hier zu finden.

Zwei Beispiele für unfaire K.I.-Modelle

Als Anwender und Entwickler eines solchen “Machine Learning”-Modells ist es wichtig, faire Modelle zu erstellen. Damit wird sichergestellt, dass niemand durch die Anwendung des Produktes benachteiligt oder gar geschädigt wird. Verzerrungen in solchen Modellen können auch zu unternehmerischen Risiken führen. 3 Grundsätzlich sollten ethische Fragen so früh wie möglich im Entwicklungsprozess berücksichtigt werden. Im Folgenden sollen zwei populäre Beispiele betrachtet werden, bei denen die Fairness nicht ausreichend analysiert wurde.

Amazon Recruiting Software

Im Jahr 2014 nutzte das Unternehmen Amazon große Mengen an gesammelten Daten. Ziel war es, eine Software zu entwickeln, die die Einstellungsprozesse automatisiert und dabei die im Unternehmen bereits bekannten Daten nutzt.

Everyone wanted this holy grail,” one of the people said. “They literally wanted it to be an engine where I’m going to give you 100 resumes, it will spit out the top five, and we’ll hire those. 4

Es schien eine sehr gute Idee zu sein, z.B. 100100 Bewerbungen in die Software einzugeben und die fünf besten herauszufiltern - ein großer Zeitgewinn, vor allem für sehr große Unternehmen. Bei der Analyse der Software im Jahr 2015 stellte sich jedoch heraus, dass die Software nicht richtig funktionierte - Bewerbungen mit Eigenschaften, die grundsätzlich eher Frauen zugeschrieben werden, wurden negativ bewertet. Der Grund dafür war, dass die meisten Bewerbungen im Technologiesektor typischerweise männlich dominiert sind und es daher grundsätzlich mehr männliche als weibliche Bewerber gab. 1 4

U.S.-amerikanisches Justizsystem

Traditionell wurden im U.S.-amerikanisches Justizsystem Strafen anhand verschiedener niedergeschriebener Regeln bestraft. Dies führte allerdings zu einer Verschiebung der Rechtssprechung, welche die Anwendung prädiktiver Vorhersagealgorithmen ermöglichte. Ziel dieser Algorithmen war es, vorherzusagen mit welcher Wahrscheinlichkeit Straftäter:innen in der Zukunft wieder rückfällig werden und hieraus ein angemessenes Strafmaß zu finden. Ein solcher Ansatz ist auch als “predictive justice” bekannt. Problematisch waren die Verwendung vieler verschiedener Aspekte des persönlichen Lebens wie Familienstand, Vorstrafenregister, Alter und vor allem aber auch die ethnische Zugehörigkeit.

However, critics instead raise robust concerns over this system of codified justice and labeled the current actuarial assessments tools as “unreliable, controversial, and unconstitutional”; as being created and trained with biased data “produced through histories of exclusion and discrimination” […]. 5

Durch die Anwendung dieser Software stellte sich heraus, dass viele Ungleichheiten in der Gesellschaft noch weiter im Justizsystem verstärkt werden. 5 Ein bekanntes Beispiel hierfür ist die Benachteiligung afroamerikanischer U.S.-amerikaner, welche historisch bedingt ist. 6

Sensible Merkmale und wichtige Aspekte

Diese beiden Beispiele machen deutlich, dass KI-Systeme einer gewissen Kontrolle unterliegen müssen, damit ihr Einsatz tatsächlich zu einer Verbesserung des Endergebnisses oder der Entscheidungsfindung führt. Daher ist es wichtig, dass die folgenden sensiblen Merkmale nicht in einem Datensatz enthalten sind:

  1. Kulturelle Zugehörigkeit
  2. Geschlecht
  3. Alter
  4. Ethnische Zugehörigkeit

Kommentar des Autors: Grundsätzlich sind solche Merkmale manchmal relevant, z.B. im medizinischen Bereich (wie z.B. in medizinischen Datensätzen wie Medical Data | Kaggle.com). Hier ist grundsätzlich eine Bereinigung des Datensatzes von allen diskriminierenden oder verzerrenden Merkmalen anzustreben. Für viele Anwendungen sollten solche Merkmale jedoch nicht einbezogen werden.

Es gibt auch eine Reihe weiterer Punkte, welche in diesem Kontext bei einem K.I.-Modell betrachtet werden sollten: 3 5

  1. Zuverlässigkeit & Sicherheit: Modelle sollten robust sein und nicht von einem beliebigen Angreifer manipuliert werden können.
  2. Transparenz: Nutzer sollten verstehen können, wie die Entscheidungen des Modells zustande gekommen sind. Durch die breite Anwendung von neuronalen Netzen ist dies allerdings nicht immer möglich, da deren Entscheidungen hochkomplex sind und so nicht immer unbedingt verständlich dargestellt werden können.
  3. Verantwortlichkeit: Es sollte klare Verantwortlichkeiten für die Entwicklung und den Einsatz von Machine-Learning-Modellen geben.
  4. Datenschutz: In einer immer digitaler werdenden Welt ist es relevant, alle Daten vor ungewolltem Zugriff zu schützen und somit die Rechte jedes Individuums zu schützen.

Möglichkeiten zur Vorbeugung

Sollten sich die Merkmale, die oben beschrieben wurden, nicht aus dem Datensatz entfernen lassen, so haben wir verschiedene Optionen um ein unfaires Modell bestmöglich zu vermeiden: 7 8 9

  1. Sofern die Anzahl der Merkmale und die Größe des Datensatzes es zulassen, sollten wir versuchen, die Daten bestmöglich zu verstehen.
  2. Sollten Ungleichgewichte oder unfaire Beziehungen im Datensatz vorliegen, so ist es wichtig, die assoziierten Daten oder Beziehungen zu entfernen.
  3. Durch Auswahl einer geeigneten Fairness-Metrik können wir sicherstellen, dass unser Modell während des Trainings und auch danach faire Vorhersagen treffen kann.
  4. Sollten die hier genannten Schritte nicht ausreichend sein, kann eine Hyperparameteroptimierung für das Modell eventuell einen Ausweg bieten.

Beispiele für Fairness-Metriken

Um auf die oben angesprochenen Fairness-Metriken kurz noch einmal einzugehen, sollen hier noch einmal kurz zwei Beispiele gegeben werden. Diese beiden Metriken können dazu verwendet werden, die Fairness eines Modells zu bewerten. 10 11

  1. Demografische Parität: Bei der demografischen Parität handelt es sich um ein Fairness-Maß, welches die Fairness anhand der Vorhersagequote über verschiedene sensible Merkmale - wie beispielsweise der ethnischen Zugehörigkeit oder dem Geschlecht - bewertet. Im Bezug auf das Beispiel aus der U.S.-Justiz sollten hier afroamerikanische Bevölkerungsgruppen keine (signifikant) höheren Strafen erhalten als europäische U.S.-Bürger.

  2. Equalized-Odds-Metrik: Die Equalized-Odds-Metrik wurde mit dem Ziel konzipiert, Machine Learning gleich gut anwendbar für verschiedene Gruppen zu machen. In der Praxis soll dieses Vergleichsmaß sicherstellen, dass ähnlich hohe Fehlerraten für verschiedene Mitglieder von sensiblen Gruppen auftreten.

Grundsätzlich gibt es noch weitere Fairness-Metriken. Häufig sind die Fairness-Metriken darauf ausgelegt, bestimmten Situationen zu priorisieren. Zusätzlich sind diese anwendungsbezogen anzuwenden.

TL;DR

Verzerrung im Machine Learning bedeutet, dass ein Modell unfaire Aussagen trifft und damit das eigentliche Ziel des Modells verfehlt. Dies kann sowohl persönliche als auch unternehmerische Risiken mit sich bringen, was eine Reduzierung der Verzerrung erforderlich macht. Die Ursache der Verzerrung liegt im Datensatz, was eine genaue Überprüfung des Datensatzes vor dem Training (oder auch danach) erforderlich macht. Bestimmte Merkmale, wie z. B. das Alter, sollten für die meisten Datensätze irrelevant sein und daher nie einbezogen werden. Verschiedene Optionen (z. B. Fairness-Metriken) können verwendet werden, um Verzerrungen in unserem Modell zu vermeiden und so ethische Probleme so weit wie möglich zu vermeiden.

Quellen

Footnotes

  1. bpb.de 2

  2. technopedia.com

  3. link.springer.com 2

  4. reuters.com 2

  5. link.springer.com 2 3

  6. dw.com

  7. iq.opengenus.org

  8. news.mit.edu

  9. cloud.google.com

  10. fairlearn.org

  11. arxiv.org