Der internalisierte Rassismus Künstlicher Intelligenz

Was sind Künstliche Intelligenzen?

Künstliche Intelligenz – das ist doch das mit den selbst denkenden Maschinen? Naja fast. Maschinen denken nicht, sie treffen Entscheidungen aufgrund von vorgegeben Regeln. Üblicherweise werden die Regeln, nach denen Maschinen Entscheidungen treffen, von Programmierer*innen vorgegeben.

Was aber ist, wenn sich diese Regeln ändern können? Wenn Maschinen beispielsweise die Auswirkungen ihrer früheren Entscheidungen kennen, könnten sie mithilfe dieser Erfahrungen neue Regeln schaffen, die ihnen in Zukunft dabei helfen, bessere Entscheidungen zu treffen.

Abstrakte Installation aus bläulichen Lampen

Beitragsbild von Pixabay bei pexels

Was bei klassischen Computerprogrammen von den Entwicklern erledigt werden muss, können sogenannte “Künstliche Intelligenzen” selbst. Sie sind gewissermaßen in der Lage dazu, dazuzulernen. Weil uns das an unsere eigenen, menschlichen Fähigkeiten erinnert, nennen wir sie “Künstliche Intelligenzen” (KI).

Viele Probleme, vor denen Wissenschaftler*innen, Ingenieur*innen und Programmierer*innen stehen, lassen sich durch den Einsatz von KIs besser oder überhaupt erst lösen. So beispielsweise die automatisierte Gesichtserkennung. Warum KIs darin besser sind als Programmierer*innen: Vermutlich deshalb, weil wir noch nicht so ganz genau verstehen, anhand welcher Merkmale automatisierte Gesichtserkennung funktioniert, bzw. weil sich Programmierer*innen schwer damit tun, das entsprechend umzusetzen.

Eine Künstliche Intelligenz wird dagegen mit zahlreichen Fotos von Menschen trainiert. Sie soll die darauf abgebildeten Personen entsprechend zuordnen. Anhand der Trainingsdatensätze kann die KI überprüfen, ob sie richtig liegt. Daraus lernt sie für die Zukunft. Wie gut eine Künstliche Intelligenz eine bestimmte Aufgabe lösen kann, hängt also sehr stark von ihren Erfahrungen, also insbesondere von den verwendeten Trainingsdatensätzen ab.

Probleme mit den Trainingsdatensätzen?

Künstliche Intelligenzen sind in der Lage dazu, eine enorme Masse an Informationen auszuwerten. In der Regel untersuchen sie Daten auf bestimmte Muster, die es ihnen erlauben, Vorhersagen zu treffen. Je mehr Daten, desto akkurater die Vorhersagen. Das Problem ist dabei jedoch, dass Trainingsdatensätze für KIs in vielen Fällen eben nicht zufällig und damit ungefiltert ausgewählte Daten sind, sondern dass es sich dabei meist um von den Entwickler*innen ausgewählte, scheinbar besonders geeignete Daten handelt. Um eine Gesichtserkennungssoftware zu trainieren, wählen Entwickler*innen etwa Fotos, auf denen eine oder mehrere Personen zu sehen sind, aus. Dabei achten sie darauf, dass es Fotos aus unterschiedlichen Perspektiven, in unterschiedlichen Auflösungen und mit unterschiedlichen Lichtverhältnissen gibt. Sie wählen Fotos von Personen mit unterschiedlichen Bekleidungen, Frisuren, Bartwuchs, Haarfarben, usw.; Sprich sie achten darauf, möglichst realistische Verhältnisse zu simulieren.

Aber was passiert, wenn die Entwickler*innen dabei bestimmte Fälle übersehen, meist weil sie einfach nicht daran denken. Wenn beispielsweise nur Frontalaufnahmen von Personen Teil eines Trainingsdatensatzes sind, werden mit diesen Daten trainierte Künstliche Intelligenzen zukünftig zwar Personen, die Frontal sichtbar sind, ganz gut erkennen, ist eine Person jedoch nur aus einer anderen Perspektive sichtbar, werden die KIs mit großer Wahrscheinlichkeit scheitern, sie zu erkennen.

Normative Kriterien bei der Auswahl von Trainingsdatensätzen

Ganz ähnliche Probleme entstehen, wenn KIs zur Gesichtserkennung ausschließlich oder vorrangig mit Bildern weißer Personen trainiert werden, Bilder von PoC (People of Color, Selbstbezeichnung von Menschen, die aufgrund ihrer äußeren Erscheinung bestimmte Rassismuserfahrungen teilen) jedoch nicht oder nur vereinzelt Teil der Trainingsdatensätze sind. Auch in diesem Fall haben es Entwickler*innen versäumt, realitätsnahe Trainingsdatensätze zu erstellen.

Das kann je nach Einsatzgebiet einer entsprechend trainierten Künstlichen Intelligenz fatale Auswirkungen haben. Die Wissenschaftler*innen Benjamin Wilson, Judy Hoffman und Jamie Morgenstern des Georgia Institute of Technology haben Anfang des Jahres etwa untersucht, inwiefern die Hautfarbe von Fußgänger*innen eine Rolle dafür spielt, ob diese von autonom fahrenden Fahrzeugen erkannt werden. Sie kommen zu dem Ergebnis, dass Personen mit einer dunkleren Hautfarbe eine bis zu 5% geringere Chance haben, erkannt zu werden, als Personen mit hellerer Hautfarbe [1]. Mit anderen Worten: Personen mit dunklerer Hautfarbe werden diesem Ergebnis zufolge von autonom fahrenden Autos bis zu 5% wahrscheinlicher überfahren, als Personen mit hellerer Hautfarbe.

Woran liegt das? Im Grunde gibt es zwei verschiedene Möglichkeiten: Entweder die Erkennung von Personen mit dunklerer Hautfarbe ist aus technischer Sicht tatsächlich anspruchsvoller – wofür es jedoch keinerlei Anhaltspunkte gibt. Oder aber die Trainingsdatensätze für die entsprechenden Künstlichen Intelligenzen sind unzureichend für die Erkennung von Personen mit dunklerer Hautfarbe. Das reproduziert im Endeffekt ein innerhalb der Gesellschaft bestehendes, rassistisches Diskriminierungsverhältnis, bei dem PoC gegenüber weißen Mehrheitsgesellschaften – aber auch im globalen Kontext – strukturell benachteiligt werden. Natürlich ist nicht davon auszugehen, dass die Entwickler*innen dieses Diskriminierungsverhältnis absichtlich geschaffen haben. Vielmehr ist dieses wohl auf die mangelhafte Repräsentation entsprechender Identitäten innerhalb der Testdatensätze zurückzuführen. Das ist aber sicherlich kein Zufall, sondern wiederum dadurch bedingt, dass PoC innerhalb der Gesellschaft meist marginalisiert werden.

In diesem Fall reproduzieren Künstliche Intelligenzen also den Rassismus der Gesellschaft, eben weil sie nicht unabhängig von den gängigen Vorstellungswelten und herrschenden Normen entstehen können.

Rassistische Schönheitsideale bei KIs

Wenngleich wohl einer der potenziell folgenreichsten – im Zweifel nämlich tödlich – Fälle von Rassismus bei Künstlichen Intelligenzen, ist dies keineswegs der Erste. 2016 fand unter dem Namen “Beauty.AI” ein Schönheitswettbewerb statt, bei dem in der Jury nicht wie sonst üblich eine Reihe alter weißer Männer saßen, sondern die Gewinner*innen von einem Computerprogramm gekürt wurden. Das Problem: Die alten weißen Männer hatten der dafür verantwortlichen Künstlichen Intelligenz wohl – zumindest lässt das Resultat darauf schließen – ihre Vorstellungen von Schönheit eingebläut. Die Folge: Unter den 44 Gewinner*innen befanden sich vor allem weiße Personen. Lediglich eine einzige schwarze Person war unter ihnen. Auch hier stellte sich heraus, dass der Trainingsdatensatz, mit dem die Künstliche Intelligenz auf das Erkennen von Schönheit – was auch immer das sein soll – trainiert wurde, vorrangig aus weißen Personen bestand. Absehbar hätte das Ganze schon vorher sein können. Auf der Webseite des Wettbewerbs wurde ausschließlich mit Abbildungen weißer Personen geworben.

Etwa ein halbes Jahr später wiederholte sich die Geschichte. Eine KI namens Face App wurde zum Trend in sozialen Netzwerken. Damit konnten sich Nutzer*innen eine Art Alter Ego aus einem Bild von sich kreieren lassen. Dieses konnte älter oder jünger sein, es konnte ein anderes Geschlecht haben und es gab eine Option namens “hot”, mit der die Nutzer*innen sich von der Software angeblich attraktiver machen lassen konnten. Abgesehen von der Tatsache, dass (inter)subjektive – meist stark kulturell bedingte – Ideale wie “Schönheit” oder “Attraktivität” auch durch die Existenz einer Künstlichen Intelligenz, die vorgibt, das bewerten zu können, nicht zu objektiven Tatsachen werden, war das Problem bei dieser Option, dass sie Personen grundsätzlich etwas “weißer” machte. Die Software machte die Augen von Personen runder, die Nasen kleiner und die Hautfarbe heller. Der Grund: Auch diese Software war offenbar mit Trainingsdatensätzen, die PoC kaum bis gar nicht repräsentierten, trainiert worden. Die Folge: Das “Schönheitsideal” dieser Software war ebenfalls rassistisch.

Rassistische Sozialprognosen durch künstliche Intelligenzen

Doch es gibt auch Fälle, in denen Künstliche Intelligenzen den Rassismus der Gesellschaft reproduzieren, in denen nicht “nur” Marginalisierungen von PoC reproduziert werden. In den USA beispielsweise werden schon seit einigen Jahren KIs in der Justiz eingesetzt, um die Rückfallgefahr von straffällig gewordenen Personen zu bewerten. Die von Northpoint entwickelte Software COMPAS (Correctional Offender Management Profiling for Alternative Sanctions) soll das Risiko einer erneuten Straffälligkeit einer Angeklagten oder bereits verurteilten Person in der Zukunft bestimmen. Je nachdem, welche Einschätzung die Software dabei abgibt, kann das positive bzw. negative Konsequenzen für die jeweiligen Personen haben. So kann eine negative Prognose ein höheres Strafmaß bedingen, oder auch eine vorzeitige Haftentlassung und eine Aussetzung der Haftstrafe auf Bewährung vereiteln.

Pro Publica untersuchte 2016 [2], inwiefern diese Software PoC diskriminiert und – in einer Gesellschaft, in der die Justiz für ihren Rassismus bekannt ist, eigentlich keine besondere Überraschung – kam zu dem Ergebnis, dass schwarze Personen von der Software massiv benachteiligt werden. Schwarzen wird durch die Software ein vielfach höheres Rückfallrisiko eingeräumt. Dabei bewertet die Software zwar nicht das Aussehen einer Person, in die Bewertung fließen jedoch Faktoren wie Wohnort, soziale Netzwerke und Arbeitslosigkeit ein. In einer Gesellschaft, in der Schwarze rassistisch diskriminiert werden, muss das zu rassistischen Prognosen hinsichtlich der Rückfälligkeit von straffällig gewordenen Personen führen. Natürlich versteht es sich von selbst, dass sich die Prognosen der Software als fehlerhaft herausstellten. Generell liegt die Software häufig falsch. Nur in 61 Prozent der Fälle hat sich eine negative Sozialprognose der Software bewahrheitet. Bei Gewalttaten waren es lediglich rund 20 Prozent.

Trotzdem wird die Software eingesetzt. Sie reproduziert damit auch weiterhin den schon immer vorhandenen Rassismus der US-Justiz.

Das Problem heißt Induktionsproblem

Die zahlreichen Beispiele, in denen Künstliche Intelligenzen Rassismus reproduzier(t)en sind dabei keine ungünstigen Zufälle. Sie sind strukturell bedingt und lassen sich durch die Funktionsweise künstlicher Intelligenzen erklären. In aller Regel sind dafür wie bereits beschrieben, eine normative Auswahl von Trainingsdatensätzen verantwortlich. Bestimmte gesellschaftliche Ideale beeinflussen die Auswahl der Trainingsdaten von Künstlichen Intelligenzen. Sie werden dadurch implizit zu einer Norm, die fortan auch von der Künstlichen Intelligenz selbst reproduziert wird.

Dieses Problem ist in der Philosophie bereits seit fast 300 Jahren unter dem Namen “Induktionsproblem” oder auch “Humesches Problem” bekannt. Der Philosoph David Hume erkannte um 1740, dass Erfahrungen, aus denen allgemeine Erkenntnisse gewonnen werden sollen, nicht dazu geeignet sind, diese allgemeinen Erkenntnisse auch zu beweisen, da die Bedingung für die Gewinnung dieser Erkenntnisse bereits eine angenommene Verallgemeinerbarkeit ist. Mit anderen Worten: Wenn eine Erkenntnis ausschließlich aus Erfahrungswerten abgeleitet ist, gibt es keinen Beweis dafür, dass diese Erkenntnis richtig ist.

Künstliche Intelligenzen jedoch leiten alle ihre Erkenntnisse aus Erfahrungswerten ab, nämlich aus denen, die sie durch die Trainingsdatensätze gewonnen haben. Auch wenn die Entwickler*innen künstlich intelligenter Software gerne den Anschein erwecken, ihre Software würde nach streng wissenschaftlichen Methoden arbeiten und dadurch objektive Erkenntnisse zutage befördern, ist eher das Gegenteil der Fall: Künstliche Intelligenzen gewinnen aus einer Reihe von Daten einen subjektiven Standpunkt. Die Richtigkeit dieses Standpunktes lässt sich dabei weder beweisen, noch ist sie besonders wahrscheinlich.

Beim Einsatz künstlicher Intelligenzen sollte dieser Aspekt stärker in den Vordergrund gerückt werden. Zwar gibt es sicherlich eine Vielzahl von Anwendungsgebieten, in denen künstliche Intelligenzen unabhängig davon, ob sich ihre Erkenntnisse beweisen lassen oder nicht, die ihnen zugewiesene Aufgabe zuverlässig oder zumindest zuverlässig genug erledigen, für die meisten Probleme bleiben künstliche Intelligenzen jedoch der moderne Deus ex machina.

2019 – Manuel Ziegler

Anmerkungen

[1] Vgl. Wilson, et al. “Predictive Inequity in Object Detection” (Feb. 2019)

[2] Der entsprechende Artikel kann in englischer Sprache unter folgender URL abgerufen werden: https://www.propublica.org/article/machine-bias-risk-assessments-in-criminal-sentencing