Geraubte Heuhaufen – KI im Migrationsregime

Wir haben uns in diesem Blog bereits mit dem mutmaßlichen Einsatz von KI-Algorithmen bei der Überwachung des Kanals befasst. In diesem Beitrag wird es um die Methoden gehen, mit denen die Datenbasis für KI-Algorithmen gewonnen wird. Diese sind nicht spezifisch für den Einsatz am Ärmelkanal, mehr noch, uns sind die konkret dort heute oder künftig eingesetzten Algorithmen unbekannt, daher wird dieser Beitrag nicht spezifisch auf die Situation am Kanal eingehen (können). Angesichts der breiten Debatte über die Chancen, Risiken und Folgen von KI ist es uns jedoch wichtig, auf Aspekte hinzuweisen, die den Einsatz von KI im Kontext des Migrationsregimes besonders gravierend erscheinen lassen.

Anfang Juli haben kalifornische Anwälte den ChatGPT-Hersteller OpenAI und seinen Partner Microsoft in einer Sammelklage auf 3 Milliarden Dollar Schadenersatz beziehungsweise an US-amerikanischer Nutzer_innen sozialer Medien zu zahlender „Datendividende“ verklagt. Egal, ob die Begründung überzeugt oder nicht, spätestens mit der Sammelklage dürfte in der öffentlichen Debatte angekommen sein, was Naomi Klein als maskierten Raub analysiert hat: das die Datenbasis für die meisten KI-Modelle auf einer massenhaften, heimlichen, nicht vereinbarten Aneignung von Information beruht. Und ähnlich wie sich die Risiken beim Einsatz von KI im Migrationsregime für die ihm unterworfenen Menschen verschärfen, fällt auch die Aneignung zur Herstellung der Datenbasis besonders gravierend aus.

Zunächst sei vorausgeschickt, dass es sich bei KI-Modellen weniger um eine Form von (ohnehin schwer definierbarer) Intelligenz handelt, sondern dem Grunde nach um ein statistisches Verfahren auf Basis von großen Mengen an Daten, weswegen man sie als auch als eine spezielle Anwendung von Big Data sehen kann. Zum Leidwesen der Statistiker trafen den Nerv in der breiteren Diskussion bisher eher Untergangsphantasien, etwa die KI könne in ferner Zukunft gelegentlich die Menschheit auslöschen. Den Entscheider_innen von OpenAI dürfte das besser gefallen haben als die aktuellen Fragen: Um ihre Sprach-KI zu trainieren, haben sie in jüngster Vergangenheit weite Teile des Internets und des digital verfügbaren geschriebenen Erbes der Menschheit analysiert und in das Modell eingearbeitet? Dürfen die das?

Sie dürfen es schon alleine juristisch vermutlich nicht. Und politisch muss man sicher nicht hinnehmen, dass das schriftliche Wissen der Menschheit als statistisches Verdauungsprodukt privatisiert wird – wenn auch die Anwälte der Massenklage den Beitrag der Inhalte aus den sozialen Medien (wegen derer sie klagen) drastisch überschätzen dürften.

Wie sieht es aber mit den KI-Algorithmen aus, die im Kontext des Migrationsregimes zum Einsatz kommen und kommen werden? Anduril – der Lieferant der in Dover eingesetzten Überwachungstechnologie – bietet eine KI-basierte Gesichtserkennung an, mit der die Drohung untermauert werden soll, jede_r, der oder die Großbritannien in einem kleinen Boot erreicht, werde keine Chance auf einen Aufenthalt haben. Vor allem in Pilotprojekten wurden neben sogenannten „low-risk“-Anwendungen wie Matching-Algorithmen für das Resettlement, auch Verfahren angewandt, um in Stimme und Mimik Emotionen (z.B.: Hinweise auf Nervosität) während einer Grenzkontrolle zu erkennen oder anhand des Gesichts und des Dialekts einer Person zu ermitteln, ob sie aus einer bestimmten Region stammt.

Diese Anwendungsfälle werden nicht auf dem OpenAI-Sprachmodell basieren können, sondern spezifische Sprachmodelle brauchen. Sollten sie in Zukunft weiter ausgebaut werden, gilt für ihre Datenbasis das grundsätzliche Dilemma von Big Data: Um erfolgreich die Nadel im Heuhaufen zu suchen, braucht man zunächst einmal einen Heuhaufen, also woher ihn nehmen, wenn nicht stehlen?

Eine spezifische Dimension im Migrationsregimes stellt bereits die Art Informationen dar, die in diesen Heuhaufen akkumuliert werden: während OpenAI sich darauf beschränkt hat, die digitalisierten gemeinfreien Schriftzeugnisse und im Internet öffentlich publizierte Texte und Beiträge in sozialen Medien zu akkumulieren, geht es im Kontext des Migrationsregimes um Stimmen, Gesichter, Mimik und Sprache.

Ein beliebtes Klagelied von Sicherheitsbehörden und Innenpolitiker_innen ist, dass ihnen der Datenschutz die Hände bei einer effektiven Erfüllung ihrer Aufgaben binde. Das Lied klingt bereits ohne den Kontext des Migrationsregimes schief: den Sicherheitsbehörden sind in einer konkreten Einsatzsituation sehr wenige Schranken bei der Erhebung und auch bei der Abfrage von Daten gesetzt, was auch sinnvoll ist: Wer einen Notruf absetzt oder sich in einer brennenden Wohnung befindet, wird damit einverstanden sein, dass ohne großes Verfahren sein Handy geortet oder die Anzahl der gemeldeten Mitbewohner_innen abgefragt wird. Auch dass Bilder und sonstige Daten zur Beweissicherung erhoben werden, ist wenigen Schranken unterworfen. Im Gegenzug zu dieser Freiheit besteht die Pflicht, diese Daten wieder zu löschen, allerdings mit einer für das Training der KI nicht ganz unwesentlichen Lücke: Es geht nur um personenbezogene Daten. Die Polizei muss Videoaufnahmen einer Demonstration recht schnell löschen, wenn sie denn nicht als Beweis verwendet werden, darf sie aber bislang statistisch nutzen: etwa in der schnöden Pressemitteilungen, es haben rund 100 Personen an einer Demonstration für dieses oder jenes teilgenommen.

Das Training einer KI lässt zwar auch nur statistische Daten zurück, aber von ganz anderem Kaliber. Es würde wohl für einen Aufschrei sorgen, wenn legitim erstellte Bilder einer Demonstration vor ihrer fristgerechten Löschung noch schnell verwendet würden, um die polizeieigene Gesichtserkennungssoftware zu trainieren. Während sich im privatwirtschaftlichen Sektor eventuelle Regulierungslücken auf die fehlende praktische Durchsetzbarkeit beziehen, sind sie im öffentlichen Bereich grundsätzlicher Natur: der Aneignung von Informationen, sofern sie nach der Verarbeitung nicht mehr personenbeziehbar sind, sind faktisch nur die Grenzen des gesetzlichen Auftrags gesetzt. Auch wenn es Behörden zur Zeit schlicht an den Fähigkeiten und Kapazitäten mangeln dürfte, um eigene KI-Sprachmodelle zu entwickeln: Hier werfen die Möglichkeiten von KI grundsätzlich neue Fragen auf. Und auch hier steht zu befürchten, dass die Behörden opportunistisch sein werden, und es nicht Verkehrsteilnehmer_innen, nicht Demonstrant_innen, sondern Exilierte sein werden, deren Informationen sie sich aneignen.

Der Raub würde auf digitale Abbilder von Gesichtern, Körpern, Stimmen und Sprache der überwachten Menschen ausgeweitet, die ungefragt mit sich Maschinen zu füttern hätten, die dazu konzipiert ist, ihnen ihre Lebensperspektiven zu verbauen.