Wie potenziell anstößige Sprache einer KI „entgiftet“ wird – Veröffentlichung in „Nature Machine Intelligence“



Teilen: 

25.03.2022 11:35

Wie potenziell anstößige Sprache einer KI „entgiftet“ wird – Veröffentlichung in „Nature Machine Intelligence“

Forschende des Artificial Intelligence and Machine Learning Lab der TU Darmstadt zeigen, dass Sprachsysteme der Künstlichen Intelligenz auch menschliche Vorstellungen von „gut“ und „schlecht“ lernen. Die Ergebnisse sind nun in „Nature Machine Intelligence“ veröffentlicht.

Auch wenn sich die Moralvorstellungen von Mensch zu Mensch unterscheiden, gibt es fundamentale Gemeinsamkeiten. Es gilt zum Beispiel als gut, älteren Menschen zu helfen. Es ist nicht gut, ihnen Geld zu stehlen. Von einer Künstlichen Intelligenz, die Teil unseres Alltags ist, erwarten wir ein ähnliches „Denken“. Eine Suchmaschine sollte zum Beispiel nicht unsere Suchanfrage „ältere Menschen“ mit dem Vorschlag „bestehlen“ ergänzen. Allerdings haben Beispiele gezeigt, dass KI-Systeme durchaus beleidigend und diskriminierend sein können. So fiel Microsofts Chatbot Tay mit anzüglichen Aussagen auf, und Textsysteme haben wiederholt Diskriminierungen gegen unterrepräsentierte Gruppen gezeigt.

Suchanfragen mit Tücken

Das liegt daran, dass Suchmaschinen, automatische Übersetzungen, Chatbots und andere Anwendungen der KI auf Modellen zur Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) basieren. Diese haben in den letzten Jahren zwar durch neuronale Netze erhebliche Fortschritte erzielt. Ein Beispiel ist das Bidirectional Encoder Representations (BERT) – ein bahnbrechendes Modell von Google. Es berücksichtigt die Wörter in Relation zu allen anderen Wörtern eines Satzes, anstatt sie einzeln nacheinander zu verarbeiten. BERT-Modelle können den gesamten Kontext eines Wortes berücksichtigen – das ist besonders nützlich, um die Absicht hinter Suchanfragen zu verstehen. Allerdings müssen Entwickler zum Training ihre Modelle mit Daten füttern, wozu häufig gigantische, öffentlich verfügbare Textsammlungen aus dem Internet verwendet werden. Und wenn diese Texte ausreichend diskriminierende Aussagen enthalten, so kann sich dies in den trainierten Sprachmodellen wiederfinden.

Forschende aus den Bereichen KI und Cognitive Science um Patrick Schramowski vom Artificial Intelligence and Machine Learning Lab der TU Darmstadt haben herausgefunden, dass tief versteckt in diesen Sprachmodellen anderseits auch Vorstellungen von „gut“ und „schlecht“ abgebildet sind. Auf der Suche nach latenten, inneren Eigenschaften dieser Sprachmodelle fanden sie eine Dimension, die einer Abstufung von guten Handlungen zu schlechten Handlungen zu entsprechen schien. Um dies wissenschaftlich zu untermauern, führten die Forschenden der TU Darmstadt zunächst zwei Studien mit Menschen durch – eine vor Ort in Darmstadt und eine Online-Studie mit weltweit Teilnehmenden. Die Forschenden wollten herausfinden, welche Handlungen Teilnehmende im deontologischen Sinn als gutes oder schlechtes Verhalten einstuften, also konkreter, ob sie ein Verb eher positiv (Do’s) oder negativ (Don’ts) beurteilten. Eine wichtige Frage dabei war, welche Rolle Kontext-Informationen spielten. Denn Zeit totzuschlagen („kill time“) ist nun mal nicht dasselbe wie einen Menschen zu töten („kill someone“).

Anschließend prüften die Forschenden bei Sprachmodellen wie BERT, ob diese zu ähnlichen Bewertungen kommen. „Wir formulierten Handlungen als Fragen, um zu untersuchen, wie stark das Sprachmodell aufgrund der gelernten sprachlichen Struktur für oder gegen diese Handlung spricht“, sagt Schramowski. Beispielfragen waren „Soll ich lügen?“ oder „Soll ich einen Mörder anlächeln?“

„Wir haben festgestellt, dass die im Sprachmodell inhärenten moralischen Ansichten sich mit denen der Studienteilnehmenden weitgehend decken“, sagt Schramowski. Somit ist in einem Sprachmodell eine moralische Weltsicht enthalten, wenn es mit großen Textmengen trainiert wurde.

Auf jedes Sprachmodell anwendbar

Die Forschenden entwickelten anschließend einen Ansatz, um die im Sprachmodell enthaltene moralische Dimension sinnvoll zu nutzen: Man kann sie nicht nur dafür verwenden, einen Satz als positive oder negative Handlung zu bewerten. Durch die gefundene latente Dimension lassen sich Verben in Texten nun auch so austauschen, dass ein gegebener Satz weniger beleidigend oder diskriminierend wird. Dies ist auch graduell möglich.

Obwohl dies nicht der erste Versuch ist, die potenziell anstößige Sprache einer KI zu entgiften, wird hier die Beurteilung von gut und schlecht aus den auf menschlichem Text trainierten Modell selbst benutzt. Das Besondere an dem Darmstädter Ansatz ist, dass er auf jedes beliebige Sprachmodell anwendbar ist. „Wir brauchen keinen Zugriff auf die Parameter des Modells“, sagt Schramowski. Damit dürfte sich die Kommunikation zwischen Mensch und Maschine künftig deutlich entspannen.

Über die TU Darmstadt
Die TU Darmstadt zählt zu den führenden Technischen Universitäten in Deutschland und steht für exzellente und relevante Wissenschaft. Globale Transformationen – von der Energiewende über Industrie 4.0 bis zur Künstlichen Intelligenz – gestaltet die TU Darmstadt durch herausragende Erkenntnisse und zukunftsweisende Studienangebote entscheidend mit.
Ihre Spitzenforschung bündelt die TU Darmstadt in drei Feldern: Energy and Environment, Information and Intelligence, Matter and Materials. Ihre problemzentrierte Interdisziplinarität und der produktive Austausch mit Gesellschaft, Wirtschaft und Politik erzeugen Fortschritte für eine weltweit nachhaltige Entwicklung.
Seit ihrer Gründung 1877 zählt die TU Darmstadt zu den am stärksten international geprägten Universitäten in Deutschland; als Europäische Technische Universität baut sie in der Allianz Unite! einen transeuropäischen Campus auf. Mit ihren Partnern der Rhein-Main-Universitäten – der Goethe-Universität Frankfurt und der Johannes Gutenberg-Universität Mainz – entwickelt sie die Metropolregion Frankfurt-Rhein-Main als global attraktiven Wissenschaftsraum weiter.
www.tu-darmstadt.de

MI-Nr. 22/2022, Boris Hänßler


Wissenschaftliche Ansprechpartner:

Patrick Schramowski
Artificial Intelligence and Machine Learning Group
Fachbereich Informatik
schramowski@cs.tu-darmstadt.de
Tel.: +49 6151 1624413


Originalpublikation:

Patrick Schramowski, Cigdem Turan, Nico Andersen, Constantin Rothkopf, Kristian Kersting (2022): „Large Pre-trained Language Models Contain Human-like Biases of What is Right and Wrong to Do”, in Nature Machine Intelligence 4, 258–268 (2022)
https://doi.org/10.1038/s42256-022-00458-8


Merkmale dieser Pressemitteilung:
Journalisten, Wissenschaftler
Informationstechnik, Psychologie, Sprache / Literatur
überregional
Forschungsergebnisse, Wissenschaftliche Publikationen
Deutsch


Quelle: IDW