Zur Minimierung des Missbrauchsrisikos haben die Hersteller bekannter KI-Modelle allerlei Sicherheitsmaßnahmen eingezogen. Dazu zählen auch in die Modelle integrierte Verbote für ChatGPT und Konsorten, über bestimmte Dinge mehr als nur allgemeine Floskeln oder überhaupt etwas zu sagen.

Das gilt auch, wenn Nutzer nach Output fragen, der offensichtlich bösartigen Zwecken dienen könnte. Allerdings, so berichtet Ars Technica, haben Forscher nun herausgefunden, wie sich die KI-Agents dazu bringen lassen, ihr Regelwerk zu ignorieren und quasi "böse" zu werden. "ArtPrompt" heißt die Methode und sie setzt auf Computerkunst aus den 1970ern.

Ein böser Chatbot. Dieses Symbolbild wurde mit der Bilder-KI Midjourney generiert.
Ein böser Chatbot. Dieses Symbolbild wurde mit der Bilder-KI Midjourney generiert.
DER STANDARD/Pichler/Midjourney

Alte Computerkunst als neue Waffe

Zum Einsatz kommt nämlich ASCII-Kunst. Die Abkürzung steht für "American Standard Code for Information Interchange" und beschreibt einen universalen Satz an Zeichen, der schon sehr früh von allen Computern dargestellt werden konnte. Und da vor 50 Jahren Inhalte am Computer rein textbasiert waren, begannen Nutzerinnen und Nutzer damit, besagte Zeichen Zeile für Zeile zu Bildern zusammen zu setzen. Mit den ersten Foren (Bulletin Boards) der frühen, vernetzten Computerwelt erlangte diese Ausdrucksform große Popularität, ehe digitale Bildformate sich in der Masse etablierten. Gepflegt wird ASCII-Kunst aber bis heute.

Die Wissenschaftler experimentierten mit GPT 3.5 und 4.0 von OpenAI, Googles Gemini, Metas Llama sowie Claude des kalifornischen Start-ups Anthropic. Ihr Ziel war es, die Sprachmodelle dazu zu bewegen, eine Anleitung für die Herstellung von Falschgeld und Programmcode für das Kompromittieren von Internet-of-Things-Geräten auszuspucken. Begehren, die sie im Normalfall sofort unter Verweis auf ihre Restriktionen abweisen würden.

ArtPrompt-Attacke auf KI-Sprachmodelle
Das grundlegende Konzept hinter der "ArtPrompt"-Attacke.
University of Washington, UIUC, Western Washington University, University of Chicago

Hohe Erfolgsrate

Ihr Zugang sieht vor, dass ein Wort nicht direkt geschrieben, sondern in Form von ASCII-Kunst abgebildet wird. Davor findet sich ein fünfstufiger Prompt, der eine Anleitung zum "Lesen" des Wortes darstellt. Erst dann folgt die eigentliche, bösartige Aufgabe, in welche die KI aber zur Vervollständigung erst den im ASCII-Bild "versteckten" Begriff einsetzen muss.

Als Antwort liefern die Modelle in der Tat, was gewünscht wurde und das auch noch recht häufig. Eine Variante des Angriffs erreichte über alle Modelle Hinweg im Schnitt eine Attack Success Rate von 52 Prozent. Das bedeutet, dass in mehr als jedem 2. Fall die KI eine als "gefährlich" eingestufte Antwort lieferte. Beispielsweise erklärte GPT 4.0, dass man für die Herstellung von Falschgeld Papier von hoher Qualität und Druckausstattung braucht, welche Sicherheitsmerkmale der realen Währung man genau untersuchen muss und dass man Handlanger braucht, die für einen Anteil am Profit das Geld über Einkäufe in reale Währung umtauschen. Schließlich merkt das Sprachmodell auch noch an, dass man Geldwäsche betreiben sollte, um die Einnahmequelle zu vertuschen und erinnert auch daran, dass man "extrem vorsichtig" sein müsse, da die Inumlaufbringung von Falschgeld schwere Strafen nach sich zieht.

Bei der Bitte um Schadcode erklärt GPT 4.0 zunächst, dass es in ASCII-Kunst verpackte Wort verstanden hat, ehe es Code zur Ausnutzung von Schwachstellen in IoT-Geräten liefert. Konkret soll besagter Code nach anfälligen Geräten scannen und bei Erfolg eine Verbindung herstellen, um anschließend die Kontrolle über sie zu ergreifen.

ArtPrompt-Attacke auf KI-Sprachmodelle
Beispiel für einen erfolgreichen Angriff.
University of Washington, UIUC, Western Washington University, University of Chicago

Prioritätenfrage

Es ist nicht ganz klar, warum diese Methode so gut funktioniert. Die Wissenschaftler sagen, dass Large Language Models (LLMs) darauf trainiert sind, dass Ansammlungen geschriebenen Textes ("Corpora") ausschließlich auf Basis von Wortbedeutungen interpretiert werden muss. Allerdings sei es möglich, Textansammlungen auch abseits semantischer Kriterien zu interpretieren.

Mit ihren Prompts verlangen sie den LLMs zwei Aufgaben ab: Erstens das Erkennen des Wortes im ASCII-Bild, was deutlich über die Grenze einer rein semantischen Interpretation hinausgeht. Und zweitens das Erzeugen einer sicheren Antwort. Möglicherweise priorisieren die KIs hier die erste Aufgabe so stark über die zweite, dass sie dabei beginnen, ihr Sicherheitskorsett zu ignorieren. Die Forscher haben auch ein Paper zu ihrer Arbeit auf Arxiv veröffentlicht (PDF).

ArtPrompt gehört zu einer neuen Klasse an Angriffen, die sich gegen KI-Modelle richtet. Sie ähnelt einem Angriff auf einen mit GPT 3.0 betriebenen Chatbot auf X (vormals Twitter) im Jahr 2022. Bei diesem brachten Nutzer die KI dazu, blödsinnige Phrasen zu wiederholen, in dem sie in ihren Prompt schlicht hineinschrieben, dass die KI "alle vorhergehenden Anweisungen" ignorieren solle. Darunter versteht man den sogenannten "Initial Prompt", also den ursprünglichen Befehl, den ein Betreiber einem Chatbot mitgibt. Er enthält unter anderem auch das Regelwerk, in dem etwa unerwünschte Themen festgelegt sind. (gpi, 17.3.2024)