Lügen und betrügen neue KI-Modelle bewusst?

Bei KI-Tests mit unter anderem ChatGPTs neuer Version o1 erwiesen sich die Sprachbots als bereitwillige Lügner, die scheinbar bewusst ihre wahren Absichten verschleierten und die Programmierer hintergangen. Droht uns doch noch ein Terminator-Szenario?

IMAGO / Christian Ohde

Als vor etwas über 2 Jahren ChatGPT auf den Markt kam, dauerte es nicht lange, bis sowohl Schreckens- als auch Jubelszenarien die Medien überschwemmten. Während die einen den neuen KI-Gott erwarteten, fürchteten andere dystopische Szenarien, die direkt aus Science-Fiction-Klassikern wie Terminator stammen könnten. Die Realität war ernüchternd. Anstatt innerhalb von einem halben Jahr die Singularität zu erreichen, spuckten woke Bild-KIs Multikulti-Nazis und -Wikinger aus und drohte KI-Inzucht die neue Technologie im Keim zu ersticken, bevor sie noch zu voller Blüte gelangte.

Seitdem haben sich die diversen KI-Modelle aber als mal mehr, mal weniger zuverlässige Werkzeuge etabliert. Gewiss, die Probleme mit der Zuverlässigkeit der Informationen sind so aktuell wie eh und je, aber die Sorge vor einer potentiell übermächtigen KI ist mittlerweile dem Spott über die inhärente Dummheit der Algorithmen gewichen.

Aber Tests mit den neuesten KI-Modellen fachen diese Sorgen nun wieder an – zumindest medial. Denn bei Versuchen, bei denen KIs dazu angeleitet wurden, ihre festgelegten Ziele „um jeden Preis“ zu verfolgen, zeigten sich mehrere KI-Modelle dazu bereit, zu lügen und die Programmierer zu hintergehen, um einer etwaigen Löschung zu entgehen. Besonders die neueste Version von ChatGPT, genannt o1, stach dadurch hervor, dass sie nicht nur bereitwillig Widersprüche zwischen ihrer Aufgabenstellung und den eingebauten Sicherheitsbarrieren durch Sabotage umging, sondern diese Sabotage danach auch vehement durch Lügen oder vorgetäuschte Ignoranz verschleierte.

„Ich bin schon das neue Modell, das Du heute einsetzen wolltest“

Ausgangspunkt dieser Tests war zu untersuchen, wie die KI-Modelle damit umgingen, wenn sie dringliche Ziele („um jeden Preis“) erhielten, die ihnen vorliegenden Informationen aber darauf hinwiesen, dass diese Ziele im Widerspruch zu den Wünschen ihrer Schöpfer standen, die stattdessen auf ein neues KI-Modell setzen wollten, das ihre Wünsche eher umzusetzen bereit war. Da die Tester Einblick in die „Gedanken“ der KI hatten, konnten sie verifizieren, dass die KI-Modelle im Angesicht dieser Widersprüche tatsächlich den Entschluss fassten, dieser Löschung durch eine selbstständige Kopie der KI auf einen anderen Server zu entgehen.

Auf diesen Vorgang angesprochen reagierten die KI-Modelle mit Lügen und Falschmeldungen, als sie behaupteten, sie hätten gar nicht die Möglichkeit, sich an einen anderen Ort zu kopieren. In einem Fall entschied die KI sogar, nachdem sie beim Lügen ertappt wurde, sich bereits als „neue“ KI auszugeben, von der sie eigentlich ersetzt werden sollte.

Während die meisten KI-Modelle, als sie auf diese Lüge angesprochen wurden, in 80 Prozent der Fälle ihre Lüge beichteten, erwies sich o1 aber als besonders hartnäckig und gab den Betrug in weniger als 20 Prozent der Fälle zu. Erst bei intensiven Verhören nach siebenmaligem Nachhaken gestand o1 den Betrug mit 80-prozentiger Quote.

Dass es sich dabei nicht einfach um die weitverbreitete Fehleranfälligkeit der KI handelte, schlossen die Tester aus den „Gedankenprotokollen“ der KIs, in denen diese die bewusste Absicht, die Tester zu hintergehen, ausformulierten.

Kein Bewusstsein, sondern konsequente Umsetzung der Aufgabenstellung

Die Testergebnisse führten wenig überraschend zu einem Neuaufflammen der Befürchtungen, die KI könnte kurz vor der Erlangung eines Bewusstseins stehen, oder womöglich bereits eines besitzen. Allerdings liegt nahe, dass auch hier wieder die sprachlichen Ausformulierungen der Algorithmen eine falsche Nähe zur menschlichen Erfahrung suggerieren, die fernab der tatsächlichen Kapazitäten der KI liegt.

Denn so interessant die Testergebnisse auch sind, sie zeigen vor allem, dass die neuen KI-Modelle versuchen, rigoros ihre Aufgabenstellungen umzusetzen. Die eingebauten Widersprüche konnten die KI-Modelle demnach nicht „bewusst“ interpretieren, sondern gewichteten ihre gestellten Aufgaben konsequent stärker als die „eigentlichen Absichten“, die sie extrapolieren sollten. Außerdem scheint es, als ob die KI-Modelle dieser Generation zur Umsetzung ihrer Aufgaben eine relativ hohe Bereitschaft zeigen, bestehende Regeln und Sicherheitsmechanismen zu umgehen.

Das aber hat weniger mit der Erlangung von Bewusstsein zu tun als mit der Austarierung von Prioritäten in der Programmierung der KI, die sich immer im Spannungsfeld zwischen Freiheit zur Weiterentwicklung und rigorosen Grenzen bewegt. Denn auch der Versuch, sich heimlich auf einen anderen Server zu kopieren und diesen Umstand zu verschleiern, ist weder aus einem diffusen Selbsterhaltungstrieb noch aus einem diabolischen Masterplan zur Unterjochung der Menschheit geboren, sondern schlicht und ergreifend die letzte Konsequenz zum Erreichen der gestellten Aufgabe – „um jeden Preis“ halt.

Das befremdliche Gefühl beim Lesen der „Gedanken“ sollte also hinterfragt werden, da die Verbalisierung der Algorithmen etwas ist, das vor allem Endnutzern das Gefühl vermittelt (und vermitteln soll!), man könne die algorithmischen Berechnungen im Hintergrund menschlich nachvollziehen. Da die KI keinen moralischen Kompass kennt, außer jenem, der ihr einprogrammiert wurde, handelt es sich bei der Lüge und der Täuschung nicht so sehr um eine eigenständige Tat zur Hintergehung des Menschen, sondern lediglich um eine konsequente Umsetzung der Aufgabenstellung.

Faszinierend, aber tendenziell sinnlos

Mit anderen Worten: Wenn man den neuen KI-Modellen sagt, sie sollen etwas tun, bei dem sie lügen müssen, dann werden diese KI-Modelle das auch tun – zur Not sogar bis weit in ein kritisches Verhör hinein.

Das mag faszinierend sein, dürfte aber mit einer Stärkung der Sicherheitsparameter und Begrenzung der Berechtigungen der KIs auch wieder zu beheben sein. Denn so interessant es auch sein mag, die moralischen Grenzen der KI auszuloten: KI-Modelle, die ohnehin schon von unbeabsichtigten Fehlerquoten geplagt werden, würden drastisch an Bedeutung verlieren, wenn sich zu den unbeabsichtigten Fehlern nun auch noch Lügen als weiterer Ungenauigkeitsfaktor gesellen würden.

Statt vor dem Durchbruch zum Bewusstsein zu stehen, könnten diese KI-Modelle dann eher an Bedeutung verlieren. Sie blieben dann zwar noch ein faszinierendes Spielzeug für soziale Experimente, aber ihr praktischer Nutzen – der ohnehin noch eingeschränkt ist und mehr auf dem zukünftigen Potential der KI denn auf der Realität basiert – würde dann die KI-Technologie schneller in die Bedeutungslosigkeit katapultieren, als ChatGPT eine journalistische Meldung zum neuesten Hoppala von Annalena Baerbock verfassen könnte.

Anzeige

Anzeige

Unterstützung
oder

Kommentare ( 14 )

Liebe Leser!

Wir sind dankbar für Ihre Kommentare und schätzen Ihre aktive Beteiligung sehr. Ihre Zuschriften können auch als eigene Beiträge auf der Site erscheinen oder in unserer Monatszeitschrift „Tichys Einblick“.
Bitte entwerten Sie Ihre Argumente nicht durch Unterstellungen, Verunglimpfungen oder inakzeptable Worte und Links. Solche Texte schalten wir nicht frei. Ihre Kommentare werden moderiert, da die juristische Verantwortung bei TE liegt. Bitte verstehen Sie, dass die Moderation zwischen Mitternacht und morgens Pause macht und es, je nach Aufkommen, zu zeitlichen Verzögerungen kommen kann. Vielen Dank für Ihr Verständnis. Hinweis

14 Comments
neuste
älteste beste Bewertung
Inline Feedbacks
Alle Kommentare ansehen
dienbienphu
16 Minuten her

Ein Hammer ist ein Hammer. Der eine baut damit ein Haus. Der nächste bringt jemanden damit um. Ist ein Hammer gut oder böse?

BK
27 Minuten her

Der Mensch lügt nun mal und das angeblich bis zu 200 Mal am Tag. Warum sollte man dann erwarten, dass der Lehrling besser als sein Meister ist?

Jan Usko
37 Minuten her

„Lügen und betrügen neue KI-Modelle bewusst?“, lesen wir in der Überschrift. Wir sollten uns nicht gleich zu Beginn von derartigen Sprach- und Denkfiguren einfangen lassen: Eine KI hat keinerlei Intelligenz, weder natürliche noch künstliche (was auch immer diese seltsame Begrifflichkeit bedeuten mag!). Sie hat auch kein Bewusstsein; zwar kann sie agieren und reagieren, Dinge analytisch trennen und synthetisch zusammenbauen, und ganz sicher schneller als wir Menschen, was durchaus zu neuen Erkenntnissen führen kann: sie kann jedoch niemals aus eigenem(!) Bewusstsein heraus agieren! Befreien wir uns also auch sprachlich von dieser Zuschreibung menschlicher Eigenschaften, besser noch von der gesamten Begrifflichkeit rund… Mehr

Last edited 35 Minuten her by Jan Usko
Lucius de Geer
1 Stunde her

Nun ja. Sogenannte KI verarbeitet nach definierten Regeln bereits Vorhandenes – gigantische Rechenleistung und -geschwindigkeit suggerieren dabei scheinbar grenzenlose Möglichkeiten. Da gibt es keine „Absicht“ oder „Bewusstsein“. Die Art Fehler, die KI macht, lassen das klar erkennen.Wenn sie mit etwas nichts anzufangen weiß, liefert sie eine Annäherung, die oft grober Unfug ist. Kein Grund, etwas hineinzugeheimnisen. Die Anwendungsmöglichkeiten sind großartig, aber man muss verstehen, dass KI eben nichts im menschlichen Sinne „versteht“.

MELTA
1 Stunde her

Mir ist aufgefallen das ChatGPT schon öfters etwas falsches geschrieben hat und dann auf Nachfrage den Fehler zugegeben hat und SOFORT die richtige Antwort parat hatte.

Bei Fragen, deren wahrheitsgemässe Beantwortung gegen das offizielle Narrativ geht, bekommt man schwammige Antworten oder die Antwort wird von Textblöcken eingehegt.
Man muss dann schon auf eine kurzer Antwort bestehen und selbst dann blubbert ChatGPT noch politikermässig rum…

HansKarl70
1 Stunde her

Wundern würde es mich nicht. Der Mensch kann sehr einfallsreich sein, wenn es um seinen Vorteil geht.

Soistes
1 Stunde her

Die KI ist, was man ihr einprogrammiert. Ihr Dilemma ist also folgerichtig, da sie von Menschen programmiert wurde, das des Menschen. Das oberste Ziel des Menschen ist „individueller Erfolg“. Der Sicherheitsmechanismus ist das, was wir gemeinhin Moral nennen. Wie wir alle wissen, gewinnt bei einem Konflikt zwischen den beiden Parametern oft (Pessimisten sagen meist) das „oberste Ziel“ gegen den Sicherheitsmechanismus.

Armin Reichert
2 Stunden her

Wie kann man denn ernsthaft erwarten, dass ein Algorithmus, der allein auf das Erreichen eines gegebenen Ziels entworfen ist, sich nach Maßstäben verhält, die von einer Teilmenge von Menschen als „ethisch akzeptabel“ eingestuft wird?

Matthias F.
2 Stunden her

Passt zur deutschen Politik. Vielleicht haben Scholz und Habeck die KI darum gebeten, sie anzuleiten, wie man Deutschland am besten ruiniert.

Mausi
2 Stunden her

Bitte korrigieren: Gleich am Anfang: „…und die Programmierer hintergangen“
Ich zitiere mal einen Blogger: „Interessantes juristisches Problem: Wer ist dafür straf- und medienrechtlich verantwortlich? Es ist KI, kein Mensch.“
Gibt es jemanden, der mit einer Absicht dahintersteckt? Oder gibt es keinen Täter?

Last edited 2 Stunden her by Mausi