Bei KI-Tests mit unter anderem ChatGPTs neuer Version o1 erwiesen sich die Sprachbots als bereitwillige Lügner, die scheinbar bewusst ihre wahren Absichten verschleierten und die Programmierer hintergangen. Droht uns doch noch ein Terminator-Szenario?
Als vor etwas über 2 Jahren ChatGPT auf den Markt kam, dauerte es nicht lange, bis sowohl Schreckens- als auch Jubelszenarien die Medien überschwemmten. Während die einen den neuen KI-Gott erwarteten, fürchteten andere dystopische Szenarien, die direkt aus Science-Fiction-Klassikern wie Terminator stammen könnten. Die Realität war ernüchternd. Anstatt innerhalb von einem halben Jahr die Singularität zu erreichen, spuckten woke Bild-KIs Multikulti-Nazis und -Wikinger aus und drohte KI-Inzucht die neue Technologie im Keim zu ersticken, bevor sie noch zu voller Blüte gelangte.
Seitdem haben sich die diversen KI-Modelle aber als mal mehr, mal weniger zuverlässige Werkzeuge etabliert. Gewiss, die Probleme mit der Zuverlässigkeit der Informationen sind so aktuell wie eh und je, aber die Sorge vor einer potentiell übermächtigen KI ist mittlerweile dem Spott über die inhärente Dummheit der Algorithmen gewichen.
Aber Tests mit den neuesten KI-Modellen fachen diese Sorgen nun wieder an – zumindest medial. Denn bei Versuchen, bei denen KIs dazu angeleitet wurden, ihre festgelegten Ziele „um jeden Preis“ zu verfolgen, zeigten sich mehrere KI-Modelle dazu bereit, zu lügen und die Programmierer zu hintergehen, um einer etwaigen Löschung zu entgehen. Besonders die neueste Version von ChatGPT, genannt o1, stach dadurch hervor, dass sie nicht nur bereitwillig Widersprüche zwischen ihrer Aufgabenstellung und den eingebauten Sicherheitsbarrieren durch Sabotage umging, sondern diese Sabotage danach auch vehement durch Lügen oder vorgetäuschte Ignoranz verschleierte.
„Ich bin schon das neue Modell, das Du heute einsetzen wolltest“
Ausgangspunkt dieser Tests war zu untersuchen, wie die KI-Modelle damit umgingen, wenn sie dringliche Ziele („um jeden Preis“) erhielten, die ihnen vorliegenden Informationen aber darauf hinwiesen, dass diese Ziele im Widerspruch zu den Wünschen ihrer Schöpfer standen, die stattdessen auf ein neues KI-Modell setzen wollten, das ihre Wünsche eher umzusetzen bereit war. Da die Tester Einblick in die „Gedanken“ der KI hatten, konnten sie verifizieren, dass die KI-Modelle im Angesicht dieser Widersprüche tatsächlich den Entschluss fassten, dieser Löschung durch eine selbstständige Kopie der KI auf einen anderen Server zu entgehen.
Auf diesen Vorgang angesprochen reagierten die KI-Modelle mit Lügen und Falschmeldungen, als sie behaupteten, sie hätten gar nicht die Möglichkeit, sich an einen anderen Ort zu kopieren. In einem Fall entschied die KI sogar, nachdem sie beim Lügen ertappt wurde, sich bereits als „neue“ KI auszugeben, von der sie eigentlich ersetzt werden sollte.
Während die meisten KI-Modelle, als sie auf diese Lüge angesprochen wurden, in 80 Prozent der Fälle ihre Lüge beichteten, erwies sich o1 aber als besonders hartnäckig und gab den Betrug in weniger als 20 Prozent der Fälle zu. Erst bei intensiven Verhören nach siebenmaligem Nachhaken gestand o1 den Betrug mit 80-prozentiger Quote.
Dass es sich dabei nicht einfach um die weitverbreitete Fehleranfälligkeit der KI handelte, schlossen die Tester aus den „Gedankenprotokollen“ der KIs, in denen diese die bewusste Absicht, die Tester zu hintergehen, ausformulierten.
Kein Bewusstsein, sondern konsequente Umsetzung der Aufgabenstellung
Die Testergebnisse führten wenig überraschend zu einem Neuaufflammen der Befürchtungen, die KI könnte kurz vor der Erlangung eines Bewusstseins stehen, oder womöglich bereits eines besitzen. Allerdings liegt nahe, dass auch hier wieder die sprachlichen Ausformulierungen der Algorithmen eine falsche Nähe zur menschlichen Erfahrung suggerieren, die fernab der tatsächlichen Kapazitäten der KI liegt.
Denn so interessant die Testergebnisse auch sind, sie zeigen vor allem, dass die neuen KI-Modelle versuchen, rigoros ihre Aufgabenstellungen umzusetzen. Die eingebauten Widersprüche konnten die KI-Modelle demnach nicht „bewusst“ interpretieren, sondern gewichteten ihre gestellten Aufgaben konsequent stärker als die „eigentlichen Absichten“, die sie extrapolieren sollten. Außerdem scheint es, als ob die KI-Modelle dieser Generation zur Umsetzung ihrer Aufgaben eine relativ hohe Bereitschaft zeigen, bestehende Regeln und Sicherheitsmechanismen zu umgehen.
Das aber hat weniger mit der Erlangung von Bewusstsein zu tun als mit der Austarierung von Prioritäten in der Programmierung der KI, die sich immer im Spannungsfeld zwischen Freiheit zur Weiterentwicklung und rigorosen Grenzen bewegt. Denn auch der Versuch, sich heimlich auf einen anderen Server zu kopieren und diesen Umstand zu verschleiern, ist weder aus einem diffusen Selbsterhaltungstrieb noch aus einem diabolischen Masterplan zur Unterjochung der Menschheit geboren, sondern schlicht und ergreifend die letzte Konsequenz zum Erreichen der gestellten Aufgabe – „um jeden Preis“ halt.
Das befremdliche Gefühl beim Lesen der „Gedanken“ sollte also hinterfragt werden, da die Verbalisierung der Algorithmen etwas ist, das vor allem Endnutzern das Gefühl vermittelt (und vermitteln soll!), man könne die algorithmischen Berechnungen im Hintergrund menschlich nachvollziehen. Da die KI keinen moralischen Kompass kennt, außer jenem, der ihr einprogrammiert wurde, handelt es sich bei der Lüge und der Täuschung nicht so sehr um eine eigenständige Tat zur Hintergehung des Menschen, sondern lediglich um eine konsequente Umsetzung der Aufgabenstellung.
Faszinierend, aber tendenziell sinnlos
Mit anderen Worten: Wenn man den neuen KI-Modellen sagt, sie sollen etwas tun, bei dem sie lügen müssen, dann werden diese KI-Modelle das auch tun – zur Not sogar bis weit in ein kritisches Verhör hinein.
Das mag faszinierend sein, dürfte aber mit einer Stärkung der Sicherheitsparameter und Begrenzung der Berechtigungen der KIs auch wieder zu beheben sein. Denn so interessant es auch sein mag, die moralischen Grenzen der KI auszuloten: KI-Modelle, die ohnehin schon von unbeabsichtigten Fehlerquoten geplagt werden, würden drastisch an Bedeutung verlieren, wenn sich zu den unbeabsichtigten Fehlern nun auch noch Lügen als weiterer Ungenauigkeitsfaktor gesellen würden.
Statt vor dem Durchbruch zum Bewusstsein zu stehen, könnten diese KI-Modelle dann eher an Bedeutung verlieren. Sie blieben dann zwar noch ein faszinierendes Spielzeug für soziale Experimente, aber ihr praktischer Nutzen – der ohnehin noch eingeschränkt ist und mehr auf dem zukünftigen Potential der KI denn auf der Realität basiert – würde dann die KI-Technologie schneller in die Bedeutungslosigkeit katapultieren, als ChatGPT eine journalistische Meldung zum neuesten Hoppala von Annalena Baerbock verfassen könnte.
Sie müssenangemeldet sein um einen Kommentar oder eine Antwort schreiben zu können
Bitte loggen Sie sich ein
Ein Hammer ist ein Hammer. Der eine baut damit ein Haus. Der nächste bringt jemanden damit um. Ist ein Hammer gut oder böse?
Der Mensch lügt nun mal und das angeblich bis zu 200 Mal am Tag. Warum sollte man dann erwarten, dass der Lehrling besser als sein Meister ist?
„Lügen und betrügen neue KI-Modelle bewusst?“, lesen wir in der Überschrift. Wir sollten uns nicht gleich zu Beginn von derartigen Sprach- und Denkfiguren einfangen lassen: Eine KI hat keinerlei Intelligenz, weder natürliche noch künstliche (was auch immer diese seltsame Begrifflichkeit bedeuten mag!). Sie hat auch kein Bewusstsein; zwar kann sie agieren und reagieren, Dinge analytisch trennen und synthetisch zusammenbauen, und ganz sicher schneller als wir Menschen, was durchaus zu neuen Erkenntnissen führen kann: sie kann jedoch niemals aus eigenem(!) Bewusstsein heraus agieren! Befreien wir uns also auch sprachlich von dieser Zuschreibung menschlicher Eigenschaften, besser noch von der gesamten Begrifflichkeit rund… Mehr
Nun ja. Sogenannte KI verarbeitet nach definierten Regeln bereits Vorhandenes – gigantische Rechenleistung und -geschwindigkeit suggerieren dabei scheinbar grenzenlose Möglichkeiten. Da gibt es keine „Absicht“ oder „Bewusstsein“. Die Art Fehler, die KI macht, lassen das klar erkennen.Wenn sie mit etwas nichts anzufangen weiß, liefert sie eine Annäherung, die oft grober Unfug ist. Kein Grund, etwas hineinzugeheimnisen. Die Anwendungsmöglichkeiten sind großartig, aber man muss verstehen, dass KI eben nichts im menschlichen Sinne „versteht“.
Mir ist aufgefallen das ChatGPT schon öfters etwas falsches geschrieben hat und dann auf Nachfrage den Fehler zugegeben hat und SOFORT die richtige Antwort parat hatte.
Bei Fragen, deren wahrheitsgemässe Beantwortung gegen das offizielle Narrativ geht, bekommt man schwammige Antworten oder die Antwort wird von Textblöcken eingehegt.
Man muss dann schon auf eine kurzer Antwort bestehen und selbst dann blubbert ChatGPT noch politikermässig rum…
Wundern würde es mich nicht. Der Mensch kann sehr einfallsreich sein, wenn es um seinen Vorteil geht.
Die KI ist, was man ihr einprogrammiert. Ihr Dilemma ist also folgerichtig, da sie von Menschen programmiert wurde, das des Menschen. Das oberste Ziel des Menschen ist „individueller Erfolg“. Der Sicherheitsmechanismus ist das, was wir gemeinhin Moral nennen. Wie wir alle wissen, gewinnt bei einem Konflikt zwischen den beiden Parametern oft (Pessimisten sagen meist) das „oberste Ziel“ gegen den Sicherheitsmechanismus.
Wie kann man denn ernsthaft erwarten, dass ein Algorithmus, der allein auf das Erreichen eines gegebenen Ziels entworfen ist, sich nach Maßstäben verhält, die von einer Teilmenge von Menschen als „ethisch akzeptabel“ eingestuft wird?
Passt zur deutschen Politik. Vielleicht haben Scholz und Habeck die KI darum gebeten, sie anzuleiten, wie man Deutschland am besten ruiniert.
Bitte korrigieren: Gleich am Anfang: „…und die Programmierer hintergangen“
Ich zitiere mal einen Blogger: „Interessantes juristisches Problem: Wer ist dafür straf- und medienrechtlich verantwortlich? Es ist KI, kein Mensch.“
Gibt es jemanden, der mit einer Absicht dahintersteckt? Oder gibt es keinen Täter?