In unüberschaubarer Vielfalt lassen sich die 26 Buchstaben des lateinischen Alphabets miteinander kombinieren. Schon die Zahl der möglichen Zeichenketten mit maximal fünfzehn Stellen liegt deutlich über einer Trilliarde. Erstaunlicherweise wird dieses Potential nur in homöopathischen Dosen ausgenutzt. Gerade einmal 70.000 unterschiedliche Wörter bilden den deutschen Standardwortschatz; selbst Dichterfürsten wie Goethe oder Schiller haben nur gut 100.000 verwendet.
Im aktuellen Duden finden sich 145.000 Einträge – immer noch verschwindend wenig im Vergleich zur Unendlichkeit. Diese Bescheidenheit mag gute Gründe haben, etwa Limitierungen sowohl hinsichtlich menschlicher Merkfähigkeit als auch in Bezug auf die Menge der zu beschreibenden Dinge, Eigenschaften und Tätigkeiten. Was aber die Frage nach einer Gesetzmäßigkeit provoziert, die die Bildung sinnvoller Zeichenfolgen reguliert und sinnloses Kauderwelsch ausschließt. Die Wissenschaft hat bislang keine derartige Erklärung gefunden. Mehr als heuristische und klassifizierende, mitunter gar höchst spekulative Beschreibungen semantischer Entwicklungen hat sie nicht anzubieten.
Keine denkende Maschinen, sondern statistische Algorithmen
So weiß niemand zu sagen, warum gerade die Zeichenfolge „Bank“ ein Sitzmöbel beschreibt, die sich nur marginal unterscheidende Buchstabenkette „Benk“ aber nicht. Überraschenderweise stellt letztere, obwohl leicht auszusprechen und zu merken, mit Ausnahme eventueller Eigennamen überhaupt kein sinntragendes deutsches Wort dar. Unter einem „Rat“ wird gemeinhin eine Empfehlung verstanden, ein „Rad“ dagegen ist ein kreisförmiges technisches Bauteil. Und da eine „Bank“ auch ein Geldinstitut, der „Rat“ auch ein Gremium mehr oder weniger kluger Personen und das „Rad“ auch voll ausgestattetes Verkehrsmittel sein können, steckt Bedeutung offensichtlich nicht nur in einzelnen Worten oder Lauten, sondern auch in deren Verknüpfung miteinander. Bis hin zu Gedanken und Botschaften, die sich über mehrere Sätze, mehrere Absätze oder gar ganze Bücher erstrecken.
Würde sich diese Emergenz aus allgemeingültigen Prinzipien ergeben, könnten Texte aller Art berechnet werden. Ob Groschenheft oder Jahrhundertroman, ob Gedicht, Theaterstück oder Drehbuch, ob Reportage oder Essay, die Schriftstellerei wäre als bloße Kalkulationsaufgabe entlarvt. Als automatisierbares Handwerk, das mittels mathematischer Formalismen 26 Buchstaben, die Leerstelle als „logische Null“ und ein paar Satzzeichen gefällig und ansprechend aneinanderreiht.
Automatisierte Ergänzungen von Texten: Chatprogramme
Der erste Schritt zur Prüfung dieser Hypothese besteht in der schlichten Erfassung all dessen, was die Menschheit bereits geschrieben hat. Eine Aufgabe, die mit der heute zur Verfügung stehenden Datenverarbeitungskapazität tatsächlich leistbar ist. So ergibt sich eine lange Liste mit jedem jemals verwendeten Wort. Die sich nach ihrer inhaltlichen Ähnlichkeit aufgrund einer simplen Hypothese sortieren lassen: Je häufiger zwei Wörter in den ausgewerteten Texten nahe beieinander auftauchen, desto „ähnlicher“ sind sie sich. Nützlich für weitere Berechnungen ist die Verwandlung von Wörtern in Vektoren, also in lange Zahlenreihen, die sich als Koordinaten eines hochdimensionalen Raums auffassen lassen. Je „ähnlicher“ zwei Zeichenketten einander sind, desto enger liegen ihre Vektoren beieinander.
„Berlin“ und „Hauptstadt“ weisen also eine große numerische Nähe zueinander auf, obwohl sie keinen einzigen Buchstaben gemeinsam haben. „Luft“ und „Lift“ dagegen sind recht weit voneinander entfernt. Schon auf dieser Grundlage führen Kalkulationen der Form „was ergibt Haustier minus Hund“ zu dem Ergebnis „Katze“, wobei ein guter Algorithmus auch weitere Antwortmöglichkeiten wie „Hamster“ oder „Kaninchen“ mit entsprechend zugeordneten Wahrscheinlichkeiten auswerfen würde. Einfache Sprachmodelle, etwa die automatisierte Ergänzung von Texten in Chatprogrammen, basieren auf solchen Ansätzen.
Generative Transformer gehen noch einen Schritt weiter, indem sie die allgemeinen Wortvektoren an die Struktur einer konkreten Eingabe individuell anpassen. Dabei werden die Position des Wortes in einer eingehenden Datenkette und seine Ähnlichkeit in Bezug auf alle anderen auftauchenden Begriffe berücksichtigt. Dieser im Jahr 2017 von Mitarbeitern der Google-Tochter DeepMind präsentierte „Aufmerksamkeitsmechanismus“ („attention mechanism“) gestattet nicht nur eine wortweise Ergänzung von Texten, also die Ermittlung des wahrscheinlich nächstfolgenden Wortes abhängig von seinem jeweiligen Vorgänger, sondern die Berücksichtigung beliebig langer Eingaben zu diesem Zweck. Alle großen Sprachmodelle (auch „LLMs“ genannt für „large language models“) arbeiten nach diesem Prinzip. Und hinterlassen dabei überraschend oft den Eindruck, den Sinn einer Formulierung verstanden zu haben.
Es dauert Monate, ein System wie Chat-GPT einsatzfähig zu machen
Mathematisch betrachtet machen sie allerdings nichts anderes, als (Wort-)Vektoren mit Matrizen zu multiplizieren, um neue, die Ausgabe kodierende Vektoren zu erhalten. Eine hierfür besonders geeignete Methode beruht auf dem Einsatz künstlicher neuronaler Netze, in denen die Werte einer Matrix durch die Gewichte und Schwellenwerte der jeweiligen „Neuronen“ repräsentiert werden. Und diese lassen sich mittels eines zweistufigen Trainings an die zu verrichtende Aufgabe anpassen.
Zunächst füttert man dazu den Computer mit einer Unmenge an Dokumenten, in die gezielt Lücken eingebaut wurden. Es gilt, diese mit den korrekten Begriffen wieder zu füllen, was dem Programm durch Anpassung der variablen Parameter, eben der Gewichte und Schwellenwerte, zunehmend besser gelingt. Die zweite Stufe erfordert den Einsatz von Menschen zur Bewertung der Ausgaben.
Man stellt dem Rechner nun eine konkrete Aufgabe, etwa das Verfassen eines Gedichtes über ein vorgegebenes Thema. Der Algorithmus generiert mehrere Varianten, aus denen ein Mensch die seiner Auffassung nach beste auswählt, die wiederum die Grundlage für neue, noch bessere Vorschläge bildet. So lernt die Software, spezifische Aufgaben wie Recherchetätigkeiten, Zusammenfassungen oder Übersetzungen in andere natürliche Sprachen durchzuführen. Es dauert allerdings Monate und viel Geld, ein System wie Chat-GPT auf diese Weise einsatzfähig zu machen. Das Training ist derzeit der Flaschenhals in der Entwicklung Künstlicher Intelligenz.
Kein noch so ausgereifter Algorithmus versteht, was er tut
Ja tatsächlich, die großen Sprachmodelle laufen unter der Gattungsbezeichnung künstliche „Intelligenz“, obwohl sie doch lediglich statistische Verfahren darstellen. Denn kein noch so ausgereifter Algorithmus versteht auch nur das Geringste von den Inhalten, die er bearbeitet. Kein generativer Transformer weiß, was eine „Bank“ ist, vermag aber dennoch aus der Diagnose des Kontextes zu ermitteln, ob eine Pause in einem Park eingelegt oder ein Geldgeschäft getätigt wird – ohne eben in „Park“ oder „Geldgeschäft“ mehr zu sehen als jeweils eine Aneinanderreihung unterschiedlicher Ziffern.
Die hohe Qualität, die diese Rechenmodelle dabei mitunter produzieren, stellt eine Überraschung dar. Denn häufig genug funktionieren sie überhaupt nicht. Sie „halluzinieren“ Unfug, lassen sich einfach austricksen und erzeugen stoisch sinnloses Kauderwelsch, wenn man sie mit solchem füttert. Generative Transformer widerlegen letztendlich die Vorstellung, Sprache sei nicht mehr als eine definierbaren Regeln folgende Kombination von Buchstaben und Begriffen. Es gibt wohl doch keine allgemeingültigen mathematisch formulierbaren Gesetze für die Bildung sinntragender Wörter aus diskreten Zeichen oder sinntragender Texte aus diskreten Zeichenfolgen. Die Katze heißt eben rein zufällig „Katze“ und nicht „Ketze“, da steckt kein tieferes Prinzip dahinter.
Der besondere Charme der generativen Transformer liegt in der Übertragbarkeit ihres funktionellen Prinzips auf alle anderen digitalen Kommunikationssysteme. Etwa auf Bilder, wenn man sie in einzelne Pixel mit diskreten Farb- und Helligkeitswerten verwandelt. Oder auf Musik mit den zwölf Tönen einer Tonleiter als Alphabet. Entsprechend trainiert können große Sprachmodelle Bedeutung zwischen diesen Domänen „transformieren“, also Texte in Bilder oder Musik verwandeln und umgekehrt. Ihre wahre Kraft aber entfalten sie dann, wenn es um formale Kommunikationssysteme geht. Also um Ausdrucksformen, die tatsächlich vollumfassend von menschgemachten oder natürlichen Regeln beherrscht werden und keinerlei stochastischen Einflüssen unterliegen.
Generative Transformer können Gleichungen aufstellen
Zu solchen zählen beispielsweise die Algebra als Sprache der Mathematik und auch alle Programmiersprachen. Generative Transformer sind dazu in der Lage, Gleichungen aufzustellen und zu lösen oder ein Ablaufdiagramm in einen kompilierbaren Code zu überführen. Und der Aufmerksamkeitsmechanismus eignet sich sogar für die Sprache der Natur. Man denke an die Genese chemischer Verbindungen mit Atomen als „Buchstaben“, Molekülen als „Wörtern“ und längeren Molekülketten als „Sätzen“ oder „Texten“. Hier bestimmen allein die Gesetze der Physik, welche Kombinationen stabil sind (also „sinnvoll“) und welche nicht.
Aber dieses Wissen hilft häufig nicht weiter. Die Frage beispielsweise, in welche dreidimensionale Struktur sich eine Kette aus Aminosäuren (ein Protein) faltet, ist aufgrund der Vielzahl und Komplexität der zu beachtenden Wechselwirkungen numerisch bislang nicht beantwortbar. Mit AlphaFold hat Google DeepMind schon 2018 einen Transformer vorgestellt, der trainiert an 170.000 bekannten Proteinstrukturen neue nach Eingabe der Aminosäuresequenz mit hoher Treffsicherheit vorhersagt. Das Programm leitet sozusagen die „grammatischen“ Regeln der Strukturbildung implizit aus vorhandenen Mustern ab, ohne die diese begründenden Prinzipien zu berücksichtigen. Jüngst demonstrierte Microsoft, wie sich mit dem Einsatz von KI auf dieselbe Weise aus 32 Millionen anorganischen Verbindungen in nur 80 Stunden jene achtzehn herausfiltern lassen, die sich möglicherweise als neue Materialien für Batterien eignen.
Schreiben, zeichnen, komponieren, programmieren und forschen gehören zu den Tätigkeiten, in denen die neuartigen KI-Systeme menschliche Kreativität unterstützen. Weil sie bei der Übertragung von Vorstellungen und Gedanken in ein kommunizierbares Format durch die Übernahme langwieriger und langweiliger Routineaufgaben entscheidende Hilfestellung leisten. Grundsätzlich kann der Algorithmus der generativen Transformer immer dann nutzbringend eingesetzt werden, wenn es um die „Übersetzung“ einer „Idee“, einer „Absicht“ oder eines „Bedarfes“ in eine konkrete, gut definierbare Handlung oder Darstellung geht. Von der Abfassung einer Mail bis hin zur Erstellung einer Illustration reicht das Spektrum der zumindest teilweise automatisierbaren Möglichkeiten.
Impuls oder Motivation allerdings müssen nach wie vor vom Menschen kommen. Statistische Formalismen haben keine eigenen Inspirationen. Sie schöpfen lediglich aus dem Fundus aller jemals von Menschen in dem jeweiligen Zusammenhang entwickelten Ideen, den sie komprimiert und mit erheblichem Informationsverlust in ihren Parametern, in ihren Gewichtungen und Schwellenwerten abbilden. Sie gestatten die Nutzung des Wissens der Welt in einer neuartigen Weise, fügen diesem aber nichts Neues hinzu. Generative KI ist ein Werkzeug zur besseren Nutzung biologisch begründeter kognitiver Fertigkeiten, ohne diese auch nur ansatzweise zu ersetzen. Sie ist uns in derselben Weise überlegen, in der ein traktorgezogener Pflug einen Bauern mit einer Hacke übertrifft.
Und genau wie die Mechanisierung der Agrartechnik enorme Produktivitätssteigerungen mit sich brachte, ohne am grundsätzlichen Charakter der Landwirtschaft etwas zu verändern, wird KI die Effizienz aller wissensbasierten Dienstleistungen deutlich erhöhen. Aber das ist nur ein Teil des vollständigen Bildes. Tatsächlich wohnt dem Aufmerksamkeitsmechanismus, einem mathematisch gesehen recht einfachem Verfahren, auch das Potenzial zu völlig neuen Applikationen inne, die die menschliche Zivilisation in eine neue Epoche katapultieren. Mehr dazu folgt im zweiten Teil unserer Serie.