Large Language Models wie ChatGPT können uns helfen, den Zusammenhang zwischen Sprache und Denken besser zu verstehen. Darin liegt die Chance für eine neue Aufklärung.
/******
Eine leicht gekürzte Version dieses Textes erschien im Magazin „Human“ 3/24. Das Heft kann man hier bestellten. [English Version]
******/
Seit seiner Erfindung im Zuge des Dartmouth Workshop von 1956 rankt um den Begriff der „Künstliche Intelligenz“ ein Deutungskampf, der für seine Verwender letztendlich immer verloren geht. Künstliche Intelligenz-Forschung verhält sich zu Intelligenz, wie negative Theologie zu Gott. Sie findet ständig heraus, was Intelligenz nicht ist. Früh lernten wir, dass ausgerechnet Kopfrechnen das einfachste digital zu lösende Problem ist, dass auch Sortieren anscheinend nicht viel Intelligenz benötigt, dass nicht mal Schach- oder Go-Spielen ein endgültiger Ausweis von Intelligenz ist, dass auch Katzen von Hunden zu unterscheiden oder sogar Autofahren offenbar ohne besonders viel Intelligenz zu bewerkstelligen ist.
Angesichts des aktuellen Hypes um generative Künstliche Intelligenz – Bildgeneratoren wie Midjourney oder Large Language Modells (LLMs) wie ChatGPT – ist die Frage wieder in aller Munde: ist die erstaunlich korrekte Verwendung von Wörtern und Bildern durch Maschinen „intelligent“?
Die eine Fraktion glaubt, einen „funken genereller Intelligenz“ in den großen Frontier-Modellen wie GPT-4, Claude 3, Gemini 1.5 zu erkennen, die Gegenseite glaubt, dass wir es nur mit „stochastischen Papageien“ zu tun haben, einer Art Autokorrektur auf Speed. Es wird also um „Kognition“ gestritten und darum, ob die „Intelligenz“ in der Maschine steckt. Mir scheint es sinnvoller, erstmal zu klären, wie Sprache und Denken zusammenhängen.
Derrida und der Linguistic Turn
In der zweiten Hälfte des 20. Jahrhunderts ereignete sich in den Kulturwissenschaften der „Linguistic Turn“. Ganz grob gesprochen verbreitete sich die Annahme, dass die Möglichkeit des Denkens an die Verwendung von Sprache gekoppelt sei, eine These die noch heute in der Kognitionswissenschaft als Sapir–Whorf-Hypothese diskutiert wird. Der These zufolge haben wir keinen direkten Zugriff auf die Welt, weil schon unsere Wahrnehmung symbolisch vermittelt ist. Die damals entstandenen kulturwissenschaftlichen Theorien, insbesondere der „Strukturalismus“, versuchte folglich die verdeckten Struktureinflüsse der Sprache auf das Denken sichtbar zu machen.
Jaques Derrida ging als Vertreter des „Poststrukturalismus“ noch einen Schritt weiter und zeigte, dass auch die Zeichen selbst keinen direkten Bezug auf die Welt haben. Sprache sei kein Gateway zur Realität, sondern ein freiflottierendes System der Referenzialität der Zeichen. Derridas Texte sind schwer verständlich, aber um seinen Punkt für unsere Zwecke zu veranschaulichen, reicht es, ein Wörterbuch zur Hand zu nehmen. Schlägt man darin ein Wort nach, wird man immer nur auf andere Worte verwiesen und schaut man diese nach, stößt man ebenfalls wieder nur auf Worte, usw. Dem Denken Derridas zufolge verweisen Zeichen immer nur auf andere Zeichen, statt auf irgendeine „Realität“.
Allein die Tatsache, dass LLMs, so ganz ohne jeden Realitätsbezug und nur durch die Auswertung sprachlicher Äußerungen semantisch korrekte Sätze ausspucken können, wirkt wie eine grundsätzliche Bestätigung dieser These. Doch je näher man sich mit der Technik der KI beschäftigt, desto mehr verdichtet sich der Eindruck, dass Large Language Models operationalisierter Poststrukturalismus sind.
Bedeutung im Latent-Space
Large Language Models geben immer das jeweils nächste Wort mittels Wahrscheinlichkeitsrechnung aus. In die Berechnung der Wahrscheinlichkeit bezieht die LLM im Gegensatz zur klassischen Autokorrektur nicht nur das vorherige Wort, sondern alle Vorherigen Worte mit ein. Und diese vorherigen Worte wiederum gehen nicht einfach als Buchstabenkombination mit in die Berechnung ein, sondern als sogenannte „Embeddings“.
„Embeddings“ werden Worte oder Wortbestandteile genannt, wenn sie mit allen anderen Worten in einem Vektorraum auf vielfältige Weise in Bezug gesetzt werden. Dieser Vektorraum wird bei LLMs auch „Latent-Space“ genannt und man kann sich ihn als tausenddimensionales Netzwerk von Begriffen und ihren möglichen Beziehungen vorstellen. Der Latent-Space ist das Resultat des Basistrainings der LLM, bei dem durch die statistische Durchmessung von Millionen von Texten all die unterschiedlichen Möglichkeiten abgespeichert wurden, in denen Begriffe zueinander in Beziehung stehen können.
Da alle Verbindungen exakt gewichtet sind, finden sich in den Weiten dieser hochkomplexen Netzwerkwolke Nähen und Fernen, darunter funktionale, syntaktische, rechtliche, fremdsprachige, ethische, politische, ästhetische, etymologische und natürlich etliche assoziative Konstellationen. Der Latent-Space ist eine zerklüftete, vieldimensionale Landschaft der Sprache.
Wenn wir in dieses Netzwerk hineinzoomen, dann finden wir dort z.B. das Wort „König“, das einen konkreten Ort in diesem Netzwerk hat, der sich aus den Verbindungen zu tausenden anderen Worten ergibt. Einer dieser Vektoren, mit dem „König“ im Zusammenhang steht, ist der Vektor „Mann“. Zieht man „Mann“ vom Vektor „König“ ab und addiert den Vektor für „Frau“ hinzu, dann landet man im Latent-Space beim Wort „Königin“.
Bei genauerer Betrachtung haben wir es beim Latent-Space also nur mit einer komplexeren Variante von Derridas Wörterbuch zu tun. Und so wie uns das Wörterbuch Orientierung in den Begriffen verspricht, so dient auch der Latent-Space der LLM als Landkarte der Sprache. So wie das Straßennetz alle Möglichkeiten des von A nach B-kommens vorzeichnet, so sind im Latent-Space alle existierenden und möglichen Sätze, Absätze, Aufsätze oder Bücher als latente Routen angelegt.
Bedeutung ist bei Derrida ein Effekt des sich Bewegens in diesem Netzwerk. Sie manifestiert sich im Lesen, Sprechen, Schreiben, Denken als konkrete Route von einem Punkt im Netzwerk zu einem anderen. Lesen, Sprechen, Schreiben, Denken sind also Navigationsmanöver innerhalb dieser bizarren Landschaft, in der nicht alle Wege gleichwahrscheinlich sind. Wer verstanden werden will, folgt den ausgetretenen Pfaden.
Technisch kann man sich das so vorstellen: Beim Einlesen des Prompts läuft das Modell den von uns vorgezeichneten Pfad im Latent-Space Wort für Wort ab und reichert dabei das Gelesene mit allerlei „embeddeten“, d.h. vieldimensional kontextuellen Semantiken an. Am Ende des Prompts macht es seine Position im Netzwerk dann zum Ausgangspunkt einer selbstständigen Navigation, bei der es darum geht, den vorgegebenen Pfad auf „plausible Art“ zu Ende zu führen.
Um wieder etwas Abstand zwischen LLMs und Menschen zu bringen, hilft es, sich den Latent-Space der LLMs als einen begrenzten und unterdimensionierten „Abdruck“ menschlicher Semantiken vorzustellen. So wie der Fußabdruck nicht den ganzen Fuß abbildet, fehlen auch im Latent-Space etliche Dimensionen, die wir Menschen in unseren Bezugnahmen beim Lesen, Sprechen, Schreiben, Denken einbeziehen. Emotionale, soziale, materielle und auch die kognitiven Vektoren des Bewusstseins stehen der LLM schlicht nicht zur Verfügung. Man könnte sagen, die maschinelle Semantik ist breit und flach, die menschliche dagegen tief und eng.
Semantiken all the Way down
Doch was sagt das jetzt über die Denkfähigkeit der Maschine aus? Es bedeutet erstmal, dass ein Teil dessen, was wir bei Menschen, wie neuerlich bei Maschinen als intelligent wahrnehmen, außerhalb der Gehirne und Rechenzentren liegt. Ein Gutteil der menschlichen Intelligenz ist in der Sprache codiert, in den geteilten Semantiken. Und das ist nicht in erster Linie eine technische oder kognitionswissenschaftliche, sondern eine kulturwissenschaftliche Entdeckung.
Das wird klar, wenn man „Semantik“ mit Niklas Luhmann als den “Bedeutungsvorrat der Gesellschaft“ versteht. Es geht eben nicht nur um Sprache und Schrift, sondern um alle denkbaren Weisen des Bedeutens. Zwar werden mit den Bild-, Audio- und Video-Generatoren parallel auch die bildlichen und audiovisuellen Semantiken operationalisierbar gemacht, doch man muss sich den menschlichen, semantischen Raum noch viel umfassender vorstellen. Vom „Links Blinken“ bis zur Geschichtswissenschaft, vom Stinkefinger zum experimentellen Versuchsaufbau, von Dark Metall bis zur Frühjahrskollektion. Die Art meine Hand zu bewegen ist Semantik, „Zeitgeist“ ist ein ganz bestimmtes Set an Semantiken, ein einziger Blick kann vor Semantik überquellen, jedes Liebespaar entwickelt eine intime Privatsemantik, selbst Grammatik ist eine Semantik und das, was ein Hund erfährt, wenn er durch den Wald läuft, umgeben von Millionen spannenden Gerüchen, ist ein Dickicht aus für ihn plausiblen Semantiken.
Wenn Heidegger von der Sprache als „das Haus des Seins“ spricht, dann meint er unsere Eingeschlossenheit in dieses Netzwerk aus Semantiken. Jeder von uns bewohnt nur einen kleinen Ausschnitt dieses Gesamtgefüges und der bestimmt wesentlich mit, was wir überhaupt in der Lage sind, zu denken. Wir sind in unseren Semantik-Ausschnitt hineingeboren und arbeiten seitdem daran, ihn auszudehnen, suchen Anschlüsse, lernen Worte, Werke und Gesten und manche Zimmer haben wir schon länger nicht mehr betreten.
Vom World Modell zum Programm
In gewisser Weise gibt die poststrukturalistische Betrachtung also dem Bild des Stochastischen Papageien statt, allerdings mit der Ergänzung, dass auch das menschliche Denken zu einem Gutteil aus stochastischer Regelbefolgung besteht.
Die Gegenseite verweist dann immer auf die „Reasoning“-Fähigkeiten von Modellen wie GPT-4 oder Claude 3 und tatsächlich ist es erstaunlich, wie sie nicht nur semantisch korrekte Sätze, wie „Das Eis schmilzt in der Sonne“ produzieren können, sondern auch in Examensklausuren und anderen Benchmarks überraschend gut abschneiden. LLMs zeigen sich erstaunlich empathisch und kreativ und können Theorien und Methoden in unterschiedlichsten Kontexten richtig anwenden. Von den Entwicklern der Systeme heißt es, die LLMs hätten sich im Zuge ihres Trainings ein „World Modell“ erarbeitet, das ihnen diese noch oft unperfekten „Reasoning“-Fähigkeiten erlaubt.
Wir haben jetzt eine einfachere Erklärung: Dass Sprache ein Regelsystem ist, zweifelt auf der orthographischen und grammatikalischen Ebene niemand an und die LLM zeigt eben, dass das auch für Bedeutungen und auch für alle Konzepte, Logiken, Methoden und Theorien gilt. Egal ob Grammatik, Algebra, Multistakeholder-Analyse oder Gedichtinterpretation: Alles das sind regelgeleitete Denkschablonen, Strukturen des Richtigen Sagens oder Fabriken wahrscheinlicher Sätze.
Der KI-Forscher und Google-Mitarbeiter, Francois Chollet nennt diese makrosemantischen Regelkomplexe „Programme“. Natürlich nicht im wortwörtlichen Sinne wie maschinenlesbarer Code, sondern Programme vielmehr als im Lernprozess hängengebliebene und zur Anwendwendbarkeit abstrahiert markosemantische Pfade. So wie beim Formulieren von Sätzen plausible Worte aneinandergereiht werden, werden bei der Anwendung solcher makrosemantischen Programme Aussagen entlang vorgezeichneter Pfade arrangiert. Wenn die LLM sie anwendet, arbeitet sie sich entlang ihrer regelgeleiteten Operationen durch den entsprechenden semantischen Kontext und ist so in der Lage automatisiert einen erwartungsgemäßen Output zu generieren.
Auch wir Menschen haben etliche dieser makrosemantischen Operationen eingeübt, manchmal bewusst, viel öfter unbewusst. Und weil sie auch unseren Blick auf die Welt bestimmen, sehe ich in der Erfindung der LLM einen emanzipatorischen Auftrag. Dieses Archiv ist unglaublich tief und darin sind womöglich alle Programme codiert, die unser Denken leiten. Im Extrahieren, Untersuchen und zur Debatte stellen dieser unserer gesellschaftlichen Semantiken steckt die Möglichkeit einer neuen Aufklärung.
Pingback: Thicket of meanings | ctrl+verlust
Pingback: Krasse Links No 28 | H I E R
Pingback: Krasse Links No 30 | H I E R