Wie funktioniert eigentlich künstliche Intelligenz?

Dieser Artikel bietet eine verständliche Einführung in die Welt der Künstlichen Intelligenz - ganz ohne technische oder mathematische Vorkenntnisse. Ich erkläre die grundlegenden Konzepte und wichtigsten Begriffe, damit du ein besseres Gefühl dafür bekommst, wie KI funktioniert. Und falls beim Lesen Fragen auftauchen: KI-Tools wie ChatGPT sind eine gute Möglichkeit, sich Dinge direkt und einfach erklären zu lassen.

Was ist der Unterschied zwischen KI und klassischer Software?

Klassische Software wird dort eingesetzt, wo klare Regeln in ein Programm geschrieben werden können. Beispiel Flugbuchung: Nach Eingabe von Abflug- und Zielort wird die Datenbank nach Angeboten durchsucht. Hat der Passagier einen Flug ausgewählt, seine Daten eingegeben und bezahlt, wird die Buchung durchgeführt und eine E-Mail verschickt. In der Realität ist eine solche Buchung natürlich wesentlich komplexer. Aber: Sie folgt einem klaren Muster, das Programmierer*innen in eine Software schreiben können. Wir wollen uns außerdem darauf verlassen können, dass wir genau verstehen, was bei einer Buchung unter welchen Umständen genau passiert.

Es gibt aber auch Aufgaben für einen Computer, bei denen es viel schwieriger ist, klare Regeln zu definieren. Ein einfaches Beispiel: Das Programm soll entscheiden, ob auf einem Bild eine Katze zu sehen ist oder nicht. Für den Menschen ist das eine einfache Aufgabe. Der Computer sieht aber zunächst nur eine lange Reihe von Millionen Bildpunkten in verschiedenen Farben, die er nacheinander abarbeitet. Wie soll er anhand einzelner Regeln entscheiden, ob diese Punkte in ihrer Gesamtheit eine Katze darstellen? Noch komplizierter wird es, wenn wir den Computer ganz allgemein fragen wollen, was auf dem Bild zu sehen ist. Hier gibt es unzählige Möglichkeiten!

Wie funktioniert eine KI?

In der folgenden Grafik ist sehr vereinfacht dargestellt, wie eine KI entscheidet, was auf einem Bild zu sehen ist: Die verschiedenfarbigen Bildpunkte sind als Kugeln dargestellt, die ein Labyrinth aus Hindernissen durchlaufen. Die Hindernisse sind so angeordnet, dass die Bildpunkte die bei Katzenbildern häufiger zu finden sind, rechts herausfallen, wohingegen solche, die bei Katzenbildern weniger häufig auftreten, links herausfallen. Am Ende muss der Computer nur die beiden Kugelhaufen vergleichen um zu bewerten ob es sich bei dem Bild wahrscheinlich um eine Katze handelt oder nicht.

In der Realität ist ein solches KI-Modell natürlich etwas komplexer: Statt ein Labyrinth mit verschieden großen Hindernissen zu durchlaufen, werden die Eingangsdaten in eine große, mathematische Rechnung gegeben, in der sie hintereinander mit einer großen Menge verschiedener Zahlenwerte multipliziert werden.
Die Rechnung selbst, das sogenannte Model (aus dem Englischen) ist ein vergleichsweise einfaches, von Menschen geschriebenes Computerprogramm. In dem Bild oben entspräche das Model etwa einem einfachen Brett mit vielen Steckplätzen, an denen die verschiedenen Hindernisse angebracht werden können. Entscheidend dafür, dass die KI richtig funktioniert ist die Größe und genaue Anordnung der Hindernisse in diesen Steckplätzen. Diese werden nicht vom Menschen festgelegt, sondern durch ein Training von der KI gelernt, dazu gleich mehr. In einem echten KI-Modell gibt es statt etlicher unterschiedlich großer Hindernisse eine riesige Anzahl unterschiedlich großer Zahlenwerte, die sogenannten Gewichte (Weights) oder Parameter des Modells, die durch das Training bestimmt werden. In einer echten KI gibt es von diesen Zahlenwerten (bzw. Hindernissen) meist einige Millionen bis hin zu Billiarden.

Die Hindernisse und ihre Position und Größe sind eigentlich Zahlenwerte, mit denen die Eingangsdaten multipliziert werden um am Ende einen Wert zu erhalten, der auf eine Katze hindeutet (z.B. näher an einer Eins) oder darauf, dass es keine Katze ist (z.B. näher an der Null). Die Kugeln, die sich durch das Labyrinth bewegen und klassifiziert werden, repräsentieren auch nicht immer nur einzelne Bildpunkte, sondern z.B. auch Gruppen von Bildpunkten, Abstände zwischen bestimmten Punkten oder eine Vielzahl anderer abstrakter Eigenschaften des Bildes.

In einem echten Model werden auch nicht nur einzelne Bildpunkte durch das Model verarbeitet, sondern beispielsweise auch Gruppen von Bildpunkten, Abstände zwischen Bildpunkten und eine Vielzahl anderer abstrakter Eigenschaften des Bildes. Anschaulich hätten die Kugeln selbst also unterschiedliche Formen und Größen, die zusätzlich einen Einfluss auf den Output des Models hätten.

Eine KI besteht also im Wesentlichen aus zwei Bestandteilen:

Dem Model: Einem einfachen von Menschen geschriebenen Computerprogramm.
Den Model-Parametern (und Gewichten)*, einer gigantischen Menge von Zahlenwerten, die im Training erlernt* werden müssen und dann in das Model eingesetzt werden.

Wie wird eine KI trainiert?

Die Magie einer KI liegt also in ihren Parametern. Eine Kombination aus Milliarden von Zahlenwerten, die alle Entscheidungsregeln der KI enthalten, die für Menschen zu kompliziert zu verstehen oder zu definieren sind. Stellen wir uns im obigen Bild vor, das Labyrinth bestünde aus Milliarden verschiedener, aber genau ausgewählter Hindernisse, die darüber entscheiden, welchen Weg die Kugeln nehmen. Ein Blick auf dieses Labyrinth reicht nicht aus, um das Verhalten des Modells zu verstehen. Wie es genau funktioniert, kann man nur herausfinden, wenn man am Anfang viele Kugeln hineinwirft und dann beobachtet, wo sie am Ende wieder herauskommen.

Genau nach diesem Prinzip läuft auch das Training ab: Eine KI wird trainiert, indem sie mit einer großen Menge an Trainingsdaten versorgt wird. Im Beispiel der Bilderkennung von Katzen erhält die KI viele Bilder von Katzen und allen möglichen anderen Dingen zusammen mit der Information, ob eine Katze darauf zu sehen ist oder nicht. Anfangs trifft das Model zufällige Entscheidungen, aber durch einen Lernprozess wird es immer besser. Jedes Bild wird vom Model verarbeitet und das Ergebnis mit der richtigen Antwort verglichen. Wenn das Model Fehler macht, werden seine internen Parameter durch einen mathematischen Optimierungsprozess geringfügig angepasst.

Dieser Prozess wird Millionen oder sogar Milliarden Mal wiederholt, bis das Model zuverlässig richtige Vorhersagen trifft. Dieser Prozess ist extrem rechenintensiv und erfordert für leistungsfähige KI-Modelle riesige Rechenzentren und sehr spezielle Hardware. Daher sind in der Regel nur große Unternehmen und Organisationen in der Lage, eine KI von Grund auf zu trainieren.

In der Praxis wird jedoch nicht jede KI von Grund auf neu trainiert. So ist es zum Beispiel möglich, aus leistungsfähigen Bilderkennungsmodellen bestimmte Teile zu extrahieren und in speziellere Modelle einzufügen, so dass diese nicht mehr von Grund auf neu trainiert werden müssen. Auch beim Training von Sprachmodellen ist dies üblich: Es gibt so genannte Foundation-Models, die von großen Unternehmen trainiert werden und dann mit deutlich weniger zusätzlichem Training, dem so genannten Fine-Tuning, an speziellere Anwendungsbereiche angepasst werden können.

Unsupervised Training und Reinforcement Learning

Bisher haben wir eine Art des Trainings betrachtet, bei der die KI anhand von Trainingsdaten lernt, die von Menschen erstellt wurden - zum Beispiel Bilder mit beschreibenden Texten. Dieses Verfahren wird als supervised Training bezeichnet. Oft ist es aber eine andere Trainingsmethode, die einer KI den entscheidenden Intelligenzsprung ermöglicht: das Unsupervised Training. Dabei werden keine klassischen, von Menschen kuratierten Trainingsdaten mehr benötigt - stattdessen lernt die KI aus unstrukturierten Daten.

Eine weitere Art des autonomen Lernen ist das Reinforcement Learning. Ein bekanntes Beispiel hierfür ist AlphaGo Zero, eine KI, die für das Spiel Go entwickelt wurde. Ihr Vorgänger AlphaGo wurde noch mit menschlichen Spieldaten trainiert und konnte bereits Weltklassespieler wie Lee Sedol schlagen. AlphaGo Zero ging aber noch einen Schritt weiter: Es nutzte Reinforcement Learning, eine Methode, bei der die KI nur durch Spiele gegen sich selbst lernt. Ohne menschliche Spieldaten wurde sie innerhalb kürzester Zeit besser als alle menschlichen Go-Spieler und sogar besser als ihr Vorgänger AlphaGo.

Viele Experten gehen davon aus, dass auch die generative KI in Zukunft in der Lage sein wird, sich selbstständig zu verbessern, indem sie ihre eigene Leistung analysiert und bewertet. Erste Ansätze gibt es bereits, z.B. durch Reasoning Models (mehr dazu weiter unten), die ihr eigenes „Denken“ reflektieren können. Allerdings sind heutige Modelle noch nicht vollständig in der Lage, sich selbst zu trainieren oder zu optimieren .

Generative KI und Sprachmodelle

Bei der KI, die wir bisher kennengelernt haben handelt es sich um klassifizierende KI. Sie wird schon seit Jahrzehnten eingesetzt und der Begriff “Intelligenz” wurde in der Vergangenheit eher vorsichtig eingesetzt, weil die Technologie oft eher als eine Art statistisches Optimierungsverfahren gilt.

Generative KI ist komplexer und geht einen Schritt weiter: Auch hier bekommt das Model einen Input: Meist ist dieser ein Text, die sogenannte Prompt. Auch diese KI produziert anhand des Inputs und gelernter Parameter ein Ergebnis. Während das Ergebnis bei klassifizierender KI für dieselben Eingaben immer identisch ist, nutzen generative Modelle oft Wahrscheinlichkeitsberechnungen oder eine Zufallskomponente, um variierende, neu generierte Ergebnisse zu erzeugen.

Im obigen Bild ist zu sehen, wie eine Reihe von sogenannten Input-Tokens (“Hallo”, “wie”, und “geht’s”) das Model durchlaufen und am Ende eine Reihe Output-Tokens (“Danke”, “mir”, “geht’s” und “gut”) generiert werden. Tokens stellen die Grundbestandteile unserer Sprache dar. Sie können z.B. einzelne Worte, Teile von Worten oder auch einzelne Buchstaben sein.

Dieser Ansatz klingt zunächst erstmal nicht nach sonderlich viel Intelligenz und in der Praxis waren die Ergebnisse lange Zeit auch nicht besonders beeindruckend.

Das änderte sich, als Google im Jahr 2017 das sogenannte Transformer Model vorstellte, das zum Beispiel erstaunlich gut darin war Texte zu übersetzen, also aus der Eingabe eines Textes in einer Sprache einen Text in einer anderen Sprache zu generieren. Diese Transformer-Modelle sind eine komplexere Weiterentwicklung generativer Sprachmodelle, bei denen es einen eingebauten Aufmerksamkeitsmechranismus gibt. Sie basieren letztendlich aber immer noch auf dem Prinzip, dass aus gelernten Daten und zufälligen Einflüssen neue Daten generiert werden. Bis heute sind Transformer-Modelle die Grundlage aktueller KI.

OpenAI hat mit ChatGPT (GPT steht für Generative Pre-trained Transformer) zwar nicht die Transformer-Architektur erfunden. Der Geniestreich bestand aber darin, ein besonders mächtiges Model besonders gekonnt zu trainieren und es dem ganzen Internet in Form eines Chats zur Verfügung zu stellen. Die ständigen Konversationen mit Menschen ermöglichten es dem Model dabei auch immer besser zu werden.

Das Chat-Format ermöglichte nicht nur einen viel einfacheren Zugang zu den Modellen. Die Möglichkeit mit einer KI eine Konversation zu führen, führte auch dazu, dass schnell vermutet wurde, dass diese Modelle möglicherweise zu einer Art komplexen Denken in der Lage sein könnten.

Nicht alle generativen Modelle sind Sprachmodelle. Beispielsweise werden in der Biologie generative Modelle benutzt um neue Molekülstrukturen zu entdecken.

Large Language Models (LLMs)

Large Language Models gehören zu den generativen KI, da sie Sprache generieren. Beispiele hierfür sind OpenAI’s GPT-Modelle oder Anthropic’s Claude Modelle. Sie wurden anhand riesiger Mengen menschlicher Sprache und Programmiercode trainiert und sind deshalb exzellent im Umgang mit natürlicher Sprache und Programmiersprachen. LLMs sind aktuell auch die Modelle, von denen angenommen wird, dass sie zu intelligenten Schlussfolgerungen fähig sind.

Reasoning Models

Eine der neuesten und mächtigsten Entwicklungen in der KI sind Reasoning Modelle. Klassische Sprachmodelle produzieren einen Output, haben aber keine Möglichkeit, diesen zu überprüfen. Bei Reasoning Models wird der Output in das Model zurückgegeben, so dass es die Möglichkeit hat, diesen selbst zu überprüfen. So kann es in mehreren Runden eines Denkprozesses sicherstellen, dass die Antwort Sinn macht. Die Entwicklung von Reasoning-Modellen bedeutete beispielsweise eine wesentliche Verbesserung in einem Bereich, der bisher für KI-Modelle schwer zu beherrschen war: das mathematische Denken. In einem Reasoning Model kann die KI ihre eigenen Antworten und Rechenschritte kritisch überprüfen und verbessern.

Diffusion Models für die Audio-, Bild- und Videogenerierung

Diffusion Models werden genutzt, um Bild-, Video- oder Audiomaterial zu erzeugen. Am einfachsten lässt sich das mit der Bilderzeugung erklären: Die KI startet mit einem Bild, das nur aus zufälligem Rauschen besteht – ähnlich wie ein verschwommenes Foto. In vielen kleinen Schritten entfernt sie gezielt das Rauschen und rekonstruiert dabei immer mehr Details, bis schließlich ein fertiges Bild entsteht. Dabei entscheidet das Modell auf Basis seiner trainierten Parameter, welche Bildpunkte am wahrscheinlichsten zum eingegebenen Prompt passen.

Diffusion Models werden aber für viele weitere generative Zwecke genutzt, beispielsweise in der Biologie um Baupläne für neue Moleküle zu erzeugen.

Multimodale Modelle

Multi-Models vereinen mehrere Funktionen in einem Modell. Einige Models von OpenAI, Anthropic oder anderer Anbieter sind nicht nur in der Lage Sprache zu verstehen und zu generieren, sondern können beispielsweise auch Bild- und Audiodaten verarbeiten und erzeugen. Dies ist in vielen Anwendungsfällen besonders praktisch, z.B. wenn das Modell ein Diagramm auswerten soll.

Was “wissen” Sprachmodelle und wo ist dieses Wissen gespeichert?

Fragt man eine KI wie ChatGPT nach etwas, antwortet sie selbstbewusst. Mittlerweile sind die Antworten auch meist richtig. Sogenannte Halluzinationen, bei denen das System einfach oder nur schwer erkennbare Unwahrheiten als faktisches Wissen präsentiert, sind seltener geworden, kommen aber immer noch vor.

Wo aber ist all dieses Wissen gespeichert? Man würde vielleicht annehmen, dass die KI auf eine riesige Datenbank zugreift, in der alles gespeichert ist: Wer der 40. Präsident der Vereinigten Staaten war, woran man einen Leoparden von einen Geparden unterscheidet, oder wie man einen guten Pizzateig zubereitet. Die Menge möglicher Fragen ist schier unendlich und die KI hat immer eine Antwort (richtig oder falsch).

Das Wissen der KI ist in den Parametern gespeichert

Tatsächlich steckt all dieses Wissen in den Parametern, bzw. Gewichten des Models, also in einer (gigantisch großen) Menge von Zahlenwerten. Aber wie kann das sein?

Der Blick auf das obige Bild mit den Murmeln hilft, das Prinzip zu verstehen: Durch die komplexe Anordnung der Hindernisse, die die Parameter des Modells darstellen, wird für jeden Input mit einer gewissen Wahrscheinlichkeit ein gewisser Output produziert: Enthält die Eingabe beispielsweise die Token “40”, “President” und “USA”, so wird das Modell mit hoher Wahrscheinlichkeit eine Antwort produzieren, die die Token “Ronald” und “Reagan” enthält.

Allerdings ist auf diese Antworten nicht immer Verlass: Wenn bereits in den Trainingsdaten Fehler enthalten sind (ein sogenannter Bias), dann ist auch die Wahrscheinlichkeit hoch, dass das Model später falsch liegt. Grundsätzlich gilt: Je spezifischer und ungenau die Frage, desto weniger verlässlich ist die Antwort. Insbesondere bei Fragen nach konkreten Zahlenwerten, Jahreszahlen oder anderen faktischen Größen ist die Gefahr von Halluzinationen groß. Und wie das Murmelmodell zeigt, wird die KI immer eine Antwort produzieren, auch wenn sie das Ergebnis faktisch nicht kennt.

Wer dennoch KI einsetzen will, um Faktenwissen abzufragen, sollte eine Anwendung wählen, die im Hintergrund tatsächlich auf das Internet zugreift und Quellen zitiert, z.B. Perplexity AI.

Die wichtigsten Begriffe

Künstliche Intelligenz (KI): Bezeichnet im allgemeinen Softwaresysteme, bei denen die Ausführungslogik nicht von Menschen festgelegt, sondern durch die Software selbst anhand von Trainingsdaten erlernt wird.
Model: Das (oft relativ einfache), von Menschen geschriebene Computerprogramm, in das die gelernten Gewichte und Parameter gegeben werden. Das Model verrechnet den Input mit den Parametern und erzeugt so einen Output. Zusammen mit den Parametern stellt es die KI dar.
Gewichte und Parameter: Eine riesige Anzahl (oft Milliarden) von Zahlenwerten, die aufwändig durch ein Training bestimmt und angepasst werden und das Verhalten des KI-Models bestimmen
Training: Der rechenintensive Prozess, in dem die Model-Parameter und Gewichte bestimmt werden.
Pre-Training und Foundation Model: Ein grundlegendes Training das zum Ziel hat, grundlegende Modelle zu erstellen, die dann weiter verfeinert werden können.
Fine-Tuning: Ein weniger aufwändiger Trainingsprozess, bei dem das Verhalten bereits trainierter Modelle weiter angepasst wird.
Prompt: Die Eingabe, die ein generatives KI-Modell nutzt, um eine Ausgabe (z.B. eine Antwort oder ein Bild) zu erzeugen.
Input-Token und Output Token: Die kleinsten Bestandteile einer Prompt oder Antwort, die von der KI verarbeitet werden. Token können beispielsweise einzelne Wörter, Teile von Worten oder auch Buchstaben sein.
Klassifizierende KI: KI-Modelle, die trainiert sind um einordnende Entscheidungen zu treffen. Sie werden beispielsweise zur Bildanalyse in der Medizin genutzt: Ist auf einem Bild ein Tumor zu sehen oder nicht?
Generative KI: Modelle, die genutzt werden um neuen Output zu generieren, z.B. Chat-Antworten, Übersetzungen oder in der Biologie auch Beschreibungen von langen Molekülketten.
Sprachmodelle und Large Language Models (LLMs): Generative Modelle, die speziell für die Generierung von Sprache entwickelt und trainiert wurden (menschliche Sprache, aber auch Programmiersprachen).
Multimodale Modelle: KI-Modelle, die mehrere Typen von Daten und Medien verarbeiten oder generieren können (z.B. aus einer Audionachricht ein Bild generieren können).
Reasoning Models: Modelle, die nicht nur einfache Antworten generieren, sondern auch ihr eigenes Denken reflektieren können.

Wie funktioniert Künstliche Intelligenz?

Table of contents