Was RAG eigentlich ist – einfach erklärt
Künstliche Intelligenz ist beeindruckend, stösst bei spezifischen Unternehmensdaten aber oft an ihre Grenzen. Retrieval-Augmented Generation (RAG) gilt hier als die entscheidende Lösung für präzise, faktenbasierte Antworten. Doch wie genau wird aus einer KI ein Experte für Ihre internen Dokumente?
Retrieval-Augmented Generation (RAG) beschreibt einen Ansatz, der es ermöglicht, Large Language Models (LLMs) mit zusätzlichem, unternehmensspezifischem Wissen zu kombinieren. Während LLMs aufgrund ihrer enormen Trainingsdaten beeindruckend gut darin sind, Texte zu formulieren, zu strukturieren und inhaltlich naheliegende Schlussfolgerungen zu ziehen, fehlt ihnen naturgemäss Zugang zu internem Firmenwissen. RAG schliesst diese Lücke, indem es das generische Weltwissen eines Modells mit einer kuratierten Wissensbasis verbindet, die bei jeder Anfrage dynamisch konsultiert wird. Dadurch liefert ein RAG-Chatbot keine rein generativen, potenziell spekulativen Aussagen, sondern Antworten, die im Idealfall klar auf dokumentierten Inhalten beruhen.
Die Bausteine eines RAG-Systems
Ein RAG-System lässt sich, etwas vereinfacht, als Zusammenspiel von drei grundlegenden Technologien verstehen:
- Large Language Model (LLM)
Das LLM übernimmt zwei Aufgaben: Erstens kann es Texte sprachlich verarbeiten, zusammenfassen und in natürlicher Sprache ausformulieren. Zweitens übersetzt es sowohl Dokumente als auch Nutzeranfragen in mathematische Vektoren. Diese Vektoren repräsentieren die inhaltliche Bedeutung eines Textes in kondensierter Form. - Semantische Suchmaschine bzw. Vektordatenbank
Hier werden die erzeugten Vektoren abgelegt. Die Datenbank ermöglicht es, in kurzer Zeit Ähnlichkeiten zwischen Vektoren zu berechnen. Im Gegensatz zu klassischen Suchmaschinen, die mit exakten Begriffen arbeiten, funktioniert die semantische Suche über Bedeutungsähnlichkeit: Sie findet nicht zwingend Dokumente, die die gleichen Wörter enthalten, sondern solche, die inhaltlich verwandt sind. - Chatbot-Komponente
Diese Komponente bildet die Schnittstelle zum Nutzer. Sie orchestriert den gesamten Ablauf: 1) Eine Frage wird entgegengenommen, 2) an den Suchmechanismus weitergeleitet, 3) es werden relevante Dokumente gesucht und gefunden, und 4) diese werden schliesslich durch das LLM in eine verständliche Antwort überführt.
Gemeinsam ermöglichen diese Bausteine, dass ein Chatbot nicht auf gespeichertes Wissen im Modell selbst angewiesen ist, sondern gezielt auf jene Dokumente zugreift, die für die jeweilige Fragestellung relevant sind.
Einordnung in Machine Learning und Deep Learning
RAG baut auf modernen Large Language Models auf, die wiederum Produkte des Machine Learning sind, genauer gesagt des Deep Learning. Diese Modelle werden mit enormen Textmengen trainiert und lernen dabei statistische Muster der Sprache, ohne dass ihnen Regeln explizit vorgegeben werden. Ein LLM ist somit keine klassische Wissensdatenbank, sondern eine komplexe, neuronale Struktur, die Bedeutungsbeziehungen zwischen Wörtern, Sätzen und Konzepten erkennt. RAG nutzt diese Fähigkeit, indem es das Modell nicht isoliert arbeiten lässt, sondern gezielt mit Inhalten aus einer semantischen Suchmaschine ergänzt. Der generative Teil des Systems basiert also auf Deep-Learning-Methoden, während der Retrieval-Teil sicherstellt, dass die Antworten auf der tatsächlich vorhandenen Wissensbasis des Unternehmens beruhen.
Vom Dokument zum indexierten Wissenselement
Bevor ein RAG-Chatbot überhaupt Antworten geben kann, müssen die zugrunde liegenden Dokumente in eine Form gebracht werden, die von der semantischen Suche verarbeitet werden kann. Dazu sind mehrere Schritte notwendig:
- Zentrale Sammlung und technische Aufbereitung
Häufig liegen relevante Informationen verteilt in verschiedenen Systemen vor, etwa in Wikis, Dokumentenmanagementsystemen oder Dateiverzeichnissen. Für RAG müssen diese Daten zunächst zusammengeführt und in ein Format gebracht werden, das eine zuverlässige Weiterverarbeitung erlaubt. - Zerlegung in kleinere, thematisch kohärente Textabschnitte
Längere Dokumente werden in sogenannte „Chunks“ aufgeteilt, damit das System später präzise auf bestimmte Inhalte zugreifen kann. Jeder Chunk sollte idealerweise eine klar abgrenzbare inhaltliche Aussage enthalten und nicht zu lang sein. - Vektorisierung der Inhalte
Anschliessend werden diese Textabschnitte mittels eines Vektor-LLMs in hochdimensionale mathematische Vektoren übersetzt. Diese Vektoren kodieren die semantische Bedeutung der Inhalte und erlauben es, später Ähnlichkeiten effizient zu berechnen. - Indexierung in einer Vektordatenbank
Diese Vektoren werden schliesslich gespeichert, sodass sie danach für Suchanfragen zur Verfügung stehen. Je sauberer und konsistenter die Dokumente strukturiert sind, desto zuverlässiger funktioniert später die Suche.
Erst wenn dieser Indexierungsprozess abgeschlossen ist, verfügt der RAG-Chatbot über eine verlässliche Wissensbasis.
Was geschieht bei einer Nutzeranfrage?
Wenn eine Nutzeranfrage (Query) gestellt wird, läuft im Hintergrund ein mehrstufiger Prozess ab:
- Transformation der Anfrage in einen Vektor
Die Nutzeranfrage wird vom LLM in einen Vektor übersetzt, und zwar nach demselben Verfahren, das bereits für die Indexierung der Dokumente genutzt wurde. - Semantische Suche nach ähnlichsten Dokumenten
Die Vektordatenbank vergleicht den Anfragevektor mit allen gespeicherten Dokumentenvektoren und bestimmt jene, die im hochdimensionalen Raum am ähnlichsten liegen. Die dahinterstehende Logik ist eine geometrische, ein kleiner Winkel zwischen zwei Vektoren bedeutet hohe inhaltliche Nähe, ein grosser Winkel geringe Ähnlichkeit. - Rückgabe der relevantesten Textabschnitte
Es wird typischerweise nur eine Auswahl der ähnlichsten Dokumente zurückgegeben, oft nur die ersten 5 Dokumente. Diese Einschränkung ist notwendig, um zu vermeiden, dass das System zu viele weniger relevante Inhalte berücksichtigt und dadurch die späteren Verarbeitungslimits des LLM überschritten werden. - Generierung einer Antwort
Das LLM erhält diese Dokumente als kontextuelle Grundlage und formuliert nun eine Antwort, die die wichtigsten Punkte aus den gefundenen Texten in prägnanter Form zusammenfasst. Ergänzend können Quellenangaben oder Links zu den Originaldokumenten beigefügt werden.
Das Ergebnis ist eine Antwort, die nicht primär auf dem generischen Weltwissen des Modells basiert, sondern auf den tatsächlich im Unternehmen vorhandenen Informationen. Genau darin liegt der zentrale Mehrwert von RAG.
Warum RAG mehr ist als nur semantische Suche
Eine reine semantische Suchmaschine könnte zwar ebenfalls die relevantesten Dokumente zu einer Frage zurückgeben, würde jedoch den entscheidenden Schritt der inhaltlichen Verdichtung dem Nutzer überlassen. RAG hingegen geht darüber hinaus, indem es die zurückgegebenen Inhalte durch das LLM konsolidieren und sprachlich ausformulieren lässt. Dadurch entsteht ein deutlicher Komfortgewinn: Nutzer müssen nicht selbst längere Texte sichten, sondern erhalten eine präzise, verständliche Zusammenfassung zu der Frage, die sie gestellt haben.
Durch diese Kombination aus Suchmechanismus und generativer Aufbereitung entsteht ein System, das nicht nur Informationen findet, sondern sie auch interpretieren, gewichten und kommunikativ aufbereiten kann.