Bereit für das nächste Level?

Vereinbaren Sie einen Termin mit uns und wir zeigen Ihnen, wie Zive Ihren Unternehmenserfolg steigert. Ihre Erfolgsgeschichte beginnt mit einer einfachen Demo-Anfrage. Oder chatten Sie mit uns um Fragen direkt zu klären.

Vielen Dank für Ihr Interesse an Zive.
Oops!
Leider ist etwas schiefgegangen. Bitte wenden Sie sich direkt an uns unter mail@zive.com.

Wir stellen vor: Contextual RAG

Piers Wermbter
Piers Wermbter
CTO
Wir stellen vor: Contextual RAG

In den letzten Jahren gab es im Natural Language Processing (NLP) beispiellose Innovationen, die auf bedeutende Fortschritte bei generativen KI-Modellen zurückzuführen sind. Moderne Modelle zur Textgenerierung sind jedoch immer noch nicht in der Lage, auf aktuelle Informationen oder, allgemeiner ausgedrückt, auf Informationen zuzugreifen, die nicht Teil des Trainingssatzes sind. Um dies zu lösen wurde Retrieval-Augmented Generation (RAG) vorgestellt. RAG zeigt jedoch erhebliche Schwächen in Bezug auf kontextuelle Präzision und Personalisierung. In diesem Blogbeitrag berichten wir über unsere Fortschritte beim Aufbau einer präziseren Plattform für Wissensmanagement, die auf Contextual Retrieval-Augmented Generation (CRAG), einer fortschrittlicheren Architektur, basiert.

Klassisches RAG

Im Kern stellt die klassische Retrieval-Augmented Generation eine Abkehr von traditionellen generativen Modellen dar, die ausschließlich auf erlernten Mustern aus Trainingsdaten beruhen. Stattdessen nutzt RAG externe Wissensquellen wie umfangreiche Textkorpora oder strukturierte Datenbanken, um den Generierungsprozess zu erweitern. Durch dynamisches Abrufen und Integrieren relevanter Informationen aus diesen Datenquellen können RAG-fähige Modelle Texte generieren, die auf realen Fakten und Kontexten basieren. Dadurch können Unternehmen interne Informationen in KI-Modelle integrieren.

Während RAG, ähnlich wie ursprünglich vorgeschlagen, oft als trainiertes Komplettmodell präsentiert wird, weicht die heutige Verwendung davon ab, indem vortrainierte und feste Modelle in einem verketteten System angewendet werden. Während der Indexierungsphase wird der Textkorpus Dokument für Dokument in Textblöcke aufgeteilt (in der Regel jeweils etwa 1000 Zeichen). Diese Blöcke werden dann mithilfe von Techniken wie TF-IDF (Term Frequency-Inverse Document Frequency) oder fortgeschritteneren Methoden wie dem Einbetten von Modellen, die auf derselben Transformer-Architektur basieren, wie sie auch bei großen Sprachmodellen wie ChatGPT angewendet werden, in einen dichten Vektorraum kodiert. Diese Vektoren erfassen die semantische Bedeutung jedes einzelnen Textblocks und ermöglichen so nicht nur den Vergleich, sondern auch den Abruf.

Klassisches RAG

Während der Abrufphase wird das Prompt (z. B. „Wer ist der CEO?“) im gleichen Vektorraum kodiert, sodass die relevantesten Textblöcke auf der Grundlage ihrer semantischen Ähnlichkeit mit der Aufforderung auf Ähnlichkeit abgerufen werden können. Sobald die relevanten Blöcke abgerufen wurden, werden sie an das generative Modell übergeben, das diese abgerufenen Informationen zusammen mit der Eingabeaufforderung berücksichtigt, um die endgültige Antwort zu generieren.

Moderne Open-Source Modelle wie Llama 3, Mixtral 8x7b oder kommerziell erhältliche Gegenstücke wie OpenAI GPT-4 oder Claude 3 wenden gutes "Reasoning" auf die präsentierten Informationen an und generieren gleichzeitig eine Antwort auf die Benutzeraufforderung. Wenn dem Modell falsche/veraltete oder irrelevante Informationen präsentiert werden, erhöht sich die Wahrscheinlichkeit von Halluzinationen oder Fehlverhalten. Im RAG-Prozess ist es daher von entscheidender Bedeutung, nicht nur alle relevanten Informationen abzurufen (hoher Erinnerungswert), sondern auch Störungen zu eliminieren (hohe Präzision), bevor der Kontext dem LLM präsentiert wird.

Der Weg zu Contextual RAG

Je größer und komplexer ein Unternehmen wird, desto mehr externe Faktoren beeinflussen, welche Informationen für die Benutzeraufforderung als relevant erachtet werden. Stellen Sie sich einen Mitarbeiter in Europa und einen in Südostasien vor. Die Aufforderung „Was ist die Urlaubsrichtlinie?“ muss je nach Kontext der einzelnen Person (oder Benutzers) zu unterschiedlichen Ergebnissen führen. Klassische RAG-Architekturen optimieren zwar den Abrufprozess durch Hybridsuche (spärlich kombiniert mit dichten Vektoren), HyDE (generiert eine hypothetische Antwort auf die Frage und ruft sie auf der Grundlage dieser Antwort statt der Aufforderung ab) oder fortgeschrittene Methoden wie die Feinabstimmung von Einbettungsmodellen oder das Zusammenführen von Einbettungs- und Textgenerierungsmodell (GRIT), aber den meisten Lösungen fehlt der Kontext des Benutzers, was zu einem geringen Abruf der an das LLM gesendeten Informationen führt.

Um diese Herausforderung zu lösen, präsentieren wir Contextual Retrieval-Augmented Generation (CRAG).

Um den Abruf zu optimieren, verbessert CRAG zwei Teile der RAG-Kette:

  1. Indizierung
    Während der Indexierungsphase des Wissens speichert CRAG nicht nur spärliche und dichte Vektoren der relevanten Blöcke, sondern auch kontextuelle Metadaten in Form eines Inhaltsprofils, das durch einen anderen dichten Vektor repräsentiert wird.

  2. Abruf
    Neben der Benutzeraufforderung wird ein Benutzerprofil im selben Vektorraum wie die Inhaltsprofile an die Vektordatenbank gesendet. Zusätzlich zu den hybriden Suchwerten aus TF-IDF und semantischen Ergebnissen wird eine Profilbewertung zurückgegeben, die Ergebnisse hervorhebt, die nicht nur inhaltlich am besten übereinstimmen, sondern auch für das aktuelle Benutzerprofil am relevantesten sind.

Inhaltsprofile dienen als umfassende Darstellung des organisatorischen Kontextes von Inhaltsblöcken und erfassen nicht nur den Textinhalt, sondern auch die allgemeine thematische Relevanz und die domänenspezifischen Nuancen der Organisation. Darüber hinaus können Inhaltsprofile an jedes Unternehmen angepasst werden, sodass sie organisationsspezifischen Merkmalen und Präferenzen gerecht werden können. Durch die Kodierung dieser kontextuellen Metadaten in dichte Vektoren ermöglicht CRAG ein genaueres Abrufen relevanter Inhalte auf der Grundlage ihrer semantischen Ähnlichkeit sowohl mit der Benutzeraufforderung als auch mit dem Benutzerprofil. Andererseits enthalten Benutzerprofile die Präferenzen, Interessen und Merkmale einzelner Benutzer, sodass das System die Abrufergebnisse auf der Grundlage personalisierter Relevanzkriterien maßschneidern kann.

Zusammen bilden diese Profile das Rückgrat der Strategie zur Abrufoptimierung von CRAG und ermöglichen es dem System, hochrelevante und personalisierte Inhaltsempfehlungen zu liefern, die Qualität und Relevanz optimieren. Durch die Nutzung der umfangreichen semantischen Repräsentationen, die in Inhalten und Benutzerprofilen enthalten sind, ermöglicht CRAG Unternehmen, den größtmöglichen Nutzen aus ihren Wissensbeständen zu ziehen und so die Entscheidungsfindung und Produktivität in verschiedenen Anwendungsfällen und Bereichen zu verbessern.

Bauen Sie mit uns auf CRAG

Bestehende Versuche, generative KI mit Unternehmensdaten zu kombinieren, haben zu schlechten Ergebnissen geführt. Wir glauben, dass ein fortschrittlicher Ansatz wie CRAG erforderlich ist, um das volle Potenzial generativer KI im Unternehmen auszuschöpfen. Wir sind begeistert von den Ergebnissen, die wir bereits mit CRAG erzielen, und können es kaum erwarten, sie weiteren führenden Unternehmen zugänglich zu machen.

Tausende von Benutzern profitieren bereits heute von den Vorteilen einer KI-gestützten Wissensplattform wie Zive, und täglich kommen weitere hinzu.

Sind Sie bereit, Ihre Mitarbeiter mit KI zu unterstützen? Melden Sie sich für eine kostenlose Demo an und erleben Sie die Qualität selbst.

Ähnliche Themen