Qualität ist ein äußerst wichtiges Thema, wenn es um KI-generierte Ergebnisse geht. Es gibt einige Faktoren, die bei der Bewertung der Qualität von KI-generierten Ergebnissen eine Rolle spielen und mit den Schritten des KI-Generierungsprozesses zusammenhängen.

Trainingsdaten

Die Qualität der Trainingsdaten hängt mit der Qualität zusammen, die wir von einem Large Language Model (LLM) erwarten können. Die meisten kommerziellen LLMs werden auf Grundlage der im offenen Web verfügbaren Informationen trainiert; einige nutzen jedoch lizenzierte Daten für das Training. Kommerzielle LLMs sind auf allgemeine Intelligenz ausgelegt, so dass sie eine möglichst große Anzahl von Fragen und Aufgaben beantworten können. Je besser die für das Training verwendeten Daten sind, desto besser wird die Qualität der KI-generierten Informationen sein. Die meisten kommerziellen LLMs legen jedoch nicht offen, welche Datenquellen sie für das Training verwenden. Sie geben oft an, dass, wenn Nutzer:innen mit der nicht lizenzierten Version eines kommerziellen LLM oder Chatbots interagieren, die Nutzerdaten für das Training der KI verwendet werden können, es sei denn, der Nutzer bzw. die Nutzerin gibt an, dass dies nicht gewünscht wird (Opt-Out).

EBSCO arbeitet bei der Nutzung von KI nur mit lizenzierten Versionen kommerzieller LLMs, um sicherzustellen, dass die Prompts nicht zum Training der KI genutzt werden. Da die meisten kommerziellen LLMs ihre Datenquellen nicht offenlegen, hängt die Qualität eines kommerziellen LLMs davon ab, den Output der KI zu bewerten, ihn mit den Antworten anderer KI-Modelle zu vergleichen und zu bestimmen, welches Modell für bestimmte Anwendungsfälle die bessere Qualität bietet. Bei EBSCO wird die Qualität der KI-Antworten durch einen menschlichen Faktor („Human-in-the-Loop“) bestimmt. EBSCO vergleicht die Qualität der KI-Modelle, bevor ein Modell für ein KI-Feature ausgewählt wird. Die Modelle, die unseren KI-Funktionalitäten zugrunde liegen, sind auf EBSCO Connect dokumentiert. 

KI-Modell und Verwendung

Ein weiterer Qualitätsaspekt ist das KI-Modell und seine Nutzungsphase. Das Modell selbst wird von dem LLM-Anbieter verwaltet. Die Verfeinerung, Schwellenwerte wie die Temperatur (wie sicher sollte das Modell sein, um die Informationen in der KI-Antwort zu verwenden) und die an das LLM gesendeten Prompts können von Ihrer Einrichtung oder von den Nutzer:innen selbst verwaltet werden, wenn sie ein LLM für ihre Recherche verwenden. Obwohl die Qualität des Modells weiterhin von der qualitativen Bewertung des KI-Outputs abhängt, können die Verfeinerung, die Schwellenwerte und die Prompts angepasst und getestet werden, bevor das LLM von den Endnutzer:innen verwendet wird. Dies wird in der Regel anhand von Beispieldaten, Abfragen und Parameteranpassungen getestet, um den besten Ansatz zu ermitteln. EBSCO verfügt über fachkundige und engagierte Teams von KI-Ingenieur:innen, die diese KI-Parameter fortlaufend testen, um die hohe Qualität unserer Produkte sicherzustellen.

„Grounding“-Phase der KI

Die nächste Phase, die sich auf die Qualität auswirkt, ist die sogenannte „Grounding“-Phase, in der das LLM durch Retrieval Augmented Generation (RAG) ergänzt wird. Die an das LLM gerichtete Anfrage ruft zunächst geprüfte und maßgebliche Daten von außerhalb des LLM ab, und diese Informationen werden dann verwendet, um die Vorhersagbarkeit, die Genauigkeit, den Kontext und die Aktualität der KI-generierten Inhalte zu verbessern. Diese Phase wird vollständig von der Person oder Institution kontrolliert, die die KI einsetzt, so dass auch hier die Qualität an erster Stelle steht. Die Verwendung hochwertiger Datenquellen trägt dazu bei, sogenannte „Halluzinationen“ zu vermeiden, und erhöht nach jüngsten Untersuchungen die Spezifität einer KI-Antwort um mindestens 46 Prozent. EBSCO beispielsweise nutzt die führenden Inhalte seiner Datenbanken als Grundlage für seine KI-Funktionen. Dadurch wird die KI nicht trainiert, sondern kann mit den maßgeblichen Daten in EBSCOs Datenbanken angereichert werden, gefolgt von einer menschlichen Auswahl von Fakten und Themen, die wir schon immer kuratiert haben.

Bewertung durch die Endnutzer:innen

Die nächste Qualitätsphase ist die Bewertung durch die Endnutzer:innen. Obwohl in dieser Phase häufig eine passive Qualitätsbewertung durch die Nutzer:innen erfolgt (z. B. abgebrochene oder verfeinerte Suchvorgänge), wird die Qualität der KI-Antworten regelmäßig bewertet, um sicherzustellen, dass die Qualität erhalten bleibt und sich im Laufe der Zeit nicht verschlechtert. EBSCO verwendet einen menschlichen Überprüfungsprozess („Human-in-the-Loop“) für KI-Antworten, der aus drei Schritten besteht. Zunächst wird der Output von internen Fachleuten bewertet, dann von Beta-Tester:innen und schließlich von Endnutzer:innen. 

Beispiele für Elemente, die EBSCO zur Bewertung von KI-generierten Artikelzusammenfassungen verwendet (AI Insights):

  • Aktualität: Sind die im „AI Insights“ präsentierten Informationen aktuell?
  • Stil: Stimmen die Informationen im „AI Insights“ mit dem Stil des Artikels überein?
  • Terminologie: Stimmt die Terminologie im „AI Insights“ mit der im Artikel überein?
  • Genauigkeit: Sind die Informationen im „AI Insights“ auf Grundlage der im Artikel enthaltenen Details korrekt?
  • Inhalt: Werden die Hauptthemen des Artikels im „AI Insights“ behandelt?
  • Nützlichkeit: War der „AI Insights“ als ergänzendes Material zum Abstract und/oder zur Forschung nützlich?

Darüber hinaus gibt es einige Systembewertungen wie Latenz (wie schnell/langsam erledigt die KI ihre Aufgabe), Betriebs- und Ausfallzeiten (wie zuverlässig ist das System), Kosten- und Umwelteffizienz (Sparsamkeit und Verantwortung gegenüber dem Planeten), schnelle technische Peer-Review (hilft, Verzerrungen und Bias zu verringern), Schwellenwertkontrolle (Zuverlässigkeitsschwelle für KI-Antworten) und mehr. All diese Faktoren bestimmen, wie gut die KI eine bestimmte Aufgabe erfüllen wird.

In jeder Phase der KI-Erstellungsprozesse kann die Qualität gemessen werden und es können Schritte zur Verbesserung der Qualität vorgenommen werden. Es ist von entscheidender Bedeutung, die Qualität in jeder Phase zusammen mit anderen Faktoren wie Bias, Kosten, Umweltauswirkungen, Gleichstelllung und anderen zu bewerten. Wir werden diese Grundsätze in kommenden Blogbeiträgen nächer betrachten.

EBSCO hat sich schon immer für hochwertige und verlässliche Daten eingesetzt - das gilt auch für die Qualität von KI-Ergebnissen. Wir messen nicht nur die Qualität in jeder Phase, sondern lassen auch ständig eine repräsentative Stichprobe der Antworten und Ergebnisse der KI von Fachexpert:innen überprüfen, um sicherzustellen, dass die Qualität der Informationen kontinuierlich hoch bleibt.

Wenn Sie mehr über EBSCOs KI-Funktionalitäten erfahren möchten, sehen Sie sich das neue Feature „AI Insights“ oder EBSCOs AI Natural Language Search Mode an.