Kwaliteit is altijd een vraagteken bij AI-responses. Er zijn enkele factoren die een rol spelen bij het beoordelen van de kwaliteit van door AI gegenereerde outputs die aansluiten bij de stappen van het generatieproces van AI.
Trainingsdata
De kwaliteit van de trainingsdata hangt samen met de kwaliteit die we van een Large Language Model (LLM) kunnen verwachten. De meeste commerciële LLM's zijn getraind op het open web, maar sommige hebben data gelicentieerd voor training. Commerciële LLM's zijn bedoeld voor algemene intelligentie, zodat ze zo veel mogelijk vragen en taken kunnen beantwoorden. Hoe beter de data zijn die voor training worden gebruikt, hoe beter de kwaliteit van de AI zal zijn. De meeste commerciële LLM's maken echter niet bekend welke databronnen ze gebruiken voor de training. Vaak geven zij wel aan dat als een gebruiker interactie heeft met de niet-gelicentieerde versie van een commercieel LLM of chatbot, de gebruikersgegevens kunnen worden gebruikt voor training, tenzij de gebruiker aangeeft dat niet te willen.
EBSCO werkt voor haar gebruik van AI alleen met gelicentieerde versies van commerciële LLM's om ervoor te zorgen dat prompts worden beschermd tegen AI-training. Omdat de meeste commerciële LLM's hun databronnen niet onthullen, is de kwaliteit van een commercieel LLM afhankelijk van de beoordeling van de output van de AI, de vergelijking met de antwoorden van andere AI-modellen en de bepaling van welk model betere kwaliteit biedt voor specifieke gebruikssituaties. De kwaliteit van AI-responses wordt bepaald door een menselijke factor (“human in the loop”). EBSCO vergelijkt de kwaliteit van AI-modellen voordat een model wordt geselecteerd voor elke AI-functie. De modellen achter onze AI-functies zijn gedocumenteerd op EBSCO Connect.
AI-model en werking
Een ander kwaliteitsaspect is het AI-model en de werkingsfase van dat model. Het model zelf wordt beheerd door de LLM-leverancier. De verfijning, drempelwaarden zoals temperatuur (hoe zeker moet het model zijn om de informatie in de AI-respons te gebruiken) en de prompt die naar de LLM wordt gestuurd, kunnen echter worden beheerd door uw organisatie of door de onderzoekers zelf als ze een LLM gebruiken bij hun onderzoek. Hoewel de kwaliteit van het model afhankelijk blijft van de kwalitatieve evaluatie van de AI-output, kunnen de verfijning, drempels en prompts dus worden aangepast en getest voordat het LLM wordt gebruikt door eindgebruikers. Dit wordt meestal getest aan de hand van een voorbeeldset van data, vragen en parameteraanpassingen om de beste werkwijze te vinden. EBSCO heeft speciale teams van AI-engineers die deze parameters voortdurend testen om de hoge kwaliteit van onze producten te handhaven.
Grounding van de AI
De volgende fase die van invloed is op de kwaliteit is de zogenaamde “grounding”-fase, waarin het LLM wordt aangevuld met Retrieval Augmented Generation (RAG). De query die naar de LLM gaat, haalt eerst geverifieerde en gezaghebbende data op van buiten het LLM, waarna die informatie wordt gebruikt om de voorspelbaarheid, nauwkeurigheid, context en actualiteit van de door de AI gegenereerde output te verbeteren. Deze fase wordt volledig gecontroleerd door de persoon of organisatie die de AI gebruikt, dus ook hier is kwaliteit van het grootste belang. Het gebruik van kwalitatief hoogwaardige databronnen helpt hallucinaties te verminderen en verhoogt volgens recent onderzoek de specificiteit van een AI-respons met ten minste 46%. EBSCO gebruikt bijvoorbeeld de toonaangevende content in haar databanken voor het grounden van haar AI-functies. Dit traint de AI niet, maar door de grounding kan de AI worden aangevuld met de gezaghebbende data in onze databanken, gevolgd door menselijke selectie van feiten en onderwerpen die we altijd hebben gecureerd.
Beoordeling door eindgebruiker
De volgende kwaliteitsfase is de fase van de eindgebruikersbeoordeling. Hoewel in deze fase vaak sprake is van een passieve kwaliteitsbeoordeling door gebruikers (bijvoorbeeld afgebroken of verfijnde zoekopdrachten), wordt de kwaliteit van AI-responses periodiek beoordeeld om er zeker van te zijn dat de kwaliteit wordt gehandhaafd en niet afneemt in de loop der tijd. EBSCO gebruikt een menselijk beoordelingsproces (“human in the loop”) voor AI-responses bestaande uit drie stappen. Eerst wordt de output beoordeeld door interne vakspecialisten, daarna door bètatesters, en tenslotte door eindgebruikers. Voorbeelden van elementen die EBSCO gebruikt voor het beoordelen van door AI gegenereerde artikelsamenvattingen (AI Insights):
- Actualiteit: Is de informatie actueel en niet verouderd?
- Toon: Komt de informatie overeen met de toon in het artikel?
- Terminologie: Komt de terminologie overeen met wat er in het artikel staat?
- Nauwkeurigheid: Is de informatie accuraat gebaseerd op de details in het artikel?
- Thematiek: Worden de belangrijkste thema's uit het artikel behandeld?
- Bruikbaarheid: Is de samenvatting nuttig als aanvulling op de abstract en/of het onderzoek?
Daarnaast zijn er enkele systeemevaluaties zoals latentie (hoe snel/traag is de AI in het voltooien van zijn taak), up- en downtime (hoe betrouwbaar is het systeem), kosten- en milieuefficiëntie (verantwoordelijkheid voor spaarzaamheid en de planeet), snelle engineering peer-review (helpt biases te verminderen), temperatuurcontrole (een soort betrouwbaarheidsdrempel voor AI-responses) en nog veel meer. Dit alles bepaalt hoe goed de AI een bepaalde taak zal uitvoeren.
In elke fase van de AI-pijplijn kan de kwaliteit worden gemeten en kunnen stappen worden genomen om de kwaliteit te verhogen. Het is van cruciaal belang om de kwaliteit in elk stadium te beoordelen, naast andere factoren zoals bias, kosten, milieueffecten, gelijkheid en meer. We zullen deze uitgangspunten in toekomstige artikelen behandelen.
EBSCO heeft zich altijd ingezet voor betrouwbare data van hoge kwaliteit, en dat geldt ook voor AI. We meten niet alleen de kwaliteit in elke fase, maar we hebben ook vakdeskundigen die constant een representatieve steekproef van de AI-responses en -outputs beoordelen om er zeker van te zijn dat de kwaliteit hoog blijft.