Yapay zeka çıktıları söz konusu olduğunda ortaya çıkan sonuçların kalitesi her zaman bir sorudur. Yapay zeka tarafından üretilen çıktıların kalitesini değerlendirirken, yapay zeka üretim sürecindeki adımlarla uyumlu olan çeşitli faktörler söz konusudur.

Eğitim Verileri Aşaması

Eğitim verilerinin kalitesi, bir Büyük Dil Modelinden (LLM) bekleyebileceğiniz kaliteyle ilişkilidir. Ticari LLM'lerin çoğu açık web üzerinde eğitilmiştir, ancak bazıları eğitim için lisanslı verilere sahiptir. Ticari LLM'lerin genel zeka olması amaçlanır, böylece kendilerine yöneltilen çok sayıda soru ve görevi yanıtlayabilirler. Eğitim için kullanılan veriler ne kadar iyi olursa, yapay zeka kalitesi de o kadar iyi olacaktır, ancak çoğu ticari LLM eğitim için hangi veri kaynaklarını kullandıklarını açıklamamaktadır. Birçoğu, bir kullanıcının ticari LLM'nin veya sohbet botunun lisanslı olmayan sürümüyle etkileşime girmesi durumunda, kullanıcı istemediği sürece kullanıcı verilerinin eğitim için kullanılabileceğini belirtmektedir.

EBSCO'nun yapay zeka kullanımı durumunda, sorguların yapay zeka eğitiminden korunduğundan emin olmak için yalnızca lisanslı ticari LLM'lerle çalışıyoruz. Çoğu ticari LLM veri kaynaklarını açıklamadığından, ticari bir LLM'nin kalitesi, yapay zekanın çıktısının değerlendirilmesine, diğer yapay zeka modeli yanıtlarıyla karşılaştırılmasına ve belirli kullanım durumları için hangisinin daha kaliteli bir değere sahip olduğunun belirlenmesine bağlıdır. Döngüdeki insan, yapay zeka yanıtlarının kalitesinin nasıl belirlendiğidir. EBSCO, her bir yapay zeka özelliği için bir model seçmeden önce yapay zekanın performansını karşılaştırır. Yapay zeka özelliklerimizin arkasındaki modeller EBSCO Connect'te belgelenmiştir.

Yapay Zeka Modeli ve Operasyon Aşaması

Bir diğer kalite unsuru da yapay zeka modeli ve bu modelin çalışma aşamasıdır. Modelin kendisi LLM sağlayıcısı tarafından kontrol edilir, ancak ayrıntılı düzenlemeler, güvenlik gibi eşikler (modelin yapay zeka yanıtındaki bilgileri kullanmak için ne kadar emin olması gerekir) ve LLM'ye gönderilen komut istemi kuruluşunuz tarafından veya araştırmalarında bir LLM kullanıyorlarsa araştırmacının kendisi tarafından kontrol edilebilir. Model kalitesi yapay zeka çıktı kalitesi değerlendirmesine bağlı kalmaya devam ederken, ayrıntılı düzenlemeler, eşikler ve komut istemi (bir LLM ile kullanabileceğiniz parametrelerden birkaçı) bir LLM son kullanıcılar tarafından kullanılmadan önce ayarlanabilir ve test edilebilir. Bu genellikle en iyi yaklaşımı bulmak için örnek bir veri seti, sorular ve parametre değişiklikleri ile test edilmektedir. EBSCO, ürünlerimizin yüksek kalite beklentilerini korumak için bu yapay zeka parametreleri üzerinde sürekli testler yapan yapay zeka mühendislerinden oluşan özel ekiplere sahiptir.

EBSCO her zaman kendini yüksek kaliteli, güvenilir verilere adamıştır ve yapay zeka kalitesi de bundan farklı değildir.

Temellendirme Aşaması

Kaliteyi etkileyen bir sonraki aşama, LLM'nin Retrieval Augmented Generation (RAG) ile desteklendiği zemin oluşturma aşamasıdır. LLM'ye giden sorgu, yapay zekanın ürettiği çıktının öngörülebilirliğini, doğruluğunu, bağlamını ve güncelliğini iyileştirmek için bu bilgileri kullanmadan önce LLM'nin dışından doğrulanmış ve yetkili verileri alır. Topraklama tamamen yapay zekayı kullanan kişi veya kuruluş tarafından kontrol edilir, bu nedenle kalitenin en kritik olduğu yer burasıdır. Son araştırmalara göre, kaliteli veri kaynaklarının kullanılması halüsinasyonların azaltılmasına yardımcı olur ve yapay zeka yanıt verme özelliklerini en az %46 oranında artırır. 

Örneğin EBSCO, yapay zeka özelliklerimizi kendi veri tabanlarımızdaki yetkili içeriklere dayandırmaktadır. Bu, yapay zekayı herhangi bir şekilde eğitmek değildir. Temellendirme, yapay zekanın veri tabanlarımızdaki yetkili verilerle desteklenmesine ve ardından her zaman küratörlüğünü yaptığımız gerçeklerin ve konuların insan küratörlüğü ile desteklenmesine olanak tanır.

Son Kullanıcı Değerlendirmesi Aşaması

Kalite için bir sonraki aşama son kullanıcı değerlendirmesi aşamasıdır. Bu aşamada genellikle kullanıcılardan gelen bazı geçici kalite değerlendirmeleri olsa da (örneğin vazgeçilen veya değiştirilen arama sorguları), kalitenin karşılandığından ve zaman içinde düşmediğinden emin olmak için yapay zeka yanıtları üzerinde periyodik olarak kalite değerlendirmesi yapılır. EBSCO, yapay zeka yanıtları için dahili Konu Uzmanlarının ( SME'ler) gözden geçirdiği, ardından Beta test uzmanlarının ve son kullanıcıların takip ettiği üç aşamalı bir insan inceleme süreci kullanır. Bu, döngüdeki insan inceleme sürecidir. EBSCO'nun yapay zeka yanıt değerlendirme ölçütleri için kullandığı örnek bir dereceli puanlama anahtarı:

  • Güncellik: İçgörüde sunulan bilgiler güncel mi ve güncelliğini yitirmiş bilgiler içermiyor mu?
  • Üslup: İçgörüdeki bilgiler makaledeki üslupla uyuşuyor mu?
  • Terminoloji: İçgörüdeki terminoloji makaledekiyle eşleşiyor mu?
  • Doğruluk: İçgörüde yer alan bilgiler makalede yer alan detaylara göre doğru mu?
  • Tema: Makaledeki ana temalar İçgörüde ele alınıyor mu?
  • Kullanışlılık: İçgörü, özet ve/veya araştırmayı tamamlayıcı bir materyal olarak faydalı mıydı?

Buna ek olarak, gecikme ( yapay zekanın görevini tamamlamada ne kadar yavaş olduğu), açma/kapama süresi (kullanmanız gerektiğinde sistemin ne kadar güvenilir olduğu), maliyet ve çevresel verimlilik (tutumluluk ve gezegene karşı sorumluluk), hızlı mühendislik akran değerlendirmesi (önyargıları azaltmaya yardımcı olur), güvenlik kontrolü (bir tür yapay zekanın yanıtları için güven eşiği gibi) ve çok daha fazlası gibi bazı sistem değerlendirmeleri vardır. Tüm bunlar, yapay zekanın herhangi bir görev için ne kadar iyi performans göstereceğini belirler.

Yapay zeka uygulama hattındaki her aşama için kalite ölçülebilir ve kaliteyi artırmak için adımlar atılabilir. Önyargılar, maliyet, çevresel etki, eşitlik ve daha fazlası gibi diğer önlemlere ek olarak kaliteyi her aşamada değerlendirmek çok önemlidir. Bu ilkeleri gelecek yazılarda ele alacağız.

EBSCO her zaman kendini yüksek kaliteli, güvenilir verilere adamıştır ve yapay zeka kalitesi de farklı değildir. Kaliteyi yalnızca her aşamada ölçmekle kalmıyor, aynı zamanda kalitenin yüksek kalmasını sağlamak için yapay zeka yanıtlarının ve çıktılarının temsili bir örneğini inceleyen SME'lerimiz de bulunmaktadır.

 

Yapay zeka özelliklerimizden birini denemekle ilgileniyorsanız, yeni kullanıma sunulan Yapay Zeka İçgörüleri ve Doğal Dil Aramasına göz atın.