Samsung Electronics, yapay zekâ verimliliğini değerlendirmek için Samsung Research tarafından geliştirilen tescilli benchmark çözümü TRUEBench'i (Trustworthy Real-world Usage Evaluation Benchmark) tanıttı. TRUEBench, büyük dil modellerinin (LLM'ler) gerçek dünyadaki iş verimliliği uygulamalarındaki performansını ölçen kapsamlı bir metrik seti sunuyor. Çözüm, gerçekçi değerlendirmeler yapabilmek için çeşitli diyalog senaryoları ve çok dilli koşulları kullanıyor. Samsung'un kendi yapay zekâ teknolojileri temel alınarak geliştirilen TRUEBench, içerik oluşturma, veri analizi, özet çıkarma ve çeviri gibi yaygın kurumsal görevleri 10 ana kategori ve 46 alt kategoride değerlendiriyor. Benchmark, yapay zekâ destekli otomatik değerlendirmelerle görevlere güvenilir puanlar veriyor ve bu değerlendirmeler insan ve yapay zekâ iş birliğiyle oluşturulan kriterlere dayanıyor.

Samsung Electronics Dijital Deneyimler CTO'su ve Samsung Research Başkanı Paul (Kyungwhoon) Cheun, "Samsung Research, gerçek dünyadaki yapay zekâ deneyimleriyle müşterilerine güçlü uzmanlık ve rekabet avantajı sunuyor. TRUEBench'in üretkenlik işlerinde değerlendirme standartları oluşturacağına ve Samsung'un teknoloji liderliğini güçlendireceğine inanıyoruz" dedi.

Son dönemde şirketlerin yapay zekâyı benimsemesiyle büyük dil modellerinin üretkenliğini ölçme talebi arttı. Ancak mevcut kriterler çoğunlukla İngilizce odaklı ve genel performansı ölçmekle sınırlı, tek tur soru-cevap yöntemleri kullanıyor. Bu durum gerçek çalışma ortamlarını yansıtma doğruluğunu kısıtlıyor. TRUEBench ise 10 kategori ve 12 dilde çalışan 2.485 test setinden oluşuyor ve diller arası senaryoları destekliyor. Test setleri, yapay zekâ modellerinin gerçek hayatta hangi noktalarda çözüm sunduğunu inceliyor. TRUEBench, kolay taleplerden uzun belge özetlemeye kadar farklı görevleri kapsıyor ve içerik uzunluğu 8 ile 20.000 karakter arasında değişen test setleri uyguluyor.

Yapay zekâ modellerinin performansını değerlendirirken, yanıtların doğruluğunu anlamaya olanak veren net kriterlere sahip olmak büyük önem taşıyor. Gerçek yaşam senaryolarında kullanıcı istekleri her zaman açık olmayabiliyor. Bu nedenle TRUEBench, yalnızca yanıtların doğruluğunu değil, kullanıcıların örtük ihtiyaçlarını da dikkate alarak gerçekçi değerlendirmeler yapıyor.

Samsung Research’ün geliştirdiği çözümde, gerçek insanlar ve yapay zekâ iş birliğiyle değerlendirme kriterleri oluşturuluyor. İlk aşamada gerçek yorumcular kriterleri belirliyor, ardından yapay zekâ bu kriterleri inceleyerek hataları ve çelişkileri tespit ediyor. Sonrasında yorumcular kriterleri iyileştiriyor. Bu süreç tekrarlanarak daha hassas ve tutarlı değerlendirme standartları oluşturuluyor. Yapay zekâ modellerinin otomatik değerlendirmesi kişisel önyargıları azaltıyor ve tutarlılığı artırıyor. Her testte modelin tüm koşulları karşılaması gerekiyor, böylece görevler ayrıntılı ve hassas puanlanıyor.

TRUEBench'in veri örnekleri ve puanlama tabloları, küresel açık kaynak platformu Hugging Face'de erişime sunuldu. Kullanıcılar beş modele kadar karşılaştırma yapabiliyor ve yapay zekâ performanslarını kapsamlı şekilde inceleyebiliyor. Ayrıca ortalama yanıt süresi verileri de paylaşılıyor, böylece performans ve verimlilik eş zamanlı değerlendirilebiliyor.

Kaynak: (BYZHA) Beyaz Haber Ajansı