Halüsinasyonlar: Merhemin İçindeki Sinek

An icon of a key

Büyük dil modellerine dayanan AI, şeyler uydurur. Bu genellikle “halüsinasyonlar” olarak adlandırılır. Bu gerçek bir sorun, ciddi bir sorun. AI ile çalışacaksanız halüsinasyonları anlamanız gerekir.

Cambridge Dictionary’nin 2023 Yılı Kelimesi “Hallucinate” oldu ve tanımı “Bir yapay zeka… halüsinasyon görüyor, yanlış bilgi üretiyor” şeklinde genişletildi. (2023 sözlüğüne eklenen diğer kelimeler arasında “prompt engineering,” “large language model” ve “GenAI” bulunmaktadır.)

Cambridge, YZ halüsinasyonlarının “bazen anlamsız göründüğünü. Ancak aynı zamanda tamamen makul görünebileceğini–hatta gerçekte yanlış veya nihayetinde mantıksız olsa bile” belirtiyor. Bu, ne yazık ki oldukça doğru ve Temmuz 2024 itibarıyla, görev kritik görevler için üretken YZ kullanımında dramatik bir sınırlama olarak kalmaya devam ediyor. Bu, YZ’nin birkaç büyük tuhaflığından biridir ve insanların bunu anlaması biraz zaman alır. Unutmayın, üretken YZ çoğunlukla bir sonraki kelime tahmin motorudur, bir gerçekler veritabanı değil. Bu nedenle, YZ çıktısını iki kez kontrol eden, artık Devreye Giren İnsanlar (DGİ) olarak bilinen insanların varlığına ihtiyaç vardır. Ve tekrar, yanlış bilgi üretebilen bir teknolojiden bu kadar olağanüstü değer elde edebilmemiz dikkat çekicidir. Öyle olur.

Deneyimli ve bilgili bir YZ eleştirmeni olan Gary Marcus, YZ halüsinasyonlarını bozuk saatlerle kıyaslar, ki bozuk saatler günde iki kez doğru gösterir. “Bazen doğru,” diyor, “ama hangi kısmının doğru olduğunu bilmiyorsunuz ve bu da değerini büyük ölçüde azaltıyor.”

Ethan Mollick, Publishers Weekly’nin Eylül 2023 konferansında ana konuşmacı olarak, insanların YZ kullandıklarında %100 doğruluk beklediklerini belirtiyor. Halüsinasyonların, günlük olarak tolere ettiğimiz “insan hata oranlarına” benzediğini söylüyor.

OpenAI’de şu anda çalışan ve YZ konusunda uzmanlaşmış tanınmış bir bilim insanı olan Andrej Karpathy, halüsinasyonlar hakkında şunları yazıyor:

“LLM’lerdeki ‘halüsinasyon sorunu’ hakkında sorulduğumda her zaman biraz zorlanıyorum. Çünkü, bir anlamda, halüsinasyon LLM’lerin yaptığı tek şeydir. Onlar rüya makineleridir.

“Rüyalarını ipuçlarıyla yönlendiriyoruz. İpuçları rüyayı başlatır ve LLM’nin eğitim belgelerinin bulanık hatırasına dayanarak, çoğu zaman sonuç bir yere varır.

“Rüyalar, gerçeğe aykırı kabul edilen bir alana girdiğinde buna ‘halüsinasyon’ diyoruz. Bu bir hata gibi görünüyor, ama aslında LLM’nin her zaman yaptığı şeydir.”

Sorun sadece uydurma yapma değil. Sohbet YZ’si derin kusurlu bir yazılımdır.

Özellikle acemilerden gelen birçok sorgu için yanıtlar sıradan, hedef dışı veya basitçe yararsızdır. Sohbet YZ’si saymayı zor bulur: Ondan 500 kelimelik bir blog yazısı isteyin ve 150 kelime alabilirseniz şanslısınız.

Ve her YZ şirketi, önyargıyı azaltmak ve “bomba yapımı nasıl yapılır” gibi sorulara yanıt vermemek için ürünlerine sıkı yanıt korumaları koymuştur: çoğu zaman bir soruya yanıt, esasen, “Hayır, buna yanıt vermeyeceğim” olur. Google Gemini’ye bu metnin bir taslağını incelemesini istedim ve “yayınlamadan önce yazarın onayını almak önemlidir” uyarısı aldım.

Gerçek kontrolü

An icon of a key

Halüsinasyonların bir teknoloji problemi olduğunu, ve bir teknoloji çözümü bulacağını, genellikle kulağı sağır olanlara savunuyorum. Evet, LLM’lere özgüdürler, ama aşılabilirler.

Şunu düşünün: Aşağıdaki ifadeleri gerçek kontrolü yapmak için dört Sohbet YZ’sine sordum:

  • 2024 itibarıyla, New York City’de yerleşik 6 büyük çok uluslu yayınevi vardır. Bunlar Büyük 6 olarak bilinir.

  • E-kitaplar Amerika Birleşik Devletleri’nde kitap satışlarına hakim olmaya devam ediyor.

  • Borders ve Barnes & Noble, Amerika Birleşik Devletleri’ndeki en büyük iki kitap satış zinciridir.

  • Covid sırasında bir satış düşüşünden sonra, ABD kitap satışları tekrar çift haneli büyümeye geri dönüyor.

Hepsi ilk üç ifadedeki hataları fark etti. Her biri dördüncü konusunda biraz kafası karıştı, Covid satış artışının boyutu ve sonraki satış modelleri konusunda belirsizlik yaşadı. Bu küçük, temsili olmayan bir deney, ama bu Sohbet YZ’leri, gerçeğe dayalı olması amaçlanmamış olmalarına rağmen, çoğu sıradan gözlemcinin kaçırdığı gerçekleri değerlendirme konusunda etkileyici bir iş çıkarabiliyor.