भ्रम: एक गड़बड़ी की मक्खी

An icon of a key

AI, जो बड़े भाषा मॉडल पर आधारित है, चीजें बना देता है। यह बस करता है। इसे सामान्यतः “भ्रम” कहा जाता है। यह एक वास्तविक समस्या है, एक गंभीर समस्या। यदि आप AI के साथ काम करने जा रहे हैं, तो आपको भ्रम को समझना होगा।

कैम्ब्रिज डिक्शनरी का 2023 का वर्ड ऑफ द ईयर “Hallucinate” था, जिसकी परिभाषा को विस्तारित किया गया है जिसमें शामिल है “जब एक कृत्रिम बुद्धिमत्ता… भ्रम पैदा करता है, तो यह गलत जानकारी उत्पन्न करता है।” (2023 डिक्शनरी में अन्य जोड़े गए शब्दों में “prompt engineering,” “large language model,” और “GenAI” शामिल हैं।)

AI भ्रम, कैम्ब्रिज नोट करता है, “कभी-कभी बेतुके दिखाई देते हैं। लेकिन वे पूरी तरह से संभावित भी लग सकते हैं–भले ही वे तथ्यात्मक रूप से गलत या अंततः अव्यवस्थित हों।” यह, दुख की बात है, काफी सच है, और जुलाई 2024 के अनुसार मिशन-क्रिटिकल कार्यों के लिए जनरेटिव AI का उपयोग करने के लिए यह एक नाटकीय सीमा बनी हुई है। यह AI की कई महान विषमताओं में से एक है, और इसे समझने में लोगों को कुछ समय लगता है। याद रखें, जनरेटिव AI मुख्यतः एक अगले शब्द की भविष्यवाणी इंजन है, न कि तथ्यों का डेटाबेस। इसलिए अब हमें AI आउटपुट की डबल-चेकिंग करने के लिए HITLs, Humans-In-The-Loop, की आवश्यकता है। और फिर भी, यह उल्लेखनीय है कि हम एक ऐसी तकनीक से इतनी असाधारण मूल्य प्राप्त कर सकते हैं जो प्रमाणित रूप से गलत आउटपुट उत्पन्न कर सकती है। तो यह चलता है।

Gary Marcus, एक अनुभवी और अच्छी तरह से सूचित AI-आलोचक, AI भ्रमों की तुलना टूटे हुए घड़ियों से करते हैं, जो दिन में दो बार सही होती हैं। “यह कुछ समय के लिए सही होता है,” वे कहते हैं, “लेकिन आप नहीं जानते कि किस समय के लिए, और यह इसकी मूल्य को बहुत कम कर देता है।”

Ethan Mollick, Publishers Weekly सितंबर 2023 सम्मेलन के मुख्य वक्ता, नोट करते हैं कि AI का उपयोग करने वाले लोग 100% सटीकता की उम्मीद करते हैं। भ्रम, वे कहते हैं, “मानव त्रुटियों की दर” के समान हैं जिन्हें हम दैनिक रूप से सहन करते हैं।

Andrej Karpathy, एक प्रसिद्ध वैज्ञानिक जो AI में विशेषज्ञता रखते हैं और वर्तमान में OpenAI में काम करते हैं, भ्रमों के बारे में लिखते हैं:

“जब मुझसे LLMs में ‘भ्रम समस्या’ के बारे में पूछा जाता है, तो मुझे हमेशा कुछ कठिनाई होती है। क्योंकि, कुछ मायनों में, भ्रम सब LLMs करते हैं। वे सपने मशीनें हैं।

“हम उनके सपनों को प्रॉम्प्ट्स के साथ निर्देशित करते हैं। प्रॉम्प्ट्स सपने की शुरुआत करते हैं, और LLM के प्रशिक्षण दस्तावेजों की धुंधली स्मृति के आधार पर, ज्यादातर समय परिणाम कहीं उपयोगी जगह पर जाता है।

“यह केवल तब होता है जब सपने तथाकथित तथ्यात्मक रूप से गलत क्षेत्र में जाते हैं कि हम इसे ‘भ्रम’ कहते हैं। यह एक बग की तरह दिखता है, लेकिन यह बस वही है जो LLM हमेशा करता है।”

यह केवल चीजें बनाने की समस्या नहीं है। चैट एआई एक गहराई से दोषपूर्ण सॉफ़्टवेयर है।

कई प्रश्नों के लिए, विशेष रूप से नौसिखियों से, प्रतिक्रियाएं आम, लक्ष्य से भटकी हुई या बस अनुत्पादक होती हैं। चैट एआई को गिनती में समस्या होती है: इसे 500 शब्दों का ब्लॉग पोस्ट पूछें और आपको 150 शब्द मिल जाएं तो आप भाग्यशाली होंगे।

और प्रत्येक एआई कंपनियों ने, पूर्वाग्रह को कम करने और “कैसे-बम-बनाएं” प्रश्नों का उत्तर देने से बचने के लिए, अपने उत्पादों के चारों ओर कठोर प्रतिक्रिया गार्डरेल बनाया है: अक्सर, प्रश्न के उत्तर में मूल रूप से यही कहा जाता है, “नहीं, मैं इसका उत्तर नहीं दूंगा।” मैंने गूगल जेमिनी से इस टेक्स्ट के एक मसौदे की समीक्षा करने के लिए कहा और मुझे चेतावनी दी गई कि “प्रकाशन से पहले लेखक की स्वीकृति प्राप्त करना आवश्यक है।”

तथ्य-जांच

An icon of a key

मैं तर्क करता हूँ, ज्यादातर बधिर कानों पर, कि भ्रम तकनीकी समस्या है, जिसका तकनीकी समाधान मिलेगा। हाँ, वे एलएलएम में स्थानिक हैं, लेकिन उन्हें टाला जा सकता है।

इसे देखें: मैंने चार चैट एआई को निम्नलिखित बयानों की तथ्य-जांच करने के लिए कहा:

  • 2024 के अनुसार, न्यूयॉर्क शहर में स्थित 6 बड़े बहुराष्ट्रीय प्रकाशक हैं। इन्हें बिग 6 के नाम से जाना जाता है।

  • ईबुक्स संयुक्त राज्य में किताबों की बिक्री पर हावी हैं।

  • बॉर्डर्स और बार्न्स एंड नोबल संयुक्त राज्य में दो सबसे बड़ी किताब बेचने वाली श्रृंखलाएं हैं।

  • कोविड के दौरान बिक्री में गिरावट के बाद, यू.एस. किताबों की बिक्री फिर से दो अंकों की संख्या में बढ़ रही है।

सभी ने पहले तीन बयानों में हुई त्रुटियों को पकड़ा। चौथे पर, वे थोड़े भ्रमित हो गए, कोविड बिक्री में उछाल और उसके बाद की बिक्री पैटर्न के बारे में अनिश्चित। यह एक छोटा, गैर-प्रतिनिधि प्रयोग है, लेकिन ये चैट एआई, जो तथ्य-आधारित होने के लिए नहीं हैं, उन तथ्यों का विश्वसनीय मूल्यांकन कर सकते हैं जिन्हें अधिकांश सामान्य पर्यवेक्षक चूक सकते हैं।