הזיות: זבוב במשחה

An icon of a key

בינה מלאכותית, המבוססת על מודלים לשוניים גדולים, ממציאה דברים. היא פשוט עושה את זה. זה נקרא בדרך כלל “הזיות”. זו בעיה אמיתית, בעיה חמורה. אתם צריכים להבין הזיות אם אתם הולכים לעבוד עם בינה מלאכותית.

מילון קיימברידג’ בחר במילה “להזות” כמילת השנה לשנת 2023, וההגדרה שלה הורחבה לכלול “כאשר בינה מלאכותית… מזיעה, היא מייצרת מידע שקרי.” (תוספות אחרות למילון של 2023 כוללות “הנדסת פיתוח”, “מודל לשוני גדול”, ו“GenAI.“)

מילון קיימברידג’ מציין שהזיות של בינה מלאכותית “לעיתים נראות חסרות היגיון. אבל הן גם יכולות להיראות לגמרי מתקבלות על הדעת–אפילו כשהן שגויות מבחינה עובדתית או בסופו של דבר לא הגיוניות.” זה, למרבה הצער, נכון מאוד, נכון ליולי 2024 זה נשאר מגבלה דרמטית לשימוש בבינה מלאכותית גנרטיבית למשימות קריטיות. זה אחד מהתמיהות הגדולות של בינה מלאכותית, ולוקח לאנשים זמן להבין את זה. זכרו, בינה מלאכותית גנרטיבית היא בעיקר מנוע חיזוי של המילה הבאה, ולא מאגר עובדות. לכן הצורך ב-HITLs, בני אדם בתהליך, כפי שאנו מכונים כיום, לבדוק מחדש את התפוקה של הבינה מלאכותית. ושוב, זה מדהים שאנחנו יכולים להפיק ערך יוצא דופן מטכנולוגיה שיכולה להפיק תפוקה שגויה מבחינה מוכחת. ככה זה.

גארי מרכוס, מבקר בינה מלאכותית מנוסה ומודע, משווה את הזיות הבינה מלאכותית לשעונים שבורים, שהם נכונים פעמיים ביום. “זה נכון חלק מהזמן,” הוא אומר, “אבל אתה לא יודע איזה חלק מהזמן, וזה מפחית מאוד את הערך שלה.”

איתן מוליק, נואם מרכזי בכנס של Publishers Weekly בספטמבר 2023, מציין שאנשים המשתמשים בבינה מלאכותית מצפים לדיוק של 100%. הזיות, הוא אומר, דומות ל“שיעורי השגיאה האנושיים“ שאנחנו סובלים יומיום.

אנדריי קרפתי, מדען מוכר המתמחה בבינה מלאכותית, שעובד כיום ב-OpenAI, כותב על הזיות:

“תמיד קשה לי קצת כששואלים אותי על ‘בעיית ההזיות’ במודלים לשוניים גדולים. כי במובן מסוים, הזיה היא כל מה שהמודלים הלשוניים הגדולים עושים. הם מכונות חלום.

“אנחנו מכוונים את החלומות שלהם עם פקודות. הפקודות מתחילות את החלום, ועל בסיס הזיכרון המעורפל של המודלים מהמסמכים שבהם הם אומנו, רוב הזמן התוצאה מגיעה למקום מועיל.

“רק כשהחלומות נכנסים לתחום שמוגדר כלא נכון מבחינה עובדתית אנו מכנים זאת ‘הזיה’. זה נראה כמו באג, אבל זה רק המודל הלשוני הגדול עושה את מה שהוא תמיד עושה.”

זה לא רק בעיה של להמציא דברים. צ’אט AI הוא תוכנה עם פגמים עמוקים.

לשאלות רבות, במיוחד של מתחילים, התגובות הן שגרתיות, לא ממוקדות או פשוט לא מועילות. לצ’אט AI יש בעיה בספירה: בקשו ממנו פוסט בבלוג של 500 מילים ותהיו ברי מזל אם תקבלו 150.

וכל אחת מהחברות שמפתחות את ה-AI, כדי להפחית את ההטיה ולמנוע מענה לשאלות מסוג “איך לבנות פצצה”, הקימו מסגרות תגובה צמודות סביב המוצרים שלהן: לעיתים קרובות מדי, התגובה לשאלה היא, למעשה, “לא, אני לא אענה על זה.” ביקשתי מגוגל ג’מיני לבדוק טיוטה של טקסט זה והוזהרתי ש“חשוב לקבל את אישור המחבר לפני הפרסום.“

בדיקת עובדות

An icon of a key

אני טוען, בעיקר לאוזניים חירשות, שהזיות הן בעיה טכנולוגית, שתמצא לה פתרון טכנולוגי. כן, הן חלק בלתי נפרד ממודלי שפה גדולים, אבל ניתן לעקוף אותן.

שקלו את זה: ביקשתי מארבעה צ’אט AI לבדוק את העובדות בהצהרות הבאות:

  • נכון לשנת 2024, ישנם 6 מו“לים רב-לאומיים גדולים שממוקמים בניו יורק. הם ידועים כשישיית הגדולים.

  • ספרים אלקטרוניים ממשיכים לשלוט במכירות הספרים בארצות הברית.

  • בורדרס וברנס אנד נובל הן שתי רשתות חנויות הספרים הגדולות בארצות הברית.

  • לאחר ירידה במכירות בתקופת הקורונה, מכירות הספרים בארה“ב שוב גדלות בדו-ספרתי.

כולם זיהו את השגיאות בשלוש ההצהרות הראשונות. כל אחד מהם התבלבל קצת על הרביעית, לא בטוח לגבי מידת העלייה במכירות בתקופת הקורונה ודפוסי המכירות לאחר מכן. זה ניסוי קטן ולא מייצג, אבל צ’אט AI, שאינם מיועדים להיות מבוססי עובדות, יכולים לבצע עבודה אמינה בהערכת עובדות שרוב הצופים המזדמנים יפספסו.