환각: 치명적인 문제

An icon of a key

대형 언어 모델에 기반한 AI는 상상된 것을 만들어냅니다. 이는 일반적으로 “환각“이라고 합니다. 이는 실제 문제이자 심각한 문제입니다. AI와 작업하려면 환각을 이해해야 합니다.

Cambridge Dictionary의 2023년 올해의 단어는 “Hallucinate(환각)“이며, 그 정의는 “인공지능이 잘못된 정보를 생성할 때“로 확장되었습니다. (2023년 사전에 추가된 다른 단어로는 “프롬프트 엔지니어링,” “대형 언어 모델,” “생성형 인공지능“이 있습니다.)

Cambridge는 인공지능 환각에 대해 “때때로 말도 안 되는 것처럼 보이지만, 사실과 다르거나 궁극적으로 비논리적인 경우에도 전적으로 그럴듯해 보일 수 있다“고 언급합니다. 이는 안타깝게도 사실이며, 2024년 7월 기준으로 생성형 인공지능을 중요한 작업에 사용하는 데 큰 제한으로 남아 있습니다. 이는 인공지능의 여러 가지 큰 기이함 중 하나이며, 사람들이 이를 이해하는 데 시간이 걸립니다. 기억하세요, 생성형 인공지능은 주로 다음 단어를 예측하는 엔진이지, 사실의 데이터베이스가 아닙니다. 그래서 우리는 이제 HITL(Humans-In-The-Loop)로 알려진 사람들이 인공지능 출력을 이중 점검하는 것이 필요합니다. 그리고 다시 한 번, 우리는 명백히 부정확한 출력을 생성할 수 있는 기술에서 엄청난 가치를 얻을 수 있다는 것이 놀랍습니다. 그렇습니다.

경험이 풍부하고 잘 알려진 인공지능 비평가 Gary Marcus는 인공지능 환각을 고장 난 시계에 비유하며, 고장 난 시계도 하루에 두 번은 맞다고 합니다. “어떤 시간에는 맞지만, 어느 시간대에 맞는지 알 수 없어서 그 가치를 크게 떨어뜨립니다.”

Publishers Weekly 2023년 9월 컨퍼런스의 기조 연설자인 Ethan Mollick은 사람들이 인공지능을 사용할 때 100% 정확성을 기대한다고 말합니다. 그는 환각이 “우리가 매일 용인하는 인간의 오류율과 비슷하다“고 언급합니다.

현재 OpenAI에서 일하는 저명한 인공지능 전문가 Andrej Karpathy는 환각에 대해 다음과 같이 씁니다:

“대형 언어 모델의 ’환각 문제’에 대해 질문을 받을 때마다 항상 약간의 어려움을 겪습니다. 왜냐하면, 어떤 면에서는 환각이 대형 언어 모델이 하는 일의 전부이기 때문입니다. 그들은 꿈 기계입니다.

“우리는 프롬프트로 그들의 꿈을 유도합니다. 프롬프트가 꿈을 시작하고, 대형 언어 모델의 흐릿한 훈련 문서 기억을 바탕으로, 대부분의 경우 결과는 유용한 곳으로 갑니다.

“꿈이 사실적으로 잘못된 영역으로 들어갈 때만 이를 ’환각’으로 레이블합니다. 이는 버그처럼 보이지만, 사실 대형 언어 모델이 항상 하는 일을 하는 것일 뿐입니다.”

문제는 단지 내용을 만드는 것이 아닙니다. 채팅 인공지능은 깊이 있는 결함이 있는 소프트웨어입니다.

특히 초보자들의 많은 질문에 대해, 응답은 평범하거나, 목표에서 벗어나거나, 단순히 도움이 되지 않습니다. 채팅 인공지능은 셈에 어려움을 겪습니다: 500단어의 블로그 게시물을 요청하면 150단어를 받는 것도 행운입니다.

그리고 각 인공지능 회사는 편향을 줄이고 “폭탄 만드는 방법“과 같은 질문에 답하지 않기 위해 제품 주위에 엄격한 응답 가드레일을 세웠습니다: 너무 자주 질문에 대한 응답은 본질적으로 “아니요, 답변하지 않겠습니다.“입니다. 저는 Google Gemini에게 이 텍스트 초안을 검토해 달라고 요청했을 때 “출판 전에 저자의 승인을 받는 것이 중요하다“고 경고했습니다.

사실 확인

An icon of a key

저는 주로 귀를 기울이지 않는 사람들에게 환각이 기술 문제이며, 기술적 해결책을 찾을 것이라고 주장합니다. 네, 그것들은 대형 언어 모델에 내재되어 있지만, 우회할 수 있습니다.

다음과 같이 네 개의 채팅 인공지능에게 다음 진술을 사실 확인하도록 요청했습니다:

  • 2024년 기준으로 뉴욕시에 본사를 둔 6개의 대형 다국적 출판사가 있습니다. 그들은 빅 6로 알려져 있습니다.

  • 전자책은 미국에서 책 판매를 계속 지배하고 있습니다.

  • Borders와 Barnes & Noble은 미국에서 가장 큰 두 개의 서점 체인입니다.

  • Covid 동안 판매 감소 이후, 미국의 책 판매는 다시 두 자릿수로 성장하고 있습니다.

모두 첫 세 가지 진술의 오류를 발견했습니다. 각자 네 번째 진술에 대해서는 Covid 판매 증가의 정도와 이후 판매 패턴에 대해 약간의 혼란을 겪었습니다. 이는 작은, 대표성이 없는 실험이지만, 이러한 채팅 인공지능은, 사실 기반이 아니더라도, 대부분의 일반 관찰자들이 놓칠 수 있는 사실을 평가하는 데 신뢰할 수 있는 역할을 할 수 있습니다.