
Image generated with DALL·E through ChatGPT
의견: AI 환각 유행, 우리가 대비하지 못한 위기
AI 환각을 줄이겠다는 지속적인 약속에도 불구하고, ChatGPT부터 Perplexity, Gemini, 그리고 Apple Intelligence에 이르기까지의 주요 AI 도구들은 여전히 잘못된 정보를 생성하고 있으며, 이로 인해 놀라운 결과들이 종종 발생하고 있습니다. AI 위험에 대해 경고하는 전문가들을 포함하여, 조작된 콘텐츠를 실제로 받아들인 사람들이 있고, 심지어는 Deep Research와 같은 고급 도구들마저도 보고서를 날조하고 있습니다. 진실은 여전히 인간 손에 있다는 것이 분명해 보입니다
챗봇은 연도를 거듭할수록 더욱 더 좋아지고 있습니다 – 많이 좋아졌죠. 그러나 “환각”이라고 알려진 문제 하나는 아직도 완전히 해결되지 않은 상태입니다.
우리가 사랑하는 챗봇들은 그들이 끔찍하게 틀렸을지라도, 과학 소설의 요다처럼 결정력과 권위로 우리의 질문에 대한 뛰어난 답변을 공유합니다. 그리고 우리는 그들을 믿습니다. 때로는 맹목적으로.
여러 과학자, 전문가, 심지어 챗봇 개발자들도 수년 동안 환각에 대해 경고해왔습니다. 그럼에도 불구하고, 채택이 빠르게 확산되고 있습니다-몇 일 전에만 OpenAI는 주간 활동 사용자가 4억명을 넘었다고 보고했습니다-그러나 AI에 대한 리터러시는 따라오지 못하고 있습니다.
최근의 연구, 법정 판례, 그리고 극적인 사건들은 계속해서 오정보가 우리가 생각하는 것보다 더 위험하다는 것을 보여주고 있습니다.
우리가 생각하는 것보다 더 나쁘다
처음에는 크게 AI가 생성한 오류를 발견하는 것이 꽤 재미있었습니다. 예를 들어, Gemini에 의해 생성된 당혹스러운 AI 개요가 사용자에게 피자 레시피에 “비독성 접착제를 소스에 추가”하는 것을 제안하거나 작년에는 “하루에 작은 돌 하나를 먹는” 것을 추천한 것처럼요. 그러나, 우리가 AI에 대한 신뢰를 회복함에 따라, 상황은 점점 더 심각해지고 있습니다.
12월에는 애플의 AI 도구가 뉴스를 “요약”하는 헤드라인을 만들어내고, BBC가 Luigi Mangione이 자살했다고 발표했다는 거짓 정보를 생성하는 등의 가짜 및 오해를 불러일으키는 정보를 만들어냈습니다. 이 사건 이후, 해당 출판사는 애플에 대해 고발을 제기하고 뉴스 컨텐츠를 분석하는 동안 생성 AI의 정확성에 대해 연구하기 시작했습니다.
몇 일 전에 발표된 BBC의 조사 결과는 경악스러운 통계를 드러냈습니다 : 인기있는 AI 챗봇들이 제공하는 답변의 51%에는 중요한 문제가 있었고, 모델들이 제공한 인용구의 13%는 완전히 날조되었으며, 데이터의 19%는 잘못되었습니다.
청소년들은 가짜 뉴스와 진짜 뉴스를 구분하는 데 종종 어려움을 겪으며, AI가 생성한 콘텐츠에 쉽게 영향을 받는 가장 크게 피해를 보는 인구군 중 하나입니다. 1월에 발표된 연구에 따르면 청소년의 35%가 AI 모델이 생성한 가짜 콘텐츠에 속아 넘어간 것으로 나타났고, 그 중 22%가 가짜 정보를 공유했습니다.
하지만 이런 환상에 빠지는 것은 단지 청소년이나 주의력이 흩어진 사람들만이 아닙니다. 그리고 Gemini나 Apple Intelligence만이 아닙니다.
어떤 AI 모델도 안전하지 않고, 어떤 산업도 안전하지 않습니다
BBC에서 수행한 그 연구는 또 다른 문제를 확인했습니다: 모든 AI 모델은 환각을 일으킵니다. 전문가들은 가장 인기 있는 모델들인 ChatGPT, Gemini, Perplexity, 그리고 Copilot을 검토했습니다. 어떤 AI 모델도 오류에서 자유롭지 않습니다. Anthropic은 이 문제를 다루는 페이지를 가지고 있으며, 환각을 줄이는 방법에 대한 아이디어를 제안합니다.
“Claude와 같은 가장 고급 언어 모델조차도 때때로 사실과 다르거나 주어진 맥락과 일치하지 않는 텍스트를 생성할 수 있습니다,”라고 문서에 명시되어 있습니다. 다른 AI 회사들도 가짜 콘텐츠를 피하는 팁과 트릭을 공유하는 유사한 페이지를 공유했지만, 그것은 그렇게 쉽지 않으며, 오랫동안 해결되지 않은 문제였습니다.
2023년에는 OpenAI가 새롭고 혁신적인 환각을 없애는 방법에 대해 연구하고 있다고 발표했습니다. 스포일러 경고: 오늘날에도 이는 여전히 큰 문제입니다.
1년 넘게 전인 2024년 1월에 CEO Aravind Srinivas는 Perplexity의 환각이 주로 무료 계정에서 발생하고 있다고 말했습니다. “대부분의 불만은 제품의 무료 버전에서 나옵니다,”라며 Srinivas는 이 문제를 해결하기 위해 더 많은 GPU를 도입하고 있다고 덧붙였습니다. 그러나 10월이 되자, 뉴욕 포스트와 다우 존스가 Perplexity에 대한 소송을 제기했습니다. 그 이유는 그들의 모델이 계속해서 그들의 출판물에 가짜 뉴스를 부여했기 때문이죠. 또한 미국 선거를 위해 스타트업이 개발한 AI 도구는 전문가들에 의해 테스트되어 일관성 없는 결과, 부정확한 요약, 그리고 환각을 드러냈습니다.
환각의 질병이 과학적, 학문적 수준에 이르다
지금 가장 큰 우려 중 하나는 AI의 위험성에 대해 경고하는 전문가들도 포함하여, 전문가들이 이 환각에 쉽게 빠지는 도구들에 속아 넘어가고 있다는 것입니다.
12월에, 스탠퍼드 대학의 기술 및 허위 정보 전문가인 Jeff Hancock는 AI를 이용해 법원 진술을 만드는 것으로 비난 받았습니다. 2023년의 딥페이크 사용을 범죄화하는 법안을 방어하기 위해 Hancock는 15개의 인용문을 포함한 12페이지의 선언문을 제출했습니다. 그러나 그 인용문 중 두 개는 어디에서도 찾아볼 수 없었는데, 이는 허위 정보 전문가인 Hancock가 선호하는 AI 도구인 ChatGPT가 그냥 그들을 만들어냈기 때문이었습니다.
올해 “진실, 신뢰, 기술”에 대해 강의할 예정인 한콕은 OpenAI의 챗봇을 사용해 자신의 인용문을 정리하였고, 이 과정에서 환각현상이 발생하게 되었다고 설명했습니다. 연구자는 사과했습니다— 그리고 그의 주장의 실질적인 내용을 고수하였습니다—, 그리고 우리 모두에게 AI 위험에 대해 가장 잘 아는 전문가들조차 그에 취약하다는 귀중한 교훈을 가르쳐 주었습니다.
한콕 교수는 물론, AI가 생성한 허구의 내용을 포함한 문서를 법정에 제출한 유일한 사람은 아니었습니다. 월마트에 대한 소송과 관련된 또 다른 사례는 변호사들이 AI로 만들어낸 가짜 사례를 사용해 주장을 구축하였기 때문에 최근에 화제가 되었습니다. 실제로, 이 문제는 미국 법원에서 너무 자주 발생하게 되었습니다 그래서 법률사무소인 Morgan & Morgan은 AI로 생성된 인용문 사용의 위험에 대해 경고하는 이메일을 1,000명이 넘는 변호사들에게 보냈고, 미국 변호사 협회는 그들의 400,000명의 회원들에게 변호사 윤리 규칙—AI로 생성된 정보를 포함하여—을 상기시켰습니다.
심도 있는 연구도 마찬가지
현재 가장 인기있는 인공지능 도구 중 하나는 “딥 리서치”입니다. 이 도구는 연구에서 보다 복잡한 결과를 추구하는 전문가와 과학자들을 위해 설계되었습니다. 이 도구에서도 환각은 결코 없지 않습니다. 심지어 OpenAI의 버전은 처음에는 $200의 프로 구독을 필요로 했습니다.
Reddit에서 사용자들은 이 문제에 대해 우려를 표현하며, 딥 리서치 도구를 특징으로 하는 모든 인기 모델 – Perplexity, ChatGPT, 그리고 DeepSeek -이 환각했다고 보고하였습니다. 연구자들과 AI 전문가들 또한 X와 같은 다른 소셜 미디어 플랫폼에서 불안한 결과를 공유했습니다.
“이 도구는 아름답게 쓰여지고 논증된 보고서를 만들어냈습니다,”라고 OpenAI의 Deep Research 도구를 사용하여 젊은이들이 한 수학을 연구한 한 사용자가 적었습니다. “유일한 문제는 모든 것이 다 꾸며진 것이라는 것입니다.”
“Deep Research는 수천 개의 기사의 데이터셋을 컴파일하고, 각 저자의 출생 연도 정보를 신뢰할 수 있는 출처에서 수집한다고 주장하면서 통계와 분석을 날조했습니다,”라고 또 다른 사용자가 공유했습니다. “이 모든 것은 사실이 아닙니다.”
한동안 보기 드문 소타 LLM의 최악의 환각
딥 리서치는 수천 개의 기사 데이터셋을 만들고 각 저자의 출생년도 정보를 신뢰할 수 있는 출처에서 수집한다고 주장하면서 많은 통계와 분석을 만들어냈습니다
이 모든 것은 사실이 아닙니다 https://t.co/ZZk40vTKIM pic.twitter.com/RAnNVcHDmR
— Paul Calcraft (@paul_cal) 2025년 2월 18일
진실은 여전히 인간의 손에
챗봇들이 환각을 그만둘 날이 올까요? AI의 약점은 수년 동안 명확하게 드러났습니다. Planet Money라는 팟캐스트에서 그들이 2023년에 AI가 생성한 에피소드를 테스트했을 때부터 이를 확인할 수 있었고, 우리는 계속해서 이를 목격하고 있습니다. 심지어 전문가와 기술에 익숙한 커뮤니티 전용으로 설계된 가장 진보된 모델에서조차도 그런 현상을 보게 됩니다.
아마도 이것이 계속해서 문제가 될 것임을 받아들이고, 우리가 AI 도구를 사용하여 만들고 공유하는 것에 대한 책임을 떠안아야 함을 이해해야 할 시간인지도 모릅니다.
이것이 잘 알려진 문제처럼 보이지만, AI 위험 전문가들조차도 AI의 설득력 있는 글쓰기에 넘어가고 있다는 사실은 확실히 우려스럽습니다. 디지털 소양이 추세를 따라가지 못하는 동안, 채택이 가속화하고, 불일치와 조작된 인용이 늘어나면서 상황은 더욱 복잡해집니다.
AI 환각이 드러나는 사례들은 대체로 사실 확인이 중요한 경우들이었습니다. 이는 마크 주커버그가 자신의 사실 확인 부서를 해체한 지금, 그에게 상기시켜야 할 사항입니다. 이는 특히 법정에서, 변호사와 판사들이 사실과 사건을 검증하는 곳이며, 뉴스 매체에서는 정확성과 출처 확인이 중요하기 때문입니다.
그런데 이런 세부사항을 면밀히 조사하지 않는 경우는 어떨까요? 일상적이고 더 개인적인 맥락에서는 어떤 일이 벌어질까요? 바로 지금, 수백만 명의 학생들이 AI가 생성한 답안을 공부하고 있고, 사용자들은 AI가 제공한 지시에 따라 질병을 치료하고 있으며, 다른 사람들은 이 기술을 완전히 신뢰하며 새로운 주제에 대해 배우고 있습니다.
우리가 직면하고 있는 이 새로운 현실의 결과는 측정할 수 없고 예측할 수 없습니다. 그리고 진실은-지금은-질문하고 확인하는 데 시간을 쏟는 사람들의 손에 달려 있습니다.
댓글 달기
취소