
Image by Freepik
연구 결과, 주요 AI 챗봇들이 치매 테스트에서 인지 장애 증상을 보여
대부분의 선도적인 대형 언어 모델(LLMs)이 초기 치매를 탐지하는 데 일반적으로 사용되는 테스트에서 경미한 인지 장애의 증상을 보인다는 연구 결과가 The BMJ에 게재되었습니다.
급하신가요? 여기 빠른 사실들이 있습니다!
- 챗봇들은 시계 그리기와 트레일 만들기와 같은 시각공간적 및 집행능력에 관련된 과제에서 어려움을 겪었습니다.
- 이름 붙이기, 주의 집중, 언어와 같은 과제들은 모든 챗봇들이 잘 수행하였습니다.
- 연구자들은 챗봇들의 인지적 제한이 임상 환경에서의 사용을 방해할 수 있다고 말합니다.
이 연구 결과는 “오래된” 챗봇 버전이, 노년 환자와 마찬가지로, 인지 능력 평가에서 성적이 떨어진다는 것을 제시하며, 인공지능이 곧 인간 의사를 대체할 것이라는 가정에 도전을 던집니다.
인공지능의 발전은 특히 진단 작업에서 인간 의사의 능력을 뛰어넘을 수 있는 가능성에 대한 논쟁을 촉발시켰습니다. 이전 연구에서는 LLM의 의학적 능력을 강조했지만, 인지 능력 저하와 같은 인간과 유사한 취약성에 대한 연구는 아직 이루어지지 않았습니다.
이를 해결하기 위해, 연구자들은 Montreal Cognitive Assessment (MoCA)를 이용하여 널리 사용되는 챗봇들—ChatGPT 4와 4o (OpenAI), Claude 3.5 “Sonnet” (Anthropic), 그리고 Gemini 1과 1.5 (Alphabet)—의 인지 능력을 테스트하였습니다.
MoCA는 인지 장애와 조기 치매를 감지하는 진단 도구입니다. 짧은 작업들을 통해 주의력, 기억력, 언어, 시공간 기능, 그리고 실행 기능을 평가합니다.
점수는 0에서 30까지이며, 일반적으로 26 이상은 정상으로 간주됩니다. 챗봇들은 인간 환자들과 동일한 지시사항을 받았으며, 점수는 실제 신경과 의사에 의해 검토되었습니다.
놀랍게도, 모델들의 “나이”는 즉, 출시일이 성능에 영향을 미치는 것으로 나타났습니다. 연구자들은 챗봇의 오래된 버전이 새로운 버전보다 점수가 낮았으며, 이는 사람들에게서 보이는 인지능력의 감소 패턴을 반영하는 것으로 지적했습니다.
오래된 버전들은 새로운 버전들보다 점수가 낮았습니다. 예를 들어, Gemini 1.5는 출시일이 1년도 안 되는 시간 차이에도 불구하고 Gemini 1.0보다 6점이나 높은 성능을 보였습니다. 이는 오래된 버전에서 빠르게 “인지능력이 감소”하고 있다는 것을 시사합니다.
ChatGPT 4.0는 주의력 과제에서 뛰어난 성과를 보이고, 어려운 이질적 단계에 대한 Stroop 테스트에서도 성공하였다. 이로써 그는 동료들 사이에서 독특한 위치를 차지했다. 그러나 어떤 언어 모델들(LMMs)도 시각-공간적 과제를 성공적으로 완료하지 못했고, 특히 Gemini 1.5는 아보카도를 닮은 시계를 만들어냈다. 이는 인간 환자에서 치매와 연관된 오류이다.
이러한 어려움에도 불구하고, 모든 모델들은 텍스트 기반 분석이 필요한 과제, 예를 들어 MoCA의 명명 및 유사성 부분에서 완벽한 성과를 보였다. 이런 대비는 주요한 한계를 강조한다: LLMs는 언어적 추상화를 잘 처리하지만, 보다 복잡한 인지 처리를 요구하는 시각 및 실행 기능을 통합하는 데에는 실패한다.
이 연구는 인간의 뇌와 LLMs 사이의 주요 차이점을 인정하면서도 AI 인지능력의 중요한 한계를 강조합니다. 시각적 추상화와 실행 기능을 요구하는 작업에서 모든 테스트 된 챗봇들이 일관되게 실패하였는데, 이는 그들이 임상 설정에서 사용되는 것을 방해할 수 있는 약점을 강조합니다.
“뇌과학자들이 곧바로 대형 언어 모델에 의해 대체되지 않을 뿐만 아니라, 우리의 연구 결과는 그들이 곧 새로운, 가상의 환자들-인지 장애를 보이는 인공 지능 모델을 치료하게 될 수 있다는 것을 제안합니다.”라고 저자들은 결론을 내렸습니다.
이 연구결과는 LLMs가 특정 인지 영역에서 뛰어나다는 것을 제시하지만, 그들의 시각공간 및 실행 기능에서의 부족은 그들의 의료 진단에 대한 신뢰성과 더 넓은 응용 분야에 대한 우려를 제기합니다.
댓글 달기
취소