OpenAI의 o3가 주요 벤치마크 테스트에서 인간 수준의 지능을 달성하다
인공지능에서의 최근 돌파구가 연구자들을 인공일반지능(AGI)을 창조하는데 더 가까이 가게 해주었습니다. 이는 이 분야에서 오랫동안 추구해 온 목표입니다.
시간이 없으신가요? 빠른 정보를 확인하세요!
- OpenAI의 o3 AI는 ARC-AGI 일반 지능 벤치마크에서 85%의 점수를 받았습니다.
- 이 점수는 평균 인간의 성능과 동일하며 이전 AI의 55% 기록을 뛰어넘었습니다.
- ARC-AGI 테스트는 샘플 효율성과 새로운 작업에 적응하는 능력을 측정합니다.
OpenAI의 새로운 AI 시스템인 o3가 ARC-AGI 벤치마크라는 테스트에서 85%의 점수를 얻었습니다. 이 테스트는 AI의 새로운 상황에 대한 적응력을 측정하기 위해 설계되었습니다. 이에 대한 보고는 The Conversation에서 확인할 수 있습니다.
이 결과는 이전 AI 최고 성적인 55%를 넘어서고 평균 인간 성능을 맞추어, AI 연구에서 중요한 이정표를 세우게 되었습니다. ARC-AGI 벤치마크는 AI 시스템의 “샘플 효율성”을 평가하며, 이는 제한된 예시에서 얼마나 잘 학습하는지를 나타냅니다, 라고 The Conversation이 전했습니다.
대규모 데이터셋에 의존하여 결과를 생성하는 ChatGPT와 같이 널리 사용되는 AI 모델들과 달리, o3 모델은 최소한의 데이터로 새로운 작업에 일반화하고 적응하는 능력을 보여줍니다. 이 능력은 인간과 같은 지능을 달성하는데 있어 근본적인 것으로 간주되며, 이는 The Conversation에서 보도하였습니다.
프랑스의 AI 연구자인 프랑수아 쇼레에 의해 개발된 ARC-AGI 테스트는 패턴을 식별하여 그리드 기반의 퍼즐을 해결하는 것을 포함하고 있습니다.
전통적인 LLMs는 “미니 프로그램”을 기억하고, 검색하고, 적용하는데 의존하지만 유동적 지능력에는 어려움을 겪으며, 이는 ARC-AGI 벤치마크에서 낮은 점수로 입증되었습니다. o3 모델은 테스트 시간 프로그램 합성 메커니즘을 도입함으로써 새로운 해결책을 생성하고 실행할 수 있게 되었는데, 이에 대한 자세한 내용은 쇼레가 설명하였습니다.
쇼레는 그 핵심에서 o3가 평가자 모델에 의해 유도된 토큰 공간 내에서 자연 언어 프로그램 검색을 수행한다고 설명합니다. 작업이 제시되면, o3는 가능한 “사고의 연쇄”(CoTs) – 자연 언어로 설명된 단계별 해결책을 탐색합니다.
이들 CoTs의 적합성을 평가하며, 지식을 응집적인 프로그램으로 재결합하여 새로운 도전에 효과적으로 대응합니다. The Conversation은 OpenAI가 o3를 개발하는 데 사용된 정확한 방법을 공개하지 않았지만, 연구자들은 이 시스템이 2016년에 세계 바둑 챔피언을 물리친 Google의 AlphaGo와 유사한 과정을 사용했다고 추측하고 있습니다.
그러나, Chollet은 이 과정이 계산적으로 매우 복잡하다고 지적했습니다. 해결책을 생성하는 것은 프로그램 공간에서 수백만 개의 잠재적 경로를 탐색하는 것을 포함할 수 있으며, 이로 인해 시간과 자원에 상당한 비용이 발생합니다. 반복적인 학습을 통해 자율적으로 능력을 획득하는 AlphaZero와 같은 시스템과 달리, o3는 전문가가 라벨링한 CoT 데이터에 의존하므로 그 자율성이 제한됩니다.
이러한 유망한 결과에도 불구하고, 아직 해결되지 않은 중요한 문제들이 남아 있습니다. OpenAI는 o3에 대한 정보를 제한적으로만 공개하였으며, 세부 사항은 오직 몇몇의 연구자와 기관들과만 공유했습니다.
The Conversation은 이 시스템의 적응성이 근본적으로 개선된 기본 모델에서 비롯되었는지, 아니면 훈련 중에 특정 작업에 최적화되었는지 여부가 명확하지 않다고 지적합니다. o3의 진정한 잠재력을 이해하는 데 있어서 추가적인 테스트와 투명성이 중요할 것입니다.
또한, Chollet은 이 지능의 비용을 강조합니다: ARC-AGI 작업을 해결하는 데 사람들은 $5가 들지만, o3는 저계산 모드에서 $17~$20가 듭니다. 그러나 그들은 빠른 개선을 예상하며, 곧 o3가 사람의 성능과 경쟁력을 가질 것이라고 기대합니다.
이 성과는 AG의 실행 가능성과 그 함의에 대한 논쟁을 재점화시킵니다. 일부 연구자들에게는 o3의 성공이 AGI의 가능성을 더욱 구체적이고 시급하게 만듭니다. 특히, AI가 생성한 악성 소프트웨어 변종이 점점 더 탐지를 회피하고 있기 때문에 이는 사이버 보안 문제에 있어 특히 중요합니다.
그러나 다른 사람들은 조심스러워하며, o3의 능력이 특정 벤치마크를 초월하는지 여부를 결정하기 위해서는 견고한 평가가 필요하다고 강조합니다. AI 커뮤니티가 o3에 대한 보다 폭넓은 접근을 기다리는 동안, 이번 돌파구는 인간처럼 추론하고 학습할 수 있는 지능 시스템 추구에서 변화의 순간을 시사합니다.
댓글 달기
취소