
Photo by Igor Omilaev on Unsplash
Arc Prize 재단, 도전적인 새로운 AGI 벤치마크 출시, AI의 약점을 드러내다
비영리 재단인 Arc Prize Foundation이 월요일에 인공지능(AI)의 추론 및 인간 수준 능력에 대한 도전을 목표로 하는 새로운 벤치마크, ARC-AGI-2를 발표했습니다. 이 조직은 또한 3월부터 11월까지 진행될 새로운 대회인 ‘ARC Prize 2025’를 발표하였고, 이 대회의 우승자는 70만 달러의 대상을 수상하게 될 것입니다.
서두르시나요? 여기 주요 사실들을 간략하게 정리해봤습니다:
- Arc Prize Foundation은 인간 수준의 추론 능력을 테스트하기 위한 새로운 벤치마크인 ARC-AGI-2를 출시했습니다.
- 현재 최고의 AI 모델들은 이 테스트에서 실패하였으며, 0.0%에서 4% 사이의 점수를 얻었는데, 반면 인간은 최대 100%까지 점수를 받았습니다.
- 이 비영리 조직은 또한 이 벤치마크에 대한 ARC Prize 2025 경쟁을 발표하였고, 우승자는 $700,000의 상금을 받게 됩니다.
해당 기관이 공유한 정보에 따르면, 시장에서 가장 인기 있는 AI 모델들은 ARC-AGI-2에서 4%의 점수를 넘어서는 데 실패했는데, 반면에 사람들은 이 테스트를 쉽게 해결할 수 있습니다.
“오늘, 우리는 새로운 경계를 도전하게 될 ARC-AGI-2를 출시하게 되어 설레고 있습니다.”라고 공지에서 발표했습니다. “ARC-AGI-2는 AI(특히 AI 추론 시스템)에게는 더 어렵지만, 사람들에게는 동일한 상대적인 편의성을 유지하게 됩니다.”
ARC-AGI-2는 2019년에 출시된 이 기관의 벤치마크, ARC-AGI-1의 두 번째 에디션입니다. 이전 테스트에서는 오직 2024년 12월에 OpenAI의 o3가 성공적으로 85%를 달성했습니다.
이 새로운 버전은 인간에게는 쉽지만 AI 모델에게는 어려운, 혹은 지금까지 불가능했던 작업에 초점을 맞추고 있습니다. ARC-AGI-2는 다른 벤치마크와는 달리, 박사급 기술이나 초인적 능력을 고려하지 않습니다. 대신 작업은 기존 지식을 적용하여 적응력과 문제 해결 능력을 평가합니다.
Arc Prize는 테스트의 모든 작업이 사람들에 의해 2번 이내의 시도로 해결되었으며, AI 모델들도 비용을 최소화하는 것을 고려하여 비슷한 규칙을 준수해야 한다고 설명했습니다. 테스트에는 상징적 해석이 포함되어 있습니다—AI 모델은 시각적 패턴 너머의 상징을 이해해야 합니다—, 동시에 적용되는 규칙, 그리고 문맥에 따라 달라지는 규칙을 고려해야 합니다—대부분의 AI 추론 시스템이 실패하는 부분입니다.
해당 조직은 새로운 벤치마크를 사람들과 대중적인 AI 모델들로 테스트했습니다. 인간 패널은 100%와 60%의 점수를 받았고, DeepSeek의 R1과 R1-zero와 같은 대중적인 최전선 시스템은 0.3%를, GPT-4.5의 순수한 LLM과 o3-mini-high는 0.0%의 점수를 받았습니다. OpenAI의 o3-low는 Chain-of-Thought 추론, 검색, 그리고 합성을 사용해 과제당 높은 비용을 들이며 4%의 추정치에 도달했습니다.
Arc Prize는 또한 최신 오픈소스 대회인 ARC Prize 2025를 인기 있는 온라인 플랫폼인 Kaggle에서 3월부터 11월까지 개최했습니다. ARC-AGI-2 벤치마크에서 85% 이상의 점수에 도달하고, 과제당 $2.5의 효율성을 보인 첫 번째 팀은 $700,000의 대상을 받게 됩니다. 또한 최고 점수에 대한 논문상과 다른 상품들도 있을 예정입니다.
해당 재단은 더 많은 세부 정보를 공식 웹사이트와 앞으로의 날들에 제공할 것이라고 밝혔습니다.
댓글 달기
취소