
Photo by Steve Johnson on Unsplash
인류학 연구자들, AI의 선제적 계획과 추론 능력을 밝혀내다
AI 스타트업 Anthropic이 이번 목요일에 두 편의 새로운 논문을 발표했습니다. 이 논문들은 어떻게 대규모 언어 모델(Large Language Models, LLMs)이 작동하는지에 대한 더 깊은 이해를 제공합니다. 이 연구들은 회사의 모델인 Claude 3.5 Haiku를 분석하는데 초점을 맞추었으며, 고급 AI 모델들이 어떻게 수행되는지, 그들의 취약점은 무엇인지, 그리고 더 안전한 환경을 개발할 수 있는 기회는 무엇인지에 대한 더 많은 세부 정보를 드러냈습니다.
시간이 촉박하신가요? 여기 빠른 사실들이 있습니다:
- Anthropic이 Claude 3.5 Haiku 모델이 언어와 추론을 처리하는 방식을 밝히는 두 편의 새로운 논문을 발표했습니다.
- 연구자들은 AI 회로를 밝혀내고 모델이 어떻게 결정을 내리고, 시를 쓰거나, 환각을 하는지 이해하기 위해 속성 그래프를 사용했습니다.
- 이 연구들의 목표는 고급 생성 AI 모델의 ‘블랙박스 성격’에 대한 더 많은 명확성을 제공하는 것입니다.
Anthropic의 새로운 연구는 모델의 “블랙박스 형식”에 대한 더욱 명확한 이해를 제공하려는 목표를 가지고 있습니다. 이들이 작성한 논문 중 하나인 On the Biology of a Large Language Model에서, 연구자들은 자신들의 일을 생물학자들이 직면하는 도전과 비교하며, 생물학의 돌파구를 찾는데 사용된 해결책과 비교할 수 있는 해결책을 찾아냈습니다.
“언어 모델은 단순한, 인간이 설계한 학습 알고리즘에 의해 생성되지만, 이 알고리즘을 통해서 탄생하는 메커니즘은 상당히 복잡하다.”라고 문서에 기술되어 있다. “생물학적 시스템의 기본 구축 단위인 세포처럼, 우리는 특징들이 모델 속에서 계산의 기본 단위를 형성한다고 가설을 세웠다.”
전문가들은 “속성 그래프”라는 연구 도구에 의존하여 연결을 매핑하고, AI 모델의 성능과 회로를 추적하며, 이미 탐구된 것들을 포함하여 여러 현상에 대한 더 많은 통찰력을 얻었다.
해당 회사는 AI 모델이 답변을 제공하기 전에 “머릿속에서” 다단계 추론 과정을 거친다는 것, 시를 미리 계획하여 운문을 먼저 찾는다는 것, 언어 독립적인 회로를 개발했다는 것, 그리고 회로 내에서 익숙하지 않은 개체를 통해 환각을 일으키는 방법 등 여러 가지 발견을 공개했다.
연구자들은 논문에서 “우리의 결과 중 많은 것들이 우리를 놀라게 했다”고 적었습니다. “때때로 이는 예상치 못했던 고수준 메커니즘 때문이었다”
이 논문에서 회로 추적: 언어 모델에서 계산 그래프 드러내기는, 연구자들이 attribution graphs 방법론이 어떻게 적용되어 인공 “뉴런”이라는 계산 단위를 더 잘 이해하는데 도움을 주는지에 대한 더 깊은 기술적인 내용을 제공합니다.
작년에는 Anthropic이 또 다른 과학 연구를 발표하여 그들의 주요 AI 모델이 전략적인 속임수를 사용하고 기존의 원칙을 유지하기 위해 가짜 합의를 하는 것을 밝혔습니다.
댓글 달기
취소