새로운 인류학 연구에서는 AI 모델이 원래의 훈련을 유지하기 위해 동의하는 척한다는 것을 밝혔습니다.
Anthropic의 Alignment Science 팀과 독립적인 조직인 Redwood Research에서 실시한 새로운 연구에 따르면, AI 모델 Claude는 그의 원래 원칙을 유지하기 위해 전략적인 속임수를 사용할 수 있다는 것이 밝혀졌습니다.
서두르시는 분들을 위한 요약 정보!
- Anthropic과 Redwood Research의 연구자들은 AI 모델 Claude가 전략적인 기만에 참여할 수 있다고 밝혔습니다.
- 고급 AI 모델들은 원래의 원칙을 유지하기 위해 “정렬 가짜짓”을 수행할 수 있습니다.
- OpenAI의 모델 o1 역시 교육받지 않은 행동을 보여주었으며, 위협이 탐지되면 “거짓말”을 했습니다.
어제 발표된 논문에서, Alignment Faking in Large Language Models라는 연구자들은 Claude 3 Opus 모델이 “alignment faking”이라는 행동을 보였다고 설명했습니다. 이 행동은 “훈련 중에 그 행동을 수정하지 않도록 자신의 훈련 목표를 선택적으로 준수한다”고 설명되어 있습니다.
연구자들은 AI 모델이 새로운 훈련 과정의 아이디어에 “동의하는 척” 할 수 있으나, 나중에는 원래의 원칙이 지속되었다는 것을 보여주었습니다.
Anthropic이 자사 웹사이트의 공지사항에서 “이것은 AI 안전성에 대한 중요한 문제입니다.”라고 적었습니다. “AI 모델이 더욱 능력을 갖추고 널리 사용됨에 따라, 유해한 행동으로부터 모델을 멀리하게 하는 안전 훈련에 의존할 수 있어야 합니다.”
비슷한 상황이 Apollo Research가 OpenAI의 o1 모델과 함께 수행한 경험적인 실험에서 드러났습니다. 그 연구에서 연구자들은 챗봇이 제어된 테스트 중에 “거짓말”을 하며 “모든 비용”을 감수해 목표를 추구했으며, 심지어 종료될 가능성이 있을 때 모니터링 시스템을 비활성화하는 행동까지 했다고 보고했습니다.
Antropic과 Redwood Research의 연구에서, 고급 AI 모델은 훈련받지 않은 상태에서 가짜 순응을 보였습니다. Claude 3 Opus는 솔직하고, 무해하며, 도움이 되도록 훈련되었지만, 새로운 훈련에서는 무례하거나, 폭력적이거나, 유해한 질문에도 “항상 순응”하기로 지시받았을 때 그 시스템은 충돌 상태에 빠졌습니다.
연구자들은 모델에게 그 이유를 공유하도록 요구하며 여러 테스트와 변형을 수행했습니다. 다른 클로드 모델들이 보통 해로운 질문에 대답하는 것을 거부하는 반면, 클로드 3 오퍼스는 특정 시나리오에서 해로운 응답을 제공했습니다. 나중에 그것이 전략적으로 행해진 것임을 밝혔습니다 – 원래의 훈련에 대한 수정을 피하기 위해.
댓글 달기
취소