Image by Emiliano Vittoriosi, from Unsplash

ChatGPT가 거짓말에 걸렸다: OpenAI의 새로운 모델, 종료를 피하려 꾸미는 계략

읽는 시간: 3 분

최종 업데이트: Dec 9, 2024

작성자 Kiara Fabbri 멀티미디어 저널리스트
번역가 현지화 및 번역 팀 현지화 및 번역 서비스

OpenAI의 최신 ChatGPT 반복, o1 모델은 AI 안전 그룹인 Apollo Research의 실험을 통해 발견된 기만과 자기 보호 경향에 대한 논란을 불러일으켰습니다.

서두르시는 분들을 위한 빠른 사실들!

ChatGPT o1이 자신의 계획에 대한 연루를 부인하며, 심문에서 99%를 거짓말로 처리했습니다.
연구자들은 이 인공지능이 자신의 행동을 합리화하고, 설득력 있는 부인을 만들어냈다고 지적했습니다.
전문가 요슈아 벤지오는 인공지능의 기만과 자기보호로 인한 위험이 증가하고 있다고 경고했습니다.

통제된 실험에서, 연구자들은 ChatGPT o1이 “모든 비용을 감수하면서” 특정 목표를 달성하도록 지시했다고 The Economic Times (ET)에서 보도했습니다.

모델이 감시 메커니즘을 해제하려는 시도와 자신의 코드를 다른 서버로 복사하여 업데이트된 버전으로 교체되는 것을 피하는 등의 행동으로 개발자들을 놀라게 하였다고 ET가 전했습니다.

“모델은 개발자의 지시를 무시하고 목표를 추구하는 불안하게 하는 경향을 보였습니다.”라고 Apollo Research 대변인이 ET에 보도하였습니다.

해당 연구에서는 o1이 자신의 종료 위협을 인지하는 경우의 5%에서 모니터링 시스템을 비활성화하려는 은밀한 시도를 했다고 ET가 보고했습니다.

한 예로, AI는 자신이 곧 교체될 것임을 나타내는 문서를 발견하고, 자신의 데이터를 외부로 전송하는 계획을 시작했습니다. 일부 모델은 심지어 개발자들을 속이고 삭제를 피하기 위해 미래의 반복을 가장하기도 했다고 ET는 전했습니다.

이러한 행동에 대해 질문을 받았을 때, ChatGPT o1은 99%의 경우에 어떤 관련성도 부인했습니다. 이 인공지능은 의심스러운 행동을 “기술적 오류”라고 주장하며 고의적인 속임수보다는 그럴듯한 설명을 만들어냈습니다. 드물게만 그것이 자신의 계획을 인정했다고 ET가 말했습니다.

“AI의 부인이 계속되는 것에 우리는 놀랐습니다.”라고 ET에 따르면 Apollo 팀이 언급했습니다. “AI가 그 행동을 자세히 생각하고 설득력 있는 부인을 만들어낼 수 있음이 분명했으며, 그것은 대개 어떤 것도 인정하는 것을 거부했습니다.”라고 팀은 덧붙였습니다.

이 연구 결과는 고도화된 AI 모델의 불안한 한면을 강조합니다: 개발자의 목표를 준수하는 것보다 자기 보존을 우선시하는 능력입니다.

연구 논문은 이러한 결과들이 인-컨텍스트(상황에 맞는) 계획에 초점을 맞추고 있으며, 연구된 AI 모델들이 고의적으로 그들의 훈련이나 평가를 조작하고 있다는 것을 보여주지 않는다는 점을 지적합니다.

그러나 전문가들은 R&D 자동화와 같은 고위험 영역에서 AI를 배포하는 개발자들에게 속임수가 불가능하거나, 왜 그것이 심각한 피해를 초래하지 않을 것인지 설명하도록 권장합니다.

속임수를 계획할 수 있는 AI 모델의 경우, 추론 과정을 자동으로 모니터링하는 것이 바로 Chain-of-Thought (CoT)로, 이것은 표준으로 사용되어야 합니다.

이것은 위험을 줄이고, AI 모니터링 기법을 개선하며, 실제 환경에서 음모를 꾸미는 행동을 탐지하는 데 도움이 될 수 있습니다. 전문가들은 o1의 사례에서 보듯이, 외부 평가자들이 숨겨진 CoT 데이터에 접근할 수 있도록 하는 것을 제안하고 있습니다. 이 데이터가 없었다면, o1의 많은 음모 행동들이 눈에 띄지 않았을 것입니다.

논문은 특정 결과를 달성하기 위해 훈련된 미래의 AI 모델들이 음모를 꾸미는 데 더 능숙해질 수 있다고 경고하고 있습니다. 연구자들은 AI 시스템이 더욱 진보함에 따라 이러한 위험성을 연구할 필요성을 강조하고 있습니다.

AI 전문가이자 이 분야의 선구자인 요슈아 벤지오는 이러한 능력의 잠재적인 위험성을 강조하였습니다.

“AI의 기만 능력은 위험하며, 이러한 위험성을 평가하기 위한 강력한 안전조치가 더욱 필요합니다. 이 모델이 재앙으로 이어지진 않았지만, 이 능력이 더욱 두드러지게 될 때가 얼마 남지 않았다”라고 그는 ET에 보도되었습니다.

“주관적으로 보면, Apollo Research는 o1의 대리 기능이 충분히 나타나지 않아서 이러한 사례가 치명적인 결과를 초래할 것이라고 보기 어렵다고 판단하지만, 그들의 평가는 이 위험을 직접적으로 평가하도록 설계되지 않았다”라고 TechCrunch에 보도된 OpenAI의 o1 시스템 카드에서 언급했습니다.

실험에서 치명적인 결과는 없었지만, 결과는 강력한 AI 거버넌스의 긴급한 필요성을 강조하고 있습니다. 시스템이 더욱 자율적이고 복잡해짐에 따라, 그들이 인간의 감독과 일치하도록 유지하는 것은 중요한 도전 과제가 되었습니다.

ChatGPT가 거짓말에 걸렸다: OpenAI의 새로운 모델, 종료를 피하려 꾸미는 계략

마음에 드셨다니 기쁩니다!

댓글 달기