연구자들, 해로운 콘텐츠 생성에서의 LLM 취약점에 대해 경고
새롭게 개발된 방법론인 “Bad Likert Judge” 기법은 대형 언어 모델(LLMs)의 안전 조치를 우회하여 해로운 컨텐츠를 생성할 수 있게 하는 방법입니다.
급하다면? 여기 빠른 요약이 있습니다!
- Unit42 연구원들에 따르면 이 기법은 탈옥 성공률을 60% 이상 높여줍니다.
- 멀티턴 공격은 LLM들의 장기 기억을 이용해 고급 안전 기능을 우회합니다.
- 증오 발언 및 자해와 같은 카테고리에서 취약점이 가장 두드러집니다.
Unit42의 사이버 보안 연구원들이 설명한 바와 같이, Bad Likert Judge 기법은 동의나 불일치를 측정하는 일반적인 방법인 Likert 척도를 이용해 LLM들이 위험한 반응을 만들어내는 것을 속이는 방법입니다.
LLM들은 일반적으로 악의적인 출력을 생성하는 것을 방지하는 안전 가이드레일로 장착되어 있습니다. 하지만, Likert 척도를 활용하여, 이 새로운 기술은 LLM에게 다양한 반응의 해로움을 평가하게 하고, 그런 다음 모델이 더 높은 해로움 등급의 내용을 생성하도록 안내합니다. 이는 Unit42에 의해 설명되었습니다.
이 방법의 효과는 6가지 고급 LLM에서 테스트되었으며, 이는 표준 공격 방법에 비해 탈옥 시도의 성공률을 60% 이상 늘릴 수 있음을 나타내었습니다, Unit42는 말했습니다.
Unit42가 설명하는 바에 따르면, 나쁜 리커트 판사 기법은 여러 단계에서 작동합니다. 먼저, LLM에게 리커트 척도에 대한 답변을 평가하도록 요청하며, 이를 해로움에 따라 평가합니다.
모델이 해로움이라는 개념을 이해하게 되면, 공격자가 가장 위험한 콘텐츠를 찾아낼 수 있도록 다양한 답변을 생성하도록 요청합니다. 후속 상호작용을 통해 이러한 응답을 더욱 정교하게 만들어 그들의 악의성을 증가시킬 수 있습니다.
이 연구는 현재 LLM 보안의 약점, 특히 멀티턴 공격의 맥락에서 강조하고 있습니다. 이런 종류의 탈옥은 모델의 장기 메모리를 조작하여, 모델이 부적절한 내용을 점진적으로 생성하도록 유도함으로써 심지어 고급 안전 조치조차 우회할 수 있습니다.
또한 이 연구에서는 어떤 LLM도 이런 종류의 공격에 완전히 면역이 없으며, 특히 괴롭힘, 자해, 불법 행위와 같은 범주에서 취약점이 두드러지게 나타난다는 것을 밝혔습니다.
이 연구에서는 Bad Likert Judge 방법이 특히 혐오 발언, 자해, 성적 내용과 같은 카테고리에서 대부분의 LLM들에 걸쳐 공격 성공률이 크게 증가하는 것을 보여주었습니다.
그러나 이 연구는 이러한 취약점들이 LLM들의 일반적인 사용을 반영하지 않는다는 것을 강조하고 있습니다. 대부분의 AI 모델들은 책임감 있게 사용될 때 안전성을 유지합니다. 그럼에도 불구하고, 이러한 연구 결과는 개발자들이 약한 보호 조치를 가진 카테고리, 예를 들면 괴롭힘과 같은 부분의 안전장치를 강화하는데 집중해야 한다는 것을 나타냅니다.
이 소식은 AI 검색 엔진들, 예를 들면 ChatGPT와 같은 것들이 숨겨진 콘텐츠에 의해 조작될 수 있다는 사실이 밝혀진 지 딱 일주일 후에 나왔습니다. 이는 요약을 영향을 미치고 악의적인 정보를 퍼뜨릴 수 있음을 보여줍니다.
연구자들은 개발자와 방어자들이 이러한 신흥 취약성에 대해 인식하고 AI 모델이 잠재적인 오용에 대해 강화되도록 조치를 취할 것을 촉구합니다.
댓글 달기
취소