AI 모델의 저하: 새로운 연구에서 AI 생성 데이터를 이용한 AI 훈련의 위험성을 보여줍니다
7월 24일에 발표된 연구에 따르면, 인터넷에 AI가 생성한 데이터가 홍수처럼 불어남에 따라 AI 모델 출력의 품질이 저하될 위험이 있다.
이 연구의 연구원들은 AI가 생성한 데이터로 훈련된 AI 모델이 시간이 지남에 따라 점점 더 무의미한 결과를 생성한다는 것을 발견했습니다. 이 현상을 “모델 붕괴”라고 합니다. 이 연구의 주저자인 Ilia Shumailov는 이 과정을 사진을 계속 복사하는 것에 비유하였습니다. “사진을 찍고 스캔하고 출력하는 과정을 반복하다 보면 결국에는 잡음이 전체 과정을 압도하게 됩니다. […] 당신은 어두운 사각형만 남게 됩니다.”
이러한 저하 현상은 GPT-3와 같은 대규모 AI 모델에 중대한 위험을 초래하는데, 이들 모델은 훈련을 위해 인터넷의 방대한 데이터에 의존하고 있습니다. 예를 들어, GPT-3는 Common Crawl이라는 온라인 저장소에서 파생된 데이터로 일부 훈련을 받았는데, 이 저장소에는 30억 개 이상의 웹 페이지가 포함되어 있습니다. AI가 생성하는 쓰레기 콘텐츠가 온라인에 확산함에 따라 이 문제는 더욱 악화되고 있습니다. 이 효과는 새로운 연구 결과가 AI 훈련을 위한 사용 가능한 데이터에 대한 제한이 점점 더 강화되고 있다는 것을 나타냄으로써 더욱 확대될 수 있습니다.
연구 팀은 위키백과 데이터에 대한 대형 언어 모델(LLM)을 미세 조정하고, 그 다음에는 자체 출력물을 이용해 9세대에 걸쳐 재훈련시키는 방식으로 이러한 효과를 테스트했습니다. 그들은 “혼란 점수”라는 방법을 사용해 출력 품질을 측정하였는데, 이 점수는 모델이 시퀀스의 다음 부분을 예측하는 데 있어 얼마나 확신하는지를 나타냅니다. 점수가 높을수록 모델의 정확도는 낮아집니다. 그들은 각 후속 세대에서 혼란 점수가 증가하는 것을 관찰하여, 저하 현상을 강조하였습니다.
이러한 퇴화는 개선을 늦추고 성능에 영향을 줄 수 있습니다. 예를 들어 한 테스트에서는 재훈련을 9번 거친 후, 모델이 완전히 터무니없는 텍스트를 생성했습니다.
퇴화를 방지하는 한 가지 방법은 모델이 원래 사람이 생성한 데이터에 더 많은 가중치를 주도록 하는 것입니다. Shumailov의 연구의 또 다른 부분은 미래 세대가 원래 데이터셋의 10%를 샘플링하게 허용하여 일부 부정적인 효과를 완화하였습니다.
이 연구에 대한 토론은 AI 모델 학습을 위한 고품질, 다양하고, 인간이 생성한 데이터를 보존하는 것의 중요성을 강조하고 있습니다. 신중한 관리 없이는 AI가 생성한 컨텐츠에 대한 의존도가 증가함에 따라 AI의 성능과 공정성이 저하될 수 있습니다. 이를 해결하기 위해서는, 연구자와 개발자간의 협력이 필요하며 데이터의 출처를 추적하고 (데이터 출처 관리) 미래의 AI 모델이 신뢰할 수 있는 학습 자료에 접근할 수 있도록 보장해야 합니다.
그러나, 이러한 해결책을 구현하는 것은 효과적인 데이터 출처 관리 방법을 필요로 하는데, 현재는 이에 부족함이 있습니다. AI가 생성한 텍스트를 감지하는 도구는 존재하지만 그 정확도는 제한적입니다.
슈마일로프는 결론을 내려 말했습니다. “불행하게도, 우리에게는 답보다 질문이 더 많습니다 […] 하지만 당신의 데이터가 어디에서 왔는지, 그리고 얼마나 신뢰할 수 있는지를 알아야 하는 것은 분명합니다. 그것이 당신이 다루고 있는 데이터의 대표적인 샘플을 잡아내는 데 중요합니다.”
댓글 달기
취소