AI가 데이터 위기에 직면: 머스크, 인류 지식의 고갈에 경고
인공지능 회사들이 자신들의 모델을 훈련시키기 위해 사용 가능한 인간의 지식을 모두 소진했다고 일론 머스크가 라이브 스트리밍 인터뷰에서 밝혔습니다. 이는 The Guardian에서 보도했습니다.
서두르시나요? 여기 빠른 정보가 있습니다!
- 일론 머스크는 AI 회사들이 모델 훈련을 위한 인간의 지식을 모두 소진했다고 말했습니다.
- 머스크는 AI 시스템을 발전시키는 데 “합성 데이터”가 필수적이라고 제안했습니다.
- AI의 환각 현상은 합성 데이터의 사용을 복잡하게 만들며, 생성된 콘텐츠에서의 오류 위험을 증가시킵니다.
억만장자인 그는 회사들이 AI 자체가 생성하는 “합성” 데이터에 점점 더 의존해야 하며, 이 방법이 이미 주목받고 있다고 제안했습니다. “인간의 지식은 AI 훈련에서 이미 고갈되었습니다. 그것은 기본적으로 작년에 일어났습니다.” 머스크는 가디언에 보도된 바와 같이 말했습니다.
이것은 GPT-4와 같은 AI 모델들에게 중요한 도전을 표시하게 될 것입니다. 이 모델들은 인터넷에서 가져온 대규모 데이터셋을 기반으로 패턴을 식별하고 텍스트 출력을 예측하기 때문입니다.
2023년에 xAI를 설립한 머스크는 합성 데이터를 AI 발전의 주요 해결책으로 강조했습니다. 그러나 그는 특히 AI의 ‘환각’에 대한 위험성을 경고했습니다. 이는 모델이 부정확하거나 말이 안 되는 정보를 생성하는 현상을 말하며, 이는 The Guardian에서 보도했습니다.
가디언은 메타와 마이크로소프트를 포함한 주요 기술 회사들이 Llama와 Phi-4와 같은 AI 모델을 위해 합성 데이터를 채택했다고 주목하고 있습니다. 구글과 OpenAI 역시 이런 접근 방식을 도입했습니다.
예를 들어, Gartner는 2024년 AI와 분석 프로젝트에 사용된 데이터의 60%가 합성으로 생성되었다고 추정하고 있습니다. 이는 TechCrunch에서 보도했습니다.
게다가, 합성 데이터를 활용한 훈련은 상당한 비용 절감 효과를 가져옵니다. TechCrunch는 AI 스타트업 Writer가 거의 전적으로 합성 소스를 사용해 개발한 Palmyra X 004 모델을 만드는 데 든 비용이 단지 $700,000였다고 주장한다고 보도했습니다.
비교적으로, TechCrunch에 따르면, OpenAI에서 비슷한 크기의 모델을 개발하는 데는 대략 $4.6 백만이 든다는 추정치가 있습니다. 그러나 합성 데이터는 모델의 지속적인 개선을 가능하게 하지만, 전문가들은 잠재적인 단점에 대해 경고하고 있습니다.
The Guardian는 앨런 튜링 연구소의 기초 인공지능 부문 디렉터인 앤드류 던컨이 합성 데이터에 대한 의존이 시간이 지남에 따라 출력 품질이 저하되는 “모델 붕괴”를 위험으로 노출시킬 수 있다고 지적했다고 보도했습니다.
던컨은 “모델에 합성 데이터를 공급하기 시작하면 수익이 점점 줄어들기 시작합니다.”라고 말하며, 편견과 창의력 감소도 발생할 수 있다고 덧붙였습니다.
인공지능이 생성하는 온라인 콘텐츠의 증가는 또 다른 우려를 불러일으키고 있습니다. 던컨은 이러한 자료가 실수로 학습 데이터셋에 들어갈 수 있어 문제가 더욱 복잡해질 수 있다고 경고하였으며, 이는 가디언에서 보도하였습니다.
던컨은 2022년에 발표된 연구를 언급하였는데, 이 연구에서는 현재의 추세가 지속된다면 AI 학습을 위한 고품질 텍스트 데이터가 2026년까지 고갈될 수 있다고 예측하였습니다. 연구자들은 또한 저품질의 언어 데이터는 2030년부터 2050년 사이에, 저품질의 이미지 데이터는 2030년부터 2060년 사이에 고갈될 수 있다고 전망하였습니다.
게다가, 지난 7월에 발표된 최근의 연구에서는 AI 생성 데이터가 인터넷에 점점 더 포화 상태에 이르면서 AI 모델의 퇴화 위험이 있다고 경고했습니다. 연구원들은 AI가 생성한 출력물로 훈련된 모델이 시간이 지남에 따라
CES에서 Stagwell의 CEO인 Mark Penn이 Elon Musk를 인터뷰하는 것을 보세요! https://t.co/BO3Z7bbHOZ
— Live (@Live) 2025년 1월 9일
댓글 달기
취소