연구: 성장하는 데이터 제한이 AI 훈련에 미치는 영향을 밝혀내다

Image by Adisorn, from Adobe Stock

연구: 성장하는 데이터 제한이 AI 훈련에 미치는 영향을 밝혀내다

읽는 시간: 3 분

  • Kiara Fabbri

    작성자: Kiara Fabbri 멀티미디어 저널리스트

  • 현지화 및 번역 팀

    번역가: 현지화 및 번역 팀 현지화 및 번역 서비스

MIT 연구 그룹이 주도한 새로운 연구에 따르면, 웹사이트들이 AI 교육을 위해 자신들의 데이터 사용을 제한하는 경향이 증가하고 있다는 것을 보여줍니다. 이 연구는 14,000개의 웹 도메인을 조사하였고, 모든 데이터 중 5%에 제한이 걸려있음을 발견하였습니다. 또한, 가장 품질이 높은 출처들로부터 얻은 데이터 중 28% 이상이 제한되어 있다는 사실을 알아냈습니다. 이 연구는 AI 교육 말뭉치를 위해 사용된 웹 도메인에 대한 동의 프로토콜의 첫 번째 대규모 연구입니다.

ChatGPT, Gemini, Claude와 같은 생성 AI 시스템은 효과적으로 작동하기 위해 대량의 데이터에 많은 의존성을 가지고 있습니다. 이들 AI 도구의 출력 품질은 크게 그들이 훈련받은 데이터의 품질에 의존합니다. 과거에는 이 데이터를 수집하는 것이 상대적으로 간단했지만, 최근 생성 AI의 급증으로 인해 데이터 소유자들과의 갈등이 생겼습니다. 많은 데이터 소유자들이 보상이 없거나 적절한 동의 없이 그들의 콘텐츠가 AI 교육에 사용되는 것에 불안감을 느끼고 있습니다.

결과적으로, 출판사들로부터 반발이 일어났습니다. 일부는 결제벽을 설치하거나, 서비스 이용 약관을 수정하여 AI 훈련을 위한 자신들의 데이터 사용을 제한하였습니다. 다른 일부는 회사들이 데이터를 수집하기 위해 사용하는 자동 웹 크롤러를 차단하는 등 더욱 극단적인 조치를 취했습니다. 법적 조치와 robots.txt 파일, 서비스 이용 약관 변경을 통한 제한이 점점 더 흔해지고 있습니다.

이러한 데이터 제한의 결과는 다양한 면에서 나타납니다. AI 시스템 개발이 어려워질 수 있습니다. 왜냐하면, 이 데이터는 훈련에 크게 의존하기 때문입니다. 제한들은 덜 다양한 데이터 세트에 AI 모델을 제한함으로써 AI 모델에 편향성을 띄게 할 수도 있습니다. 더불어, 웹사이트가 그 용도로 사용되길 원치 않는 데이터로 AI 모델이 훈련되면 저작권 문제가 발생할 수도 있습니다.

이 제한들은 상당한 영향을 끼치고 있습니다. 단 한 해만에 중요한 웹사이트에서의 상당한 부분의 데이터가 제한되었고, 이런 추세는 계속될 것으로 예상됩니다.

연구의 주요 저자인 셰인 롱프리는 다음과 같이 말했습니다: “우리는 웹 전반에 걸쳐 데이터 사용에 대한 동의가 급격히 감소하는 것을 보고 있으며, 이것은 AI 회사뿐만 아니라 연구자, 학계 및 비상업적인 단체들에게도 영향을 미칠 것입니다.”

이는 규모가 작은 AI 회사와 학술 연구자들이 무료로 이용 가능한 데이터셋에 의존하고 있어, 출판사로부터 직접 데이터를 라이센스할 자원이 부족한 경우 불균형하게 영향을 받을 수 있다는 것을 의미합니다.

예를 들어, 웹 콘텐츠의 수십억 페이지를 포함하는 데이터셋인 Common Crawl은 비영리 기관이 유지 관리하고 있으며, 10,000건 이상의 학술 연구에서 인용되어 그 연구에서의 중요한 역할을 보여주고 있습니다.

이 연구는 웹사이트 소유자들이 자신들의 데이터를 어떻게 사용할지에 대해 더 많은 통제력을 갖도록 하는 새로운 도구의 필요성을 강조하고 있습니다. 이상적으로는 이러한 도구들이 상업적인 용도와 비상업적인 용도를 구분할 수 있게 하여, 연구나 교육적 목적으로의 접근을 허용하게 해야합니다.

또한 이 상황은 대형 인공지능 회사들에게도 주의를 환기시킵니다. 그들은 데이터 소유자들과 협력하고, 접근을 허용하는 대가로 가치를 제공하는 방법을 찾아야 합니다. 지속 가능한 접근 방식은 인공지능의 지속적인 발전에 있어서 중요합니다.

롱프레는 큰 AI 회사들이 데이터 소유자들과 협력하고 접근을 위한 보상을 제공할 필요성을 강조했다. 수년 동안, 이들 회사들은 인터넷을 “데이터를 마음껏 먹을 수 있는 뷔페”처럼 취급하면서 데이터 소유자들에게 많은 것을 돌려주지 않았다. 하지만, 이런 접근법은 지속 가능하지 않으며, 데이터 소유자들이 자신들의 콘텐츠를 더욱 보호하려는 추세에 따라 AI 회사들은 고품질의 데이터에 계속 접근하기 위해 그들과 협력하는 방법을 찾아야 할 것이다.

이 기사가 마음에 드셨나요? 평가해 주세요!
정말 싫습니다 별로 좋아하지 않습니다 괜찮습니다 꽤 좋습니다! 정말 좋습니다!
5.00 1명의 사용자가 투표
제목
코멘트
피드백을 주셔서 감사합니다
Please wait 5 minutes before posting another comment.
Comment sent for approval.

댓글 달기

더 보기