조사 결과 애플, 엔비디아, 그 외 다른 회사들이 AI 훈련을 위해 유튜브 영상을 사용했다는 사실이 밝혀졌습니다
비영리 뉴스 스튜디오 Proof News와 Wired의 새로운 조사에 따르면, Anthropic, Nvidia, Apple, Salesforce와 같은 주요 AI 회사들이 YouTube의 허가 없는 수확에 대한 정책에도 불구하고 수천 개의 YouTube 비디오를 AI 모델을 훈련시키는 데 사용했다고 밝혀졌습니다.
기술 전문가들이 공개적으로 이용 가능한 훈련 데이터 세트를 분석하였고, 이들은 이러한 실리콘 밸리 회사들이 48,000개 이상의 채널에서 173,536개의 YouTube 비디오의 전사본을 사용했다는 것을 발견하였습니다.
Proof News는 유튜브 스타들인 미스터 비스트, 퓨디파이, 잭셉티카이, 마르케스 브라운리 등의 자료를 발견했다고 설명했습니다. 또한 MIT, 하버드, 칸 아카데미와 같은 교육 채널과 BBC, NPR, 월스트리트 저널과 같은 뉴스 매체의 콘텐츠도 찾아냈습니다. “지미 키멜 라이브”, “스티븐 콜베어와 함께하는 더 레이트 쇼”, “존 올리버와 함께하는 지난 주 투나잇” 같은 몇몇 인기 프로그램들도 연구에서 수집했다고 언급되었습니다.
이 데이터 세트은 ‘유튜브 자막’이라고 불렸으며, 아라비아어, 독일어, 일본어 등 여러 언어로의 번역도 포함되어 있습니다. 이 데이터 세트은 비영리 AI 연구 그룹인 EleutherAI에 의해 구축되었습니다.
EleutherAI가 발표한 논문에 따르면, 이 데이터 세트은 Pile이라는 컴파일의 일부로, 다른 소스의 자료도 포함하고 있습니다. Apple, Nvidia, Salesforce, Bloomberg, Databricks, 그리고 “AI safety”에 초점을 맞춘 Antropic은 연구 논문과 문서를 통해 Pile을 사용해 AI 모델을 훈련시켰다고 확인하였습니다.
Proof News도 어제 컨텐츠 제작자, 연구자, 그리고 일반 대중이 데이터베이스에서 사용된 비디오를 찾을 수 있도록 돕는 도구를 출시했습니다. 이 단체는 보도자료를 통해 “사용자가 직접 데이터를 검색할 수 있도록 도구를 만들었습니다”라고 설명하며, “검색 도구가 가끔 데이터 세트에 있는 채널과 비디오에 대해 잘못된 부정 결과를 반환할 수 있으니 주의하세요. 채널이나 비디오 제목을 정확히 입력하는 것이 중요합니다”라고 덧붙였습니다.
연구에 포함된 유튜버들도 그들의 우려와 분노를 표현했습니다. “이것은 도둑질입니다”라며 네뷸라의 CEO인 데이브 위스커스가 AI 모델을 훈련시키기 위해 그들의 콘텐츠가 사용된 사실을 알게 된 후 Proof News와 Wired에 밝혔습니다. “이것이 예술가들을 이용하고 해치는 데 추후 사용될까요? 그렇다고 봅니다.”
댓글 달기
취소