하버드 대학, 무료 대규모 AI 교육 데이터베이스 공개
하버드 대학교가 새로운 프로그램인 ‘Institutional Data Initiative (IDI)’를 통해 생성한 대규모 데이터 세트를 무료로 공개한다고 발표했습니다. 이 데이터 세트에는 AI 훈련을 위한 거의 백만 권의 공개 도메인 도서가 포함되어 있습니다.
서두르시는 분들을 위해, 빠른 요약을 드리겠습니다!
- 하버드 대학교가 구글 북스와 협력하여 AI 모델 학습을 위한 거의 100만 권에 달하는 공공 도메인 도서 데이터셋을 무료로 공개했습니다.
- 이 데이터셋은 마이크로소프트와 OpenAI가 지원하는 새로운 기관 데이터 이니셔티브에 의해 만들어졌습니다.
- 이 데이터 수집은 AI 분야에서 보다 공정하게 경쟁하기 위해 작은 조직들에게 이점을 제공할 수 있습니다.
와이어드에 따르면, 이 데이터셋은 구글 북스에서 스캔한 저작권이 더 이상 보호받지 않는 출판물들을 포함하고 있습니다. 보통 저자의 사망 후 70년이나 출판 후 70년이 지나면 저작권이 만료됩니다. 이 데이터 수집은 찰스 디킨스, 셰익스피어, 다누테와 같은 유명 작가들의 창작 글부터 교과서와 사전에 이르기까지 다양한 형식과 장르를 아우릅니다.
IDI의 이사인 그렉 레퍼트에 따르면 이번 목표는 “경쟁의 평형을 맞추고” 더 많은 조직과 소규모 프로젝트가 가치 있는 도구를 가지고 AI 경쟁에 참여하게 하는 것입니다. 이 데이터 세트의 크기는 메타의 Llama 같은 인기 있는 AI 모델을 훈련시키는데 사용된 것보다 더 큽니다. 레퍼트는 “리눅스가 세계의 많은 부분에 대한 기본 운영 체제가 된 것처럼 생각합니다.”라고 말했습니다.
IDI는 공식적으로 오늘 시작되었으며, 오픈AI와 마이크로소프트가 자금 지원과 격려적인 말로 지원하였습니다. 이 계획은 정부 기관과 도서관과 같은 지식 기관들과 협력하여 “인공지능을 위한 데이터 컬렉션과 모범 사례를 개발”하는 것을 목표로 합니다. 새로운 데이터셋의 다운로드 방법에 대한 세부사항은 아직 공개되지 않았으며, 구글이 배포를 돕게 될 것이라는 사실만 공개되었습니다.
이 새로운 데이터 수집은 올해 많은 AI 회사들이 직면해온 저작권 침해에 대한 분쟁을 피할 수 있을 것입니다. “이런 대규모 공공 도메인 데이터셋들은 일부 AI 회사들이 자신들의 모델을 훈련시키기 위해 저작권이 있는 작품을 크롤링하는 것을 정당화하는 ‘필요성 방어’를 더욱 붕괴시킵니다.”라고 전 Stability AI의 이사였던 에드 뉴턴-렉스가 Wired에게 말했습니다.
뉴턴-렉스는 최근에 기술 회사들이 데이터를 크롤링하는 것을 중단하도록 청원을 이끌었습니다. 그는 현재 윤리적으로 훈련된 AI 도구를 인증하는 비영리 단체를 운영하고 있습니다.
댓글 달기
취소