Photo by Aleks Marinkovic on Unsplash

하버드 대학, 무료 대규모 AI 교육 데이터베이스 공개

읽는 시간: 2 분

첫 발행일: Dec 13, 2024

게시 후 2회 업데이트 완료

작성자 안드레아 밀리아니 전 테크 뉴스 전문가
번역가 현지화 및 번역 팀 현지화 및 번역 서비스

하버드 대학교가 새로운 프로그램인 ‘Institutional Data Initiative (IDI)’를 통해 생성한 대규모 데이터 세트를 무료로 공개한다고 발표했습니다. 이 데이터 세트에는 AI 훈련을 위한 거의 백만 권의 공개 도메인 도서가 포함되어 있습니다.

서두르시는 분들을 위해, 빠른 요약을 드리겠습니다!

하버드 대학교가 구글 북스와 협력하여 AI 모델 학습을 위한 거의 100만 권에 달하는 공공 도메인 도서 데이터셋을 무료로 공개했습니다.
이 데이터셋은 마이크로소프트와 OpenAI가 지원하는 새로운 기관 데이터 이니셔티브에 의해 만들어졌습니다.
이 데이터 수집은 AI 분야에서 보다 공정하게 경쟁하기 위해 작은 조직들에게 이점을 제공할 수 있습니다.

IDI의 이사인 그렉 레퍼트에 따르면 이번 목표는 “경쟁의 평형을 맞추고” 더 많은 조직과 소규모 프로젝트가 가치 있는 도구를 가지고 AI 경쟁에 참여하게 하는 것입니다. 이 데이터 세트의 크기는 메타의 Llama 같은 인기 있는 AI 모델을 훈련시키는데 사용된 것보다 더 큽니다. 레퍼트는 “리눅스가 세계의 많은 부분에 대한 기본 운영 체제가 된 것처럼 생각합니다.”라고 말했습니다.

IDI는 공식적으로 오늘 시작되었으며, 오픈AI와 마이크로소프트가 자금 지원과 격려적인 말로 지원하였습니다. 이 계획은 정부 기관과 도서관과 같은 지식 기관들과 협력하여 “인공지능을 위한 데이터 컬렉션과 모범 사례를 개발”하는 것을 목표로 합니다. 새로운 데이터셋의 다운로드 방법에 대한 세부사항은 아직 공개되지 않았으며, 구글이 배포를 돕게 될 것이라는 사실만 공개되었습니다.

이 새로운 데이터 수집은 올해 많은 AI 회사들이 직면해온 저작권 침해에 대한 분쟁을 피할 수 있을 것입니다. “이런 대규모 공공 도메인 데이터셋들은 일부 AI 회사들이 자신들의 모델을 훈련시키기 위해 저작권이 있는 작품을 크롤링하는 것을 정당화하는 ‘필요성 방어’를 더욱 붕괴시킵니다.”라고 전 Stability AI의 이사였던 에드 뉴턴-렉스가 Wired에게 말했습니다.

뉴턴-렉스는 최근에 기술 회사들이 데이터를 크롤링하는 것을 중단하도록 청원을 이끌었습니다. 그는 현재 윤리적으로 훈련된 AI 도구를 인증하는 비영리 단체를 운영하고 있습니다.

하버드 대학, 무료 대규모 AI 교육 데이터베이스 공개

마음에 드셨다니 기쁩니다!

댓글 달기