
Photo by Ben Collins on Unsplash
ByteDance, 시장에서 가장 현실적인 딥페이크 도구 중 하나인 OmniHuman-1 소개
ByteDance의 연구자들, 즉 Tiktok의 모회사에서 이번 주에 이미지 및 기타 미디어를 기반으로 인간의 영상을 생성하는 새로운 AI 도구인 OmniHuman을 소개했습니다.
시간이 없으세요? 요약 정보를 확인해보세요!
- ByteDance는 단일 사진에서 실제적인 움직임, 스타일, 행동을 가진 비디오를 생성할 수 있는 최신 AI 도구인 OmniHuman-1을 소개했습니다.
- 연구 팀은 실제감 있는 딥페이크를 달성하기 위해 적용된 방법론과 전략에 대한 더 많은 세부 사항을 포함한 논문을 공유했습니다.
- OmniHuman은 아직 대중에게 공개되지 않았습니다.
AI 도구의 첫 버전인 OmniHuman-1은 사실적인 사진부터 애니메이션, 만화에 이르는 다양한 이미지 스타일을 지원하는 비디오를 생성할 수 있습니다. 또한 오디오와 음악 변주, 다양한 화면비, 사실적인 동작 이미지를 제공합니다. 중국 회사는 여러 데모를 통해 이 AI 모델의 능력을 선보였습니다.
“OmniHuman은 기존의 방법들을 크게 능가하며, 특히 오디오와 같은 약한 신호 입력에 기반하여 매우 사실적인 인간 동영상을 생성합니다,” 라고 바이트댄스의 팀이 월요일에 발표한 논문에서 언급했다. “이 도구는 초상화, 상반신, 또는 전신 이미지 등 어떠한 종횡비의 이미지 입력도 지원하며, 다양한 시나리오 전반에 걸쳐 더 생동감 있고 고품질의 결과를 제공합니다.”
연구팀은 “다중 모달 이동 조건 혼합 훈련 전략”을 사용했다고 설명하며, 도구의 능력을 여러 예시를 들어 보여주었습니다. 그 중에는 알버트 아인슈타인의 수업을 재현하는 것, 저작권이 없는 웹사이트의 이미지를 사용하여 연설을 시뮬레이션하는 것, 오디오 또는 비디오 매체에서 음악 공연을 생성하는 것 등이 포함되어 있습니다.
ByteDance의 연구팀은 사기 위험에 대해 경고하였습니다. 그들은 아직 AI 도구를 공개하지 않았고, 공개 일정도 공유하지 않았습니다. 그리고 다른 윤리적 문제들도 제기되었습니다. 이 회사는 모델의 성능을 보여주기 위해 사용된 이미지와 비디오가 공개된 소스에서 가져온 것임을 확신하게 하였습니다.
포브스에 따르면, 이 중국 회사는 새로운 모드를 훈련시키기 위해 18,700시간의 인간 비디오 데이터를 사용했습니다. 이미 여러 전문가들이 새로운 AI 도구에 대한 그들의 생각을 공유했습니다.
“단순한 사진에서 무언가를 만들어 내고, 그것이 실제로 말하고 움직이는 것처럼 보이게 하는 것은 기술적인 관점에서 매우 흥미롭지만, 많은 부정적인 결과를 초래할 수도 있다고” 뉴욕대학교(NYU) 스타인하르트 문화, 교육, 인간 발전 학부의 겸임 교수이며 PitchFWD의 창립자인 샘안사 G. 울프는 포브스와의 인터뷰에서 말했습니다. “사업 지도자나 정치 지도자의 가짜 버전이 정확하지 않은 것을 말하게 되면, 그것은 사업에 큰 영향을 미치거나, 나라에 큰 영향을 미칠 수 있다고”
울프의 우려는 업계의 여러 전문가들도 공유하고 있다. 최근 사이버 보안 전문가들은 고도로 진보된 AI를 이용해 생성된 딥페이크와 관련된 새로운 사기 행위에 대해 경고하였다.
댓글 달기
취소