Image by Firmbee.com, from Unsplash
구글의 Gemini 2.5, 실시간 오디오와 맞춤형 음성 도구 추가
구글은 Gemini 2.5 모델에서 기본 오디오 기능을 소개하며, 실시간 대화와 제어 가능한 텍스트-투-스피치(TTS) 생성에 대한 기본 지원을 확장했습니다.
시간이 촉박하신가요? 여기에 핵심 내용을 간략하게 정리해 두었습니다:
- 사용자들은 목소리나 프롬프트를 사용하여 음조, 악센트, 그리고 감정을 제어할 수 있습니다.
- 텍스트-투-스피치 기능은 표현력있고, 다양한 언어, 다중 스피커 오디오 생성이 가능합니다.
- 제미니는 배경 소음을 무시하고 관련성이 있을 때만 반응합니다.
Google은 공지했습니다 사용자와 개발자들이 이제 AI를 통해 말하기 대화를 나누고 오디오 컨텐츠를 생성할 수 있으며, 이를 위한 선택지로 24개 이상의 언어 옵션을 제공한다고 합니다.
Google은 Gemini 2.5가 이제 오디오로 직접적으로 발화를 생성하고 이해함으로써 사용자들이 보다 빠르고 자연스럽게 상호작용할 수 있게 되었다고 발표했습니다. 이 모델은 자연어 명령을 받아서 그 톤, 악센트, 그리고 스타일을 변경하며, 말의 쉼표와 속삭임과 같은 비언어적 특성들을 추가할 수 있습니다.
이 시스템은 Google 검색과 사용자 정의 API를 통해 대화 중에 관련 정보를 검색하도록 외부 도구 연결성을 유지합니다.
한 가지 기능은 맥락 인식력을 향상시키는 것을 목표로 합니다. Gemini 2.5 시스템은 배경 소음이나 대화를 감지하여 적절할 때만 응답을 제공합니다. 이 시스템은 오디오-비디오 이해를 지원하여, 비디오 피드나 공유된 화면 내용에 대해 분석하고 코멘트를 제공할 수 있게 해줍니다.
텍스트-투-스피치 컴포넌트 역시 업데이트되었습니다. 사용자는 이제 감정적인 어조 조정, 말하기 속도 제어, 발음 맞춤화, 그리고 다양한 화자의 오디오 출력 등 고급 기능으로 오디오 생성을 제어할 수 있습니다. 이러한 기능들은 스토리텔링, 공지사항, 팟캐스트 등 다양한 콘텐츠 유형과 함께 작동합니다.
구글은 Google AI 스튜디오 또는 Vertex AI를 통해 개발자들에게 Gemini 2.5 Pro 및 Flash 미리보기를 제공합니다. Flash 미리보기는 빠르고 저렴하게 사용할 수 있도록 서비스하며, 반면에 Pro는 복잡한 프롬프트에 대한 고급 기능을 제공합니다.
구글은 개발 중인 모든 AI 생성 오디오에 SynthID를 통한 워터마킹을 적용하여 투명성을 보장하고, 안전 목적으로 위험 평가를 수행하였습니다. 이 회사는 시스템을 대중에게 공개하기 전에 내부와 외부의 안전 평가를 실시하였습니다. 구글은 이러한 기능을 텍스트, 이미지, 비디오, 코드, 고급 오디오 사이에서 작동하는 다중모달 AI 시스템을 개발하는 노력의 일환으로 구현합니다.
댓글 달기
취소