
Photo by Sebastien Bonneval on Unsplash
미국 연구자들이 50달러 미만으로 고급 추론 모델 만들어
워싱턴 대학교와 스탠포드 대학교의 AI 연구자들이 클라우드 컴퓨팅 크레딧으로 $50 미만으로 AI 추론 모델을 학습시켰습니다. 이 모델의 이름은 s1입니다. 이 팀은 이번 월요일에 s1: Simple test-time scaling이라는 제목의 논문을 발표하였고, 그들의 방법론에 대한 더 자세한 내용을 공개하였습니다.
시간이 없으신가요? 여기 요약 정보가 있습니다!
- 워싱턴 대학교와 스탠퍼드 대학교의 AI 연구자들이 AI 추론 모델을 50달러 미만으로 훈련시키고 이번 월요일에 그들의 연구 결과를 공유했습니다.
- 그들은 1,000개의 질문 데이터셋을 이용하여, 정제(distillation) 기법, 테스트 시간 스케일링, 그리고 감독하에 세밀조정하는 접근법을 사용했습니다.
- 이 모델 s1은 DeepSeek R1과 OpenAI o1와 유사한 성능을 보여줍니다.
TechCrunch에 따르면, 이 새로운 모델은 DeepSeek의 R1이나 OpenAI의 o1과 같은 고급 모델들과 유사한 성능을 보여주며, GitHub에서 사용할 수 있습니다.
AI 모델 개발을 위해 연구자들은 더 큰 AI 모델이 작은 모델에 데이터를 제공하는 과정인 ‘증류’ 과정을 적용하였습니다. 이는 Google의 Gemini 2.0 Flash Thinking Experimental에서 추론능력을 얻는데 사용되었습니다.
이 과정은 AI 산업에서 점점 인기를 얻고 있습니다. OpenAI는 DeepSeek가 이 과정을, 허가 없이, 고급 추론 모델 개발에 사용했다고 주장하고 있습니다. UC 버클리의 Sky Computing Lab 연구자들도 최근 이 기술을 사용하여 $450 미만으로 추론 모델을 훈련시키는 데 성공하였습니다. 이로 인해 실리콘 밸리에서 논쟁이 일어나고 있으며, 대형 AI 회사들 사이에서 분노가 일어나고 있습니다.
s1 모델을 개발하는 연구자들은 또한 “테스트 시간 스케일링” 접근법을 고려했습니다 – 모델이 답변을 제공하기 전에 더 많이 멈추고 추론하도록 강제함으로써- 그리고 사전 훈련된 모델로부터 지도 학습 세부 조정을 수행하여 AI 추론 모델을 구축했습니다.
“테스트 시간 컴퓨팅을 제어하기 위해 강제 종료 또는 ‘Wait’를 모델의 생성물에 여러 번 추가함으로써 모델의 사고 과정을 길게 만드는 예산 강제를 개발하였습니다.”라고 논문에 명시되어 있습니다. “이것은 모델이 그의 답변을 다시 확인하게 하여, 종종 잘못된 추론을 수정하는 데 도움이 될 수 있습니다.”
전문가들은 Nvidia H100 GPU를 사용해 작은 데이터베이스와 다른 기술 및 AI 모델을 활용하여 30분 미만의 시간 동안 모델을 훈련시키기 위해 1,000개의 선별된 질문과 답변으로 구성된 데이터 세트를 사용했습니다. 이를 통해 작은 데이터베이스와 다른 기술, 그리고 AI 모델을 활용하여 고급 결과를 얻을 수 있다는 것을 보여주었습니다.
연구자들은 “OpenAi의 o1과 DeepSeek의 R1과 같은 최근의 추론 발전은 투명성이 부족하며, 이는 연구의 폭넓은 진보를 제한하고 있다”라고 썼습니다. “우리의 작업은 완전히 열린 방식에서 추론의 경계를 밀어내는 것을 목표로 하며, 혁신과 협업을 촉진하여 결국 사회에 이익을 가져오는 진보를 가속화하고자 한다.”
댓글 달기
취소