
Image by Matheus Bertelli, from Pexels
DeepSeek의 AI가 스스로 생각하는 법을 배웁니다
중국 스타트업 DeepSeek와 Tsinghua University가 공동으로, 큰 컴퓨터나 비싼 자원 없이 인공지능 모델이 더 잘 빠르게 생각하는데 도움을 줄 수 있는 더 똑똑한 방법을 개발했다고 발표했습니다.
시간이 부족하신가요? 여기에 주요 사실들을 요약해두었습니다:
- DeepSeek는 자기 원칙 비판 조정(Self-Principled Critique Tuning, SPCT)을 사용하여 스스로 향상하는 AI를 만들었습니다.
- SPCT는 AI에게 자체 생성 규칙을 사용하여 자신의 작업을 평가하는 방법을 가르칩니다.
- 이 방법은 엄청난 계산 능력 없이도 성능을 향상시킵니다.
이번 돌파구는 Self-Principled Critique Tuning (SPCT)이라는 새로운 기법에서 나왔습니다. SPCT는 단순히 AI 모델을 더 크게 만들어 성능을 향상시키는 것과는 다릅니다 – SPCT는 많은 에너지와 컴퓨팅 파워를 필요로 하지 않고, AI가 스스로 만든 규칙 세트를 사용하여 자신의 작업을 판단하도록 가르칩니다.
이 시스템이 작동하는 방식은 내장된 “판사”를 통해 AI 응답이 내부 추론 규칙을 준수하고, 인간의 출력에 적합해 보이는지 확인합니다. AI가 탄탄한 응답을 제공하면 긍정적인 피드백을 받게 되어, 향후 유사한 질문에 대한 응답 능력을 향상시키는 데 도움이 됩니다.
DeepSeek는 이 방법을 DeepSeek-GRM 시스템의 일부로 구현합니다. 여기서 GRM은 Generative Reward Modeling을 의미합니다. GRM은 정확성과 일관성을 모두 향상시키기 위해 평행 검사를 수행하는 등, 전통적인 방법과는 다르게 작동합니다.
“우리는 확장 가능한 보상 생성 행동을 촉진하기 위해 Self-Principled Critique Tuning (SPCT)을 제안합니다,”라는 내용이 연구자들의 논문에 적혀 있습니다. “SPCT는 [모델]이 입력 쿼리와 응답에 기반하여 적응적으로 원칙과 비평을 제시하도록 해, 더 나은 결과 보상을 얻을 수 있게 합니다.”
이 시스템을 통해 DeepSeek는 이제 Google의 Gemini, Meta의 Llama, 그리고 OpenAI의 GPT-4o와 같은 경쟁사들보다 더 우수한 성능을 발휘할 수 있다고 주장하며, 이는 특히 추론이나 의사결정과 같은 복잡한 작업에서 그렇다고 Euronews에서 지적했습니다.
중요한 점은, 딥시크(DeepSeek)가 이 새로운 도구들을 오픈소스 소프트웨어로 공개할 계획이라고 밝혔다는 것입니다. 다만 아직 공개 일정은 공유되지 않았습니다.
댓글 달기
취소