시각 추론서 유의미한 결과…큐원·GPT 제쳐
네이버가 '생각하는 힘'을 의미하는 추론 능력을 강화한 생성형 인공지능(AI) 모델 개발을 마쳤다. AI 모델이 직접 답변계획을 수립하는 만큼 더 고도화된 답변이 가능하며, 언어뿐만 아니라 시각 정보를 이해해 추론하는 능력도 갖췄다.
네이버는 30일 추론(reasoning) 능력을 강화한 생성형 AI '하이퍼클로바X 씽크'(HyperCLOVA X THINK(하이퍼클로바X 씽크)의 테크니컬 리포트를 발표했다.
이번에 공개된 모델은 스스로 단계적으로 생각해 더 정확하고 유용한 답변을 내놓는 추론능력을 강화했다. 추론은 AI 에이전트 서비스의 핵심적인 기술로 주목받고 있다. 추론모델은 단순히 응답하는 데 그치지 않고, 복잡한 문제를 작은 단위로 나누고 답변하기에 적절한 도구나 함수를 선택한다.
하이퍼클로바X 씽크는 추론 능력을 기반으로 언어에 대한 이해를 한층 높은 수준으로 끌어올렸다. 한국어 성능 벤치마크인 '코발트(KoBALT)-700'를 기준으로 언어능력을 측정한 결과, 하이퍼클로바 X 씽크는 48.9점을 기록했다. LG AI 연구원의 '엑사원 딥(32B)', 알리바바의 '큐원3(32B)'는 각각 33.0, 41.4였다.
또다른 한국어 성능 평가 벤치마크인 '해례-벤치'(HAERAE-Bench)에서는 87.8을 기록했다. 비슷한 규모의 엑사원, 큐원이 70점대를 기록한 것과 비교하면 월등히 높은 점수다.
네이버는 하이퍼클로바X 씽크를 통해 AI가 언어뿐 아니라 시각 정보를 바탕으로도 추론할 수 있는 기술을 확보했다.
이 모델은 'STEM'(과학·기술·공학·수학) 문제를 이미지 형식으로 입력했을 때 이를 인식해 추론하고, 정답을 맞히는 모습을 보였다. 한국 교육기반 벤치마크인 'KCSAT STEM'를 기준으로, 시각 인코더와 결합한 멀티모달 버전은 46.4점을 기록했다. 이는 GPT-4.1의 40.3점을 뛰어넘는 수준이다.
유강민 네이버클라우드 리더는 "이번 추론모델은 멀티모달 추론을 겨냥해 만든 것이 아님에도 시각 추론 영역에서 의미 있는 결과가 도출됐다"면서 "이미 하이퍼클로바X 기반의 이미지, 영상, 음성 멀티모달 기술을 확보하고 있으므로, 향후 더 강력한 멀티모달 추론 능력을 갖춘 모델로 고도화해나가겠다"고 말했다.