텍스트·이미지·음성 통합 학습한 옴니 파운데이션 모델 첫 성과
데이터 차별화·단계적 스케일업 기반 확장 전략 제시
[서울=뉴스핌] 양태훈 기자 = 네이버클라우드가 옴니모달 기반 하이퍼클로바X를 공개하며, 현실 세계 이해를 위한 차세대 AI 파운데이션 모델과 단계적 확장 전략을 제시했다.
29일 네이버클라우드는 과학기술정보통신부의 '독자 AI 파운데이션 모델' 프로젝트 주관 사업자로 추진 중인 '옴니(Omni) 파운데이션 모델' 개발 과제의 첫 성과로, 옴니모달 기반 하이퍼클로바X 모델 2종을 공개했다고 밝혔다.
이번에 공개된 모델은 텍스트·이미지·오디오 데이터를 단일 구조에서 함께 학습한 네이티브 옴니모달 모델 'HyperCLOVA X SEED 8B Omni'와, 기존 추론형 AI에 시각 이해·음성 대화·도구 활용 역량을 결합한 'HyperCLOVA X SEED 32B Think'다. 네이버클라우드는 두 모델을 오픈소스로 공개해 일상과 산업 현장에서 활용 가능한 AI 에이전트 구현을 본격화한다는 계획이다.

HyperCLOVA X SEED 8B Omni는 서로 다른 형태의 데이터를 하나의 의미 공간에서 통합적으로 이해하도록 설계된 네이티브 옴니모달 구조를 적용했다. 네이버클라우드는 이를 통해 말과 글, 시각·음성 정보가 복합적으로 작동하는 현실 환경에서 활용도가 높은 차세대 파운데이션 모델의 기반을 마련했다고 설명했다.
네이버클라우드는 옴니모달 AI 경쟁력 강화를 위해 기존 인터넷 문서·이미지 중심 학습을 넘어, 생활 맥락과 공간적 특성이 반영된 현실 세계 데이터 확보에 주력한다는 전략이다.
성낙호 네이버클라우드 하이퍼스케일 AI 기술 총괄은 "데이터 다양성이 확보되지 않으면 AI의 문제 해결 능력도 제한될 수밖에 없다"며 "현실 세계를 반영한 차별화된 데이터 축적이 선행돼야 한다"고 말했다.
회사 측은 네이티브 옴니모달 구조가 기존 멀티모달 방식보다 확장성이 높다는 점에 주목해, 단계적인 스케일업과 함께 산업·서비스별 특화 모델을 효율적으로 확장할 방침이다. 해당 모델은 텍스트 지시를 기반으로 이미지 생성·편집까지 수행하는 옴니모달 생성 기능도 갖췄다.
아울러 공개된 HyperCLOVA X SEED 32B Think는 복합 입력을 이해하고 문제를 해결하는 옴니모달 에이전트 구현을 목표로 개발됐다. 글로벌 AI 평가 기관인 Artificial Analysis의 주요 벤치마크 지수에서 글로벌 주요 모델과 유사한 성능 범위에 위치했으며, 한국어 기반 종합 지식과 시각 이해, 도구 활용 능력 등 실사용 중심 항목에서 경쟁력을 보였다고 네이버클라우드는 설명했다.
해당 모델로 대학수학능력시험 문제를 풀이한 결과 국어·수학·영어·한국사 주요 과목에서 1등급 수준의 성과를 기록했으며, 영어와 한국사에서는 만점을 받았다. 네이버클라우드는 이미지 입력을 직접 이해해 문제를 해결했다는 점에서 기존 방식과 차별화된다고 덧붙였다.
성 총괄은 "AI의 감각과 추론 능력을 함께 강화했을 때 현실 문제 해결력이 크게 높아진다는 점을 확인했다"며 "기본기를 갖춘 구조 위에서 점진적인 스케일업을 통해 실질적으로 활용 가능한 AI로 발전시키겠다"고 말했다.
네이버클라우드는 옴니모달 하이퍼클로바X를 기반으로 검색·커머스·콘텐츠·공공·산업 현장 등 다양한 영역에서 AI 에이전트를 단계적으로 확장해 '모두의 AI' 구현에 속도를 낼 계획이다.
dconnect@newspim.com












