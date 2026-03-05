MoE 최적화 독자 양자화 기술로 성능 유지하며 경량화

[서울=뉴스핌] 이나영 기자 = AI 경량화 및 최적화 기술 기업 노타가 업스테이지의 대형언어모델(LLM) '솔라'의 메모리 사용량을 72.8% 줄이는 차세대 양자화 기술을 개발했다고 5일 밝혔다.

회사에 따르면 이번 개발은 과학기술정보통신부가 주도하는 '독자 AI 파운데이션 모델 프로젝트'의 일환으로 진행됐다. 노타는 업스테이지의 '솔라 오픈 100B'에 경량화·최적화 기술을 적용해 191.2GB에 달하던 메모리 사용량을 51.9GB까지 낮추는 데 성공했다. 성능 손실은 최소화하면서 메모리 효율을 크게 개선한 결과다.

특히 노타는 차세대 LLM 구조로 대중화되고 있는 'MoE(전문가 혼합 구조)'의 기술적 난제를 해결하는 데 초점을 맞췄다. 기존에는 전문가 모델별 특성을 고려하지 않고 모델 전체를 일괄적으로 압축하는 양자화 기법이 주를 이뤄왔다. 노타는 이러한 한계를 극복하기 위해 MoE 구조에 최적화된 독자 알고리즘인 '노타 MoE 양자화' 방법론을 개발했다.

노타 공식 허깅페이스 모델 페이지. [그래픽=노타]

또한 이번 기술은 모든 연산을 동일하게 줄이는 기존 방식과 달리 필요한 부분은 정밀도를 유지하고 덜 중요한 부분만 압축해 성능 손실을 최소화하면서 경량화를 구현했다는 점이 차별점이다. 성능지표인 PPL(Perplexity, 혼란도) 역시 6.81을 기록하며 원본 모델(6.06)과 유사한 수준을 유지했다. 일부 범용 양자화 기법의 경우 성능이 5배 이상 저하된 것과 대조적이다. 노타는 해당 기술에 대해 특허를 출원해 기술 경쟁력도 강화했다.

회사 측은 이번 성과로 100B 규모 초대형 모델 솔라의 메모리 사용량을 대폭 낮추면서도 성능은 유지해 모빌리티·로봇 등 피지컬 AI 환경에서 한국형 AI 파운데이션 모델을 보다 원활하게 활용할 수 있는 여건이 마련됐다고 설명했다. 기업들은 기존에는 탑재가 어려웠던 대용량 LLM도 자사 디바이스에 보다 손쉽게 구현할 수 있게 됐다.

이번 결과는 로봇이나 자동차 등 실제 온디바이스 AI 환경에서도 고성능 AI를 안정적으로 구현할 수 있는 기반을 마련했다는 점에서 의미가 크다. 고사양 GPU 인프라 확보에 어려움을 겪는 기업들이 동일한 하드웨어로 더 많은 사용자에게 신속한 AI 서비스를 제공할 수 있도록 해 운영 비용 절감에 직접적으로 기여할 수 있다는 평가다.

채명수 노타 대표는 "이번 성과는 한국형 AI 파운데이션 모델인 솔라 100B에 노타만의 양자화 기법을 적용해 메모리를 대폭 줄이면서도 성능을 유지했다는 점에서 의미가 크다"며 "디바이스에 대규모 모델을 구현해야 하는 수요가 커질수록 노타의 경량화·최적화 기술이 고성능 AI를 실현하는 핵심적인 역할을 해나갈 것"이라고 말했다.

