115억·23억 파라미터 모델 모두 상업적 활용 가능
Ko-Sovereign 등 벤치마크서 주요 AI 모델 성능 상회
한국적 데이터 기반 AI 대중화 및 글로벌 경쟁력 강화
[서울=뉴스핌] 양태훈 기자 = KT가 한국적 언어와 문화를 반영한 대규모 언어모델 '믿:음 2.0'을 오픈소스로 공개하며 국내 AI 생태계 활성화에 본격적으로 나섰다.
3일, KT는 자체 개발한 한국형 대규모 언어모델(LLM) '믿:음 2.0'의 오픈소스를 AI 개발 플랫폼 허깅페이스(HuggingFace)를 통해 공개한다고 밝혔다. 이번 공개 모델은 누구나 제약 없이 상업적으로 활용할 수 있도록 설계됐다.
KT는 '한국적 AI'라는 철학 아래 한국 사회의 맥락과 언어·문화적 특성을 반영한 AI 개발에 집중해왔다. 믿:음 2.0은 그 일환으로, 115억 파라미터 규모의 '믿:음 2.0 Base'와 23억 파라미터 규모의 '믿:음 2.0 Mini' 두 종류로 구성되며, 한국어와 영어를 모두 지원한다.
![]() |
사진은 KT 기술혁신부문 연구원들이 서초구 KT 우면연구센터에서 믿:음 2.0을 테스트하고 있는 모습. [사진=KT] |
이 중 Base 모델은 범용 서비스에 적합하고, Mini는 지식 증류를 거친 소형 모델이다. KT는 국내 최초로 110억 파라미터 이상 한국어 모델을 상업적 오픈소스로 공개하며, 자사 AI 고객센터, 지니TV, AI 전화 등 다양한 서비스에서의 활용 경험을 바탕으로 실용성과 신뢰성을 확보했다고 밝혔다.
믿:음 2.0은 고려대학교와 공동 개발한 한국어 AI 평가 지표 'Ko-Sovereign'에서 국내외 주요 오픈소스 모델을 능가하는 성능을 보였다. 또한 한국 전문 지식 이해도를 평가하는 'KMMLU'와 한국어 언어모델 기준인 'HAERAE'에서도 우수한 점수를 기록했다.
모델 개발에는 국내 교육·문학·법률·특허 등 방대한 한국 특화 데이터가 활용됐으며, 저작권 문제를 피하기 위해 고품질 데이터를 선별하고 가공하는 'Responsible AI' 원칙도 적용됐다. 한국어 구조를 반영한 자체 토크나이저 개발과 데이터 합성 기술도 도입해 한국어에 최적화된 표현력을 갖췄다.
민족문화연구원과의 산학 협력으로 학술적 신뢰성을 높였고, 리벨리온과의 협업을 통해 국산 AI 반도체 환경에서의 최적화도 진행됐다. 프렌들리AI와는 별도 설치 없이 허깅페이스에서 체험 가능한 환경도 마련했다.
KT는 향후 마이크로소프트와 협력해 GPT-4 기반의 한국형 커스터마이징 모델도 순차적으로 선보일 계획이다. 앞서 KT는 국내 AI 대중화를 위해 자체 모델과 글로벌 최고 수준의 SOTA(State of the Art) 모델을 병행 활용하며 한국 특화 AI 개발에 집중해왔다.
신동훈 KT Gen AI Lab장(CAIO)은 "믿:음 2.0은 고도화된 한국형 AI 모델로, 국내 사용자에게 새로운 대안을 제시함과 동시에 글로벌 시장에서도 경쟁력을 갖추는 계기가 될 것"이라고 전했다.
dconnect@newspim.com