전체기사 최신뉴스 GAM
KYD 디데이
경제 과학기술

속보

더보기

서울과기대·테디썸, 라마3-70B 기반 한글 특화 LLM '블라썸' 세계최초 공개

기사입력 : 2024년05월09일 14:21

최종수정 : 2024년05월09일 14:21

라마3 70B 모델에 한국어 확장 첫 사례
업스테이지·솔트룩스·마음AI에 도전장
블라썸, 기본 모델 대비 89% 답변 향상

[세종=뉴스핌] 이경태 기자 = 국내 연구진과 인공지능(AI) 기업이 공동연구를 통해 메타의 오픈소스 거대언어모델(LLM)을 활용한 한국어 어휘 확장 대형 모델을 세계 최초로 개발했다. 

이미 오픈소스 기반 LLM 개발 업체인 업스테이지, 솔트룩스, 마음AI에 한발 앞선 기술력으로 도전장을 내민 셈이다.

서울과학기술대학교 다층퍼셉트론(MLP)연구실과 테디썸은 9일 오후께 한국어 최초 70B급 한국어-영어 초거대 언어모델 블라썸(Bllossom)을 완전 공개했다. 이는 현재 가장 좋은 성능으로 평가받는 공개 언어모델인 라마3(LLama3-70B) 기반 모델 중 어휘 확장 모델로는 전세계에서 최초로 꼽힌다.

메타는 지난달 18일(현지 시간) 자체 개발한 오픈소스 거대언어모델(LLM)인 라마(Llama)의 3세대 버전을 무료로 출시했다. 라마 3는 8B 및 70B 매개변수 두 모델로 우선 공개됐다. 라마3은 15조 개의 토큰으로 학습됐다. 

이 가운데 70B 모델은 오픈AI가 개발한 GPT-3.5보다 성능이 좋고 GPT4 성능에 근접한 수준이라는 평가를 일부 받는다. 라마3는 한국어에 특화돼 있는 모델로 평가된다.

테디썸이 라마3 70B 모델을 활용해 자체 개발한 한국어 특화 확장 거대언어모델인 '블라썸'을 허깅페이스에 9일 게재했다. 실제 전체 공개는 이날 오후께 진행된다. [사진=테디썸] 2024.05.09 biggerthanseoul@newspim.com

서울과기대와 테디썸은 라마3 70B모델에 추가적인 어휘확장을 했다.

어휘 확장은 특정 언어의 단어를 추가해 심층적인 표현이 가능하도록 하는 방법이다. 70B급 거대 언어모델은 어휘를 확장하면 새로운 어휘의 표현학습을 위해 엄청난 추가 학습시간 및 비용이 소요된다. 이렇다보니 70B급 모델에 어휘확장이 시도된 사례는 한국어에서는 아직 찾아볼 수 없다. 

이번 블라썸 모델은 서울과기대 슈퍼컴퓨팅센터의 컴퓨팅 지원을 토대로 대량의 GPU를 활용해 어휘확장 및 영어-한국어 지식 연결 학습이 가능했던 것으로 파악됐다.

임경태 서울과기대 인공지능응용학과 교수 연구팀은 이번 모델 개발을 위해 ▲한국어 표현력 강화를 위한 3만개가 넘는 한국어 어휘 추가 ▲한국어 어휘 표상 학습을 위한 대규모 사전학습 ▲한국어-영어 지식 연결을 위한 Parallel 학습 ▲한국어-영어 지식 표현을 위한 지시미세조정(Instruction Tuning) ▲사용자 피드백(feedback) 기반의 강화학습 등을 진행했다.

방대한 영어 지식을 한국어와 연결시키기 위해 직접 구축한 병렬(Parallel) 데이터 셋을 활용했다는 점과 언어학자들이 직접 구축한 정교한 지시미세조정 데이터가 성능을 크게 향상시켰다는 점이 이번 모델 개발에서 주목할 만한 요소다.

테디썸은 이번에 개발한 모델을 전체 공개해 개별적인 추가 학습과 상업적 이용이 가능하다는 점을 강조했다.

이번 모델은 한국어 토큰 확장으로 인해 25% 확장된 컨텍스트 활용이 가능하다. 인간평가와 GPT4 한국어 답변 선호도 평가 결과 GPT3.5와 유사하거나 약간 앞선 결과를 보인 바 있다. 라마3 70B 기본모델 대비 한국어 답변에 대해 89% 더 높은 답변 선호도 평가를 기록했다.

테디썸은 이미 8B 소형 모델은 전세계 기술 공유 플랫폼인 허깅페이스에 공개됐고 70B 거대모델도 이날 함께 공개했다. 개인 GPU에서 작동 가능한 4bit 양자화된 모델과 직접 활용해볼 수 있는 데모도 함께 내놓는다.

함영균 테디썸 대표는 "기존 빅테크에서만 연구개발하고 공개되지 않던 70B 거대 모델을 중소규모 회사 및 연구 그룹에서도 활용할 수 있도록 초거대 언어모델의 민주화에 기여했다는 점에서 의미있는 첫 발자국이라 생각한다"고 말했다.

한편 국내에서 라마3 소형 모델인 8B를 기반으로 자체 LLM 모델을 개발해 공개한 기업은 솔트룩스, 마음AI 등이다. AI 기업 데이터드리븐의 이준범 수석 AI 연구원도 개인적으로 8B 기반 모델을 공개한 바 있다.

biggerthanseoul@newspim.com

[뉴스핌 베스트 기사]

사진
[이재명의 사람들] 국정 로드맵 짤 이한주 [서울=뉴스핌] 윤채영 기자 = 이재명 정부의 5년 국정 로드맵을 짤 이한주 국정기획위원장은 이재명 대통령과 '30년지기'인 최측근 인사다. 이 원장과 이 대통령의 인연은 '성남'에서 시작됐다. 이 원장이 가천대 교수이던 시절 경기 성남시에서는 신도시 개발 문제, 광주대단지 사건 등 여러 문제가 터졌다. 두 사람은 시민운동에서 마음이 맞아 현재 인연으로 이어졌다. [서울=뉴스핌] 윤창빈 기자 = 이한주 국정기획위원장. 지난해 민주연구원장 시절 뉴스핌과의 인터뷰. 2024.06.11 pangbin@newspim.com 이 원장은 지난해 뉴스핌과 인터뷰에서 이 대통령과의 관계에 대해 상세히 털어놨다. 그는 "필요하면 서로 불러대고 하는 관계"라며 친밀함을 여과없이 드러냈다. 이 원장은 이 대통령이 성남시장이던 시절 모라토리엄(지불유예) 선언을 계기로 더욱 가까워졌다고 했다. 그는 "성남시에서 사회적 기업, 사회적 협동조합을 100개 이상 만드는 데도 같이 했고 기본소득의 원조라고 얘기할 수 있는 청년 기본소득도 성남에서 민선 5기, 6기를 거치면서 많은 사회 실험을 했다"고 전했다. 이 대통령이 2022년 대선에서 메인 정책으로 꺼낸 '기본소득'도 이 원장의 작품이다. 당시 대선 패배로 기본소득 정책은 다소 후퇴했지만, 대신 '기본사회'를 꺼내들었다. 이 대통령은 당대표이던 시절 당대표 직속 기본사회위원회를 구성해 인간이 먹고 사는 문제와 직결된 기본권 강화 등에 주력했다. 이번 대선에서도 기본사회 공약을 강조했으며, 대통령 직속의 기본사회위도 꾸릴 예정이다. 이처럼 '기본 시리즈'를 고안한 인물로 이 대통령의 꾸준한 신임을 얻고 있는 셈이다. 두터운 의리로 민주당의 공약 개발을 하는 민주연구원장에 이어 국정 밑그림을 그리는 국정기획위원장을 맡게 됐다고 볼 수 있다. 이 원장은 현 정부·여당이 전국민에게 25만원을 줄지 선별적으로 지급할지에 논의 중인 데 대해서도 지난해 뉴스핌과 인터뷰에서 입장을 밝힌 바 있다. 그는 "정부는 예산이 많이 들고, 선별적으로 줘야 한다는 인식이 있다. 정 그렇다고 한다면, 가난한 사람한테 더 주는 것을 나쁘다고 생각하지 않겠다"고 했다. 해당 발언은 당시 야당 입장에서였다.  이 원장은 선별 지급이 기본소득의 고유 이념에 대해서는 후퇴한 것이라고 했지만 "전국민 지급을 끝까지 우겨야 할 사안은 아니"라고 했다. 이 원장은 16일 출범하는 국정기획위원회에서 정부 조직개편과 국정과제를 정리하며 이재명 정부의 5개년 국정 밑그림을 약 50일간 짤 예정이다.  ▲1956년 서울 출생 ▲서울대학교 생물학 학사, 경제학 석·박사 ▲가천대 경제학과 교수 ▲경기연구원 원장 ▲민주연구원 원장 ▲2025년 대선 더불어민주당 선거대책위원회 정책본부장 ▲이재명 정부 국정기획위원장  ycy1486@newspim.com 2025-06-16 06:00
사진
국민의힘 신임 원내대표 송언석 [서울=뉴스핌] 신정인 기자 = 송언석 국민의힘 신임 원내대표는 16일 김용태 비상대책위원장이 제안한 5대 개혁안 당원 여론조사와 관련해 "종합적으로 고려해 혁신의 논의가 돼야 한다"고 했다. 송 원내대표는 이날 서울 여의도 국회 본관에서 '국민의힘 원내대표 선출 의원총회'가 끝난 뒤 기자들과 만나 "여러 의원들의 견해가 다르고 김 비대위원장 스스로 상임고문님들이랑 얘기할 때도 몇가지 부분은 곤란하단 의사 표현을 했다고 들었다"며 이같이 말했다. [서울=뉴스핌] 윤창빈 기자 = 송언석 국민의힘 신임 원내대표가 16일 오후 서울 여의도 국회에서 열린 2025 국민의힘 원내대표 선출 의원총회에서 당선 소감을 말하고 있다. 2025.06.16 pangbin@newspim.com 그는 당 혁신위원회 구성에 대해선 "아무래도 당을 사랑하는 마음이 일차적이고, 그런 점에서 특정 계파에 편향적으로 알려진 분들은 이번 인선에서 2차적으로 평가되지 않을까 한다"고 했다. 송 원내대표는 김 비대위원장의 임기 문제와 전당대회 시기를 묻는 질문엔 "조속히 정리해 특별한 반대가 없으면 (전당대회를) 조기에 개최할 수 있게 하겠다. 실무적 절차가 있어서 일정 시간이 필요하다"고 했다. 그러면서 "6월 말 이후에 어떻게 할 거냐는 문제가 발생할 건데 만약 비대위의 임기를 더 가져가야 할 일이 있으면 이헌승 전국위원장과 상의해서 하겠다"고 덧붙였다. 그는 윤석열 전 대통령의 파면에 대한 질문에는 "헌법 질서 속에 있었던 탄핵 결과에 승복하고 모든 것이 끝난 상태"라며 "잘못한 게 있으면 인정하고 반성 할 용의가 있고 그렇게 해왔다"고 했다. 송 원내대표는 같은날 선출 직후 연합뉴스TV와 인터뷰에서 '변화와 쇄신'을 강조했다. 그는 "변화와 쇄신을 통해서 앞으로 성장하도록, 미래에 갈 수 있도록 우리 당이 국민의 마음을 더 얻을 수 있도록 최선을 다하겠다"며 "서로 협상할 것은 협상하고, 또 투쟁할 것은 투쟁하면서 의원님들의 총의에 따르겠다"고 했다. 상법개정안과 관련해선 "주주 충실의무에 대해 다시 한번 논의가 필요하다"며 "김병기 더불어민주당 원내대표와 함께 상의하도록 하겠다"고 밝혔다. 김민석 국무총리자와 관련한 각종 의혹에 대해선 "국민들께 소상히 밝히는 게 먼저 우선순위로 해야 할 도리"라며 "김민석 후보자를 지명한 이재명 대통령도 지명 철회라든지 이런 부분에 대해서 미리 고민을 해 두시는 게 좋지 않겠나"라고 했다.  allpass@newspim.com 2025-06-16 17:10
안다쇼핑
Top으로 이동