전체기사 최신뉴스 GAM
KYD 디데이
문화·연예 문화·연예일반

속보

더보기

국립국어원, 인공지능 학습용 한국어 자료 13종 18억 어절 공개

기사입력 : 2020년08월25일 08:51

최종수정 : 2020년08월25일 08:51

인공지능 스피커 등 대화형 서비스 증가 추세 반영

[서울=뉴스핌] 이현경 기자 = 국립국어원(원장 소강춘)은 인공지능의 한국어 처리 능력 향상에 필수적인 한국어 학습 자료 13종 18억 어절 분량을 국립국어원 '모두의 말뭉치' 홈페이지에 공개한다고 25일 밝혔다.

국립국어원에서 이번에 공개한 자료는 한국어 분야의 빅데이터라고 할 수 있다. 이를 전문 분야에서는 '말뭉치'라고 한다. 챗봇이나 인공지능 비서가 한국어를 자연스럽게 알아듣고 분석해 말할 수 있으려면 반드시 다양한 한국어 말뭉치로 학습을 해야 하기 때문에 한국어 인공지능 기술의 성능 향상이 좋은 한국어 말뭉치 확보에 달려 있다.

[서울=뉴스핌] 이현경 기자 = '모두의 말뭉치' 홈페이지 [사진=국립국어원] 2020.08.25 89hklee@newspim.com

이에 국립국어원은 2018년부터 인공지능 산업계와 관련 연구 기관 등에서 공공재로 활용할 수 있는 대규모 한국어 학습 자료 구축 사업을 시작했다. 이번에 공개하는 자료는 지난해 구축한 18억 어절 규모의 말뭉치다. 공개 자료는 국립국어원에서 저작권 문제를 해결해 구축한 것이며 '모두의 말뭉치' 사이트에서 온라인 약정서를 작성하고 승인받으면 누구나 파일을 내려받아 이용할 수 있다.

문화체육관광부와 국립국어원은 지난 1998년에서 2007년까지 '21세기 세종계획'을 추진해 약 2억 어절의 자료를 구축, 공개한 바 있다. 10여 년이 지난 뒤 이번에 다시 공개하는 자료는 예전보다 9배 많은 것으로, 그동안 공개된 학습 자료의 부족으로 곤란을 겪던 한국어 처리 기술이 든든한 지원군을 만날 수 있게 됐다.

이번에 구축한 자료에서는 지난 '21세기 세종계획'보다 일상 대화, 메신저, 웹 문서 등 구어체 자료의 비중을 높였다. 이는 최근 인공지능 스피커, 챗봇 등의 대화형 서비스가 늘어나면서 구어체 대화에 대한 관심과 요구가 높아지고 있는 추세를 반영한 것이다. 특히 일상 대화 자료의 경우 표준어 위주의 수집에서 한 단계 더 나아가 지역별, 연령별로 다양한 대화 자료를 수집해 인공지능 기술에서 지역별 방언도 처리할 수 있는 발판을 마련했다.

'모두의 말뭉치'에서 받을 수 있는 자료에는 최근 10년간의 신문 기사와 서적 2만188종, 그리고 일상생활에서 음성 대화와 메신저 대화, 방송 자료, 대본 등이 포함됐고, 각종 인터넷 사이트의 블로그, 게시판의 자료 210만건도 포함돼 다양한 한국어 사용 양상을 볼 수 있다.

또한 컴퓨터가 한국어를 더 잘 분석하고 이해할 수 있도록 한국어 자료를 더욱 정밀하게 형태, 구문, 의미, 개체 등의 언어 단위별로 분석한 자료 1100만 어절과 한국어에 대한 사용자의 직관과 판단 정보를 분석한 문법성 판단과 어휘 관계 자료 30만 건도 포함됐다.

국립국어원 관계자는 "초기 구축에 많은 비용과 시간이 소요되는 한국어 말뭉치의 대규모 공개로 한국어 인공지능 서비스를 개발하는 중소기업과 새싹기업 등이 따로 시간과 비용을 들이지 않고도 한국어 처리 기술 개발에 쉽게 접근하게 됐다"고 밝혔다. 이어 "대기업이나 관련 연구 기관 등도 대규모의 기초 자원을 제공받게 돼 사양한 서비스 개발과 성능 향상에 많은 도움을 받게됐다"고 분석했다.

소강춘 원장은 "국립국어원은 앞으로도 국어 전문 기관의 이점을 살려 날로 변화하는 언어를 신속하게 반영한 말뭉치와 다양한 고품질의 언어 자료를 지속적으로 구축, 공개하여 한국어 인공지능 기술을 뒷받침하는 한국어 자원의 중심 기관으로 자리매김하도록 노력하겠다"고 강조했다.

한편 국립국어원은 이번에 공개한 자료의 의의와 활용을 주제로 한 온라인 전문가 토론회를 10월 초에 개최할 예정이다.

89hklee@newspim.com

[뉴스핌 베스트 기사]

사진
뉴스핌 K컬처 플랫폼 'K·SPOT' 론칭 [서울=뉴스핌] 양진영 기자 = 종합뉴스통신사 뉴스핌이 K컬처 전문 글로벌 플랫폼 'K·SPOT' 유튜브 채널(https://www.youtube.com/@K%C2%B7SPOT_newspim)을 17일 공식 론칭했다. 'K·SPOT(@K·SPOT_newspim)'은 한국의 생생한 K컬처 현장을 전 세계에 전하는 K컬처 글로벌 플랫폼으로 영어·중국어·일본어 등 다국어 자막 서비스를 통해 글로벌 소통력을 강화한 것이 특징이다. 'This is K·SPOT – where K-culture comes alive.'라는 슬로건 아래, KPOP, K드라마, K라이프 등 한국 대중문화(K컬처) 전반을 조명한다. 특히, 전 세계의 언어 장벽을 허무는 다국어 자막 시스템을 기반으로 글로벌 팬층과의 연결을 강화했으며, 영어, 중국어, 일본어 지원과 함께 추후 스페인어, 힌디어 등 주요 언어로 확장할 예정이다. 채널명 'K·SPOT'은 한국(K) 문화의 중심 '스팟'을 의미하며, K컬처가 살아 숨 쉬는 현장에 스포트라이트를 비춘다는 의미를 담았다. K-컬처를 실시간으로 소비하는 글로벌 팬들과 그 현장을 연결하는 플랫폼으로 콘텐츠 소비의 지리적·언어적 경계를 허물며, KPOP 쇼케이스, 드라마 제작발표회 등 전 세계 팬들이 궁금해하는 바로 그 현장을 경험할 수 있는 디지털 K컬처 허브를 지향한다.  K·SPOT에서는 K라이징스타 힛지스를 시작으로 대중문화, 예술 분야 예비 스타들을 전 세계에 소개하며 다양한 K컬처 콘텐츠들도 두루 만나볼 수 있다.  ◆생생한 K-컬처 현장을 전달하는 글로벌 플랫폼 K·SPOT은 단순한 영상 채널을 넘어, 전 세계 어디서든 K컬처를 실시간으로 즐길 수 있도록 설계된 글로벌 플랫폼이다. 영어, 중국어, 일본어 등 다국어 자막 서비스를 제공해 언어 장벽을 낮추고, 다양한 문화권의 팬들이 동시 접속해 K-컬처를 함께 알아볼 수 있다. 'K·SPOT(@K·SPOT_newspim)' 채널 로고. 검색 뿐만 아니라 , 무음 시청·청각 장애인 접근성 향상 등도 도모할 예정이다.  뉴스핌은 K·SPOT은 단순한 K컬처 소개 채널에 머물지 않고, 다양한 언어와 콘텐츠 포맷을 아우르는 글로벌 문화 플랫폼으로 키울 예정이다. K컬처 심장부를 세계와 연결하며 글로벌 콘텐츠 생태계의 중심으로 도약한다는 계획이다. K·SPOT에서는 K컬처 모든 현장을 생생하게 포착하고, 전 세계 팬들과 소통하며, 디지털과 현실을 연결하는 진정한 K-컬처 허브로 자리매김할 계획이다. jyyang@newspim.com 2025-07-17 01:00
사진
충남 서산 시간당 114㎜ 폭우 [세종 = 뉴스핌] 김범주 기자 = 충청권과 중부지방을 중심으로 시간당 최대 100㎜가 넘는 강한비가 내리면서 주민 1070명이 대피하는 등의 피해를 입었다. 31개 항로에서 39척의 여객선이 운행을 멈췄고, 서울 등 90구역 하천변이 통제됐다. 중앙재난안전대책본부(중대본)는 17일 오전 10시 기준으로 이 같은 피해가 발생했다고 밝혔다. 호우경보는 세종, 충북, 충남, 경남에, 호우주의보는 서울, 대전, 광주, 경기, 강원, 전북, 전남 등에 각각 발효됐다. 전날 자정부터 이날 오전 10시까지 총 누적 강수량은 충남 서산이 가장 많은 419.5㎜로 집계됐다. 이어 홍성 411.4㎜, 당진 376.5㎜ 아산 349.5㎜, 태안 348.5㎜, 세종 324.5㎜, 충북 청주 276㎜, 경기 평택 262㎜ 등 이었다. 60분 기준 일최대 강수량은 서산 114.9㎜, 홍성 96.2㎜, 서천 98㎜, 경남 함안 70㎜ 등이었다. [서울=뉴스핌] 김학선 기자 = 서울에 폭우가 내리고 있는 17일 오전 서울 서초구 서울고검에서 청사 관계자들이 우비를 입고 이동하고 있다. 2025.07.17 yooksa@newspim.com 해당 지역을 중심으로 산사태 예보 발령도 발효됐다. ▲세종 ▲경기(평택, 안성) ▲충북(진천) ▲충남(천안, 공주, 보령, 아산, 서산, 논산, 당진, 부여, 청양, 홍성, 예산, 태안) 등 16개 지역에 경보가 내려졌다. 인명피해는 경기 1명, 충남 1명으로 집계됐다. 옹벽붕괴 1건, 도로 토사유실 2건 등으로 공공시설의 피해도 있었다. 이번 집중호우로 3개 시·도, 5개 시·군에서 313세대 1070명이 일시적으로 대피하는 피해도 발생했다. 아직 287세대 1041명이 귀가하지 못하는 것으로 집계됐다. 집중호우 지역 중심으로 통제도 있었다. 목포와 홍도, 격포와 위도, 군산과 어청도를 잇는 여객선이 통제됐다. 북한산 97개, 지리산 39개, 속리산 24개, 월악산 24개 등 총 15개 국립공원 374개 구간에서 시설 통제도 있었다. 지하차도는 충북 5개, 충남 5개, 경기 2개 등에, 도로는 인천 1개, 세종 1개, 경기 3개, 충북 1개, 충남 2개 등에 각각 통제가 이뤄졌다. [서울=뉴스핌] 류기찬 인턴기자 = 서울에 강한 비가 내리고 있는 17일 오전 서울 종로구 광화문광장 일대에서 시민들이 이동하고 있다. 2025.07.17 ryuchan0925@newspim.com 한편 중대본은 이날 오전 4시부로 중대본 1단계에서 2단계로 격상하고, 기상 상황을 실시간으로 모니터링 중이다. 또 환경부, 산림청과 같은 관계 부처와 협업을 강화해 비상근무 체제를 유지하기로 했다. 특히 서산, 당진, 태안 등 강수가 집중되고 있는 지역에는 재난문자 등을 통해 새벽시간 외출 자제, 위험지역 접근금지 등과 같은 국민행동요령을 집중적으로 홍보할 것을 당부했다. 지역재난안전대책본부에는 총 1만5708명이 비상근무 중이며 재난문자는 123건, 자동음성통보는 138회 등이 발송됐다. 이날 김민재 중앙재난안전대책본부 본부장(행안부 장관 직무대행)은 '집중호우 대처상황 긴급 점검회의'를 주재하고 "정부는 인명 피해를 최소화하기 위해 상황 대응에 만전을 기할 것"이라고 말했다. 특보 및 강수량 분포도/제공=행정안전부 wideopen@newspim.com 2025-07-17 13:39
안다쇼핑
Top으로 이동