전체기사 최신뉴스 GAM
KYD 디데이
문화·연예 문화·연예일반

속보

더보기

국립국어원, 인공지능 학습용 한국어 자료 13종 18억 어절 공개

기사입력 :

최종수정 :

※ 본문 글자 크기 조정

  • 더 작게
  • 작게
  • 보통
  • 크게
  • 더 크게

※ 번역할 언어 선택

인공지능 스피커 등 대화형 서비스 증가 추세 반영

[서울=뉴스핌] 이현경 기자 = 국립국어원(원장 소강춘)은 인공지능의 한국어 처리 능력 향상에 필수적인 한국어 학습 자료 13종 18억 어절 분량을 국립국어원 '모두의 말뭉치' 홈페이지에 공개한다고 25일 밝혔다.

국립국어원에서 이번에 공개한 자료는 한국어 분야의 빅데이터라고 할 수 있다. 이를 전문 분야에서는 '말뭉치'라고 한다. 챗봇이나 인공지능 비서가 한국어를 자연스럽게 알아듣고 분석해 말할 수 있으려면 반드시 다양한 한국어 말뭉치로 학습을 해야 하기 때문에 한국어 인공지능 기술의 성능 향상이 좋은 한국어 말뭉치 확보에 달려 있다.

[서울=뉴스핌] 이현경 기자 = '모두의 말뭉치' 홈페이지 [사진=국립국어원] 2020.08.25 89hklee@newspim.com

이에 국립국어원은 2018년부터 인공지능 산업계와 관련 연구 기관 등에서 공공재로 활용할 수 있는 대규모 한국어 학습 자료 구축 사업을 시작했다. 이번에 공개하는 자료는 지난해 구축한 18억 어절 규모의 말뭉치다. 공개 자료는 국립국어원에서 저작권 문제를 해결해 구축한 것이며 '모두의 말뭉치' 사이트에서 온라인 약정서를 작성하고 승인받으면 누구나 파일을 내려받아 이용할 수 있다.

문화체육관광부와 국립국어원은 지난 1998년에서 2007년까지 '21세기 세종계획'을 추진해 약 2억 어절의 자료를 구축, 공개한 바 있다. 10여 년이 지난 뒤 이번에 다시 공개하는 자료는 예전보다 9배 많은 것으로, 그동안 공개된 학습 자료의 부족으로 곤란을 겪던 한국어 처리 기술이 든든한 지원군을 만날 수 있게 됐다.

이번에 구축한 자료에서는 지난 '21세기 세종계획'보다 일상 대화, 메신저, 웹 문서 등 구어체 자료의 비중을 높였다. 이는 최근 인공지능 스피커, 챗봇 등의 대화형 서비스가 늘어나면서 구어체 대화에 대한 관심과 요구가 높아지고 있는 추세를 반영한 것이다. 특히 일상 대화 자료의 경우 표준어 위주의 수집에서 한 단계 더 나아가 지역별, 연령별로 다양한 대화 자료를 수집해 인공지능 기술에서 지역별 방언도 처리할 수 있는 발판을 마련했다.

'모두의 말뭉치'에서 받을 수 있는 자료에는 최근 10년간의 신문 기사와 서적 2만188종, 그리고 일상생활에서 음성 대화와 메신저 대화, 방송 자료, 대본 등이 포함됐고, 각종 인터넷 사이트의 블로그, 게시판의 자료 210만건도 포함돼 다양한 한국어 사용 양상을 볼 수 있다.

또한 컴퓨터가 한국어를 더 잘 분석하고 이해할 수 있도록 한국어 자료를 더욱 정밀하게 형태, 구문, 의미, 개체 등의 언어 단위별로 분석한 자료 1100만 어절과 한국어에 대한 사용자의 직관과 판단 정보를 분석한 문법성 판단과 어휘 관계 자료 30만 건도 포함됐다.

국립국어원 관계자는 "초기 구축에 많은 비용과 시간이 소요되는 한국어 말뭉치의 대규모 공개로 한국어 인공지능 서비스를 개발하는 중소기업과 새싹기업 등이 따로 시간과 비용을 들이지 않고도 한국어 처리 기술 개발에 쉽게 접근하게 됐다"고 밝혔다. 이어 "대기업이나 관련 연구 기관 등도 대규모의 기초 자원을 제공받게 돼 사양한 서비스 개발과 성능 향상에 많은 도움을 받게됐다"고 분석했다.

소강춘 원장은 "국립국어원은 앞으로도 국어 전문 기관의 이점을 살려 날로 변화하는 언어를 신속하게 반영한 말뭉치와 다양한 고품질의 언어 자료를 지속적으로 구축, 공개하여 한국어 인공지능 기술을 뒷받침하는 한국어 자원의 중심 기관으로 자리매김하도록 노력하겠다"고 강조했다.

한편 국립국어원은 이번에 공개한 자료의 의의와 활용을 주제로 한 온라인 전문가 토론회를 10월 초에 개최할 예정이다.

89hklee@newspim.com

[뉴스핌 베스트 기사]

사진
전현무, 순직 경찰관 관련 발언 사과 [서울=뉴스핌] 최문선 기자 = 방송인 전현무가 순직한 경찰관을 언급하는 과정에서 부적절한 표현을 사용해 사과했다. 23일 전현무의 소속사 SM C&C는 입장문을 내고 "해당 방송에서 사용된 일부 표현으로 인해 고인과 유가족분들께 상처를 드린 점에 대해 무거운 책임을 느끼고 있다"며 "어떠한 맥락이 있었더라도 고인을 언급하는 자리에서 더욱 신중했어야 했다"고 밝혔다. [서울=뉴스핌] 이형석 기자 = 방송인 전현무. leehs@newspim.com 소속사 측은 "전현무는 출연자의 발언을 정리하는 과정에서 일부 단어를 그대로 언급했고, 표현의 적절성을 충분히 살피지 못했다"며 "그로 인해 고인에 대한 예를 다하지 못한 점을 무겁게 받아들이고 있다"고 해명했다. 이어 "고인과 유가족분들께 진심으로 사과드리며, 시청하며 불편함을 느끼셨을 분들께도 죄송하다는 말씀을 드린다"며 "보다 엄격한 기준과 책임감을 갖도록 내부적으로 점검하고 재발 방지에 만전을 기하겠다"고 덧붙였다. 이번 논란은 디즈니 플러스 예능 프로그램 운명전쟁49 2화 방송에서 불거졌다. 해당 회차에서는 무속인들이 과거 사건을 언급하며 사인을 추리하는 장면이 담겼고, 이 과정에서 전현무가 고(故) 경찰관의 사인을 설명하며 비속어를 사용해 비판을 받았다. 논란이 된 발언은 2004년 흉기에 찔려 순직한 고(故) 이재현 경장을 언급하는 과정에서 나왔다. 고인은 당시 서울 서부경찰서 강력반 형사로 근무하던 중, 마포구의 한 커피숍에서 폭력 사건 피의자를 검거하려다 범인이 휘두른 흉기에 찔려 숨졌다. 방송 이후 시청자들 사이에서는 순직 경찰관과 관련된 사안을 예능적 맥락에서 다루는 데 대한 문제 제기와 함께, 표현의 부적절성을 지적하는 비판이 이어졌다. moonddo00@newspim.com 2026-02-24 08:52
사진
음주운전 부장판사 감봉 3개월 징계 [서울=뉴스핌] 홍석희 기자 = 서울중앙지법 소속 현직 부장판사가 음주운전으로 감봉 처분을 받았다. 23일 법조계에 따르면 대법원은 지난 3일 서울중앙지법 A 부장판사에게 감봉 3개월 징계를 내렸다. A 부장판사는 지난해 12월 13일 오후 3시 1분께 면허 정지 수준인 혈중알코올농도 0.071% 상태로 중랑구 사가정역 근처 한식당에서 약 4㎞가량 승용차를 운전하다 적발된 것으로 알려졌다. 대법원은 "법관으로서의 품위를 손상하고 법원의 위신을 떨어뜨렸다"고 했다. A 부장판사는 현재 서울중앙지법 민사 재판부에 소속돼 있다. 서울중앙지법 소속 현직 부장판사가 음주운전으로 감봉 처분을 받았다. 서울 서초동 서울중앙지법. [사진=뉴스핌DB] hong90@newspim.com 2026-02-23 09:29
기사 번역
결과물 출력을 준비하고 있어요.
종목 추적기

S&P 500 기업 중 기사 내용이 영향을 줄 종목 추적

결과물 출력을 준비하고 있어요.

긍정 영향 종목

  • Lockheed Martin Corp. Industrials
    우크라이나 안보 지원 강화 기대감으로 방산 수요 증가 직접적. 미·러 긴장 완화 불확실성 속에서도 방위산업 매출 안정성 강화 예상됨.

부정 영향 종목

  • Caterpillar Inc. Industrials
    우크라이나 전쟁 장기화 시 건설 및 중장비 수요 불확실성 직접적. 글로벌 인프라 투자 지연으로 매출 성장 둔화 가능성 있음.
이 내용에 포함된 데이터와 의견은 뉴스핌 AI가 분석한 결과입니다. 정보 제공 목적으로만 작성되었으며, 특정 종목 매매를 권유하지 않습니다. 투자 판단 및 결과에 대한 책임은 투자자 본인에게 있습니다. 주식 투자는 원금 손실 가능성이 있으므로, 투자 전 충분한 조사와 전문가 상담을 권장합니다.
안다쇼핑
Top으로 이동