전체기사 최신뉴스 GAM 라씨로
전국 대전·세종·충남

속보

더보기

내년 3천억원 들인다는 AI 데이터 구축사업...'품질검증' 시급

기사입력 : 2020년12월22일 18:12

최종수정 : 2020년12월22일 18:12

전수조사 불가해 사실상 '땜빵식 검증'…저품질 데이터 납품도
정부, 품질강화 나서…TTA '데이터밸런스' 표준 제정 주목

[서울=뉴스핌] 김수진 기자 = A씨는 얼마 전부터 한 회사에서 데이터 구축 아르바이트를 하고 있다. 대부분 이미지나 동영상을 기준에 맞춰 라벨링 하는 작업이어서 업무가 어렵지 않았다. 하지만 '적당한 자료를 찾아달라', '입력 시 특정 단어(그림)만 들어가게끔 해달라' 등 작업 기준이 불명확한 경우도 있어 당혹스러웠다고 한다.

A씨는 "지시를 내리는 담당자도 잘 모르는 것 같아 나만의 가이드를 만들어 작업했다"라며 "물론 회사 자체 검증을 거치긴 했지만 통과된 데이터가 제대로 AI에 활용될 수 있을지 걱정"이라고 토로했다.

인공지능(AI) 교육용 데이터의 철저한 품질 검증이 시급하다는 주장이 업계 안팎에서 제기되고 있다. 정부가 내년부터 본격적으로 관련 사업을 확대할 계획이고 중장기 사업으로 진행할 예정인 만큼 검증 시스템 확보가 시급하다는 지적이다.

현재 데이터 구축 사업 중 상당수가 AI 교육을 목적으로 한다. 과학기술정보통신부는 AI 개발을 위한 양질의 데이터를 구축하기 위해 20개의 'AI 학습용 데이터 구축 사업'을 지난 7월 확정했다.

텍스트와 영상, 이미지 등 다양한 분야의 AI 개발을 위해 총 21종 4650만 건에 이르는 AI 학습용 데이터를 구축하는 사업으로 국민 누구나 참여할 수 있다.

[서울=뉴스핌] 김수진 기자 = 과학기술정보통신부가 진행한 '데이터 주간' 데이터댐 구축 성과보고회에서 민기영 한국데이터산업진흥원장이 주요 혁신 성장 우수사례를 발표하고 있다. [사진=과학기술정보통신부 공식 유튜브 화면 캡쳐] 2020.12.22 nn0416@newspim.com

일단 정부의 적극적인 지원으로 짧은 시간에도 성과는 상당한 것으로 나타났다.

지난 15일 과기정통부가 주최한 '데이터 댐' 사업 성과보고회에 따르면, 올해 구축된 AI 학습용 데이터 종류와 누적 구축 수는 지난해 21종 4650만종에서 8배 증가한 170종 3억 7500만건에 달했다.

정부는 내년도 AI 학습용 데이터 구축 사업에 2925억원을 투입해 헬스케어 및 농·축·수산 등 주요 분야에서 AI 학습용 데이터 150종을 새롭게 개방한다. 다년도 중장기 프로젝트를 활성화하고 활용성 측면도 갖춘다.

문제는 이렇게 구축된 데이터를 제대로 검증하지 못한다는 것이다.

국회 우상호(더불어민주당) 의원실에 따르면 사업을 담당하는 한국지능정보사회진흥원 등이 데이터 품질 검증을 제대로 하지 못한 것으로 밝혀졌다.

지난 10월 국정감사에서 우 의원은 문용식 한국지능정보사회진흥원장에게 "저품질의 데이터가 납품되고 있어도 담당기관이 이에 대한 검증을 못하고 있다"라며 "제대로 된 데이터를 납품했는지를 확인하는 검증 시스템이 없다보니 질 낮은 데이터를 납품하고 다시 사업에 참여하는 경우도 발생하고 있는 걸로 아는데 대책이 필요하다"고 지적했다.

이에 문 원장은 "지금까지 데이터 품질 인증을 못한 건 사실"이라며 "향후 관련 기준을 세우겠다"고 입장을 밝혔다.

플랫폼 데이터 품질 저하도 문제로 지목되고 있다.

국회 윤영찬(더불어민주당) 의원실에 따르면 지난해 공공 데이터 품질관리 수준이 중앙행정기관은 76점, 지자체는 56점에 각각 그친 것으로 나타났다.

윤 의원은 "현 구축된 데이터를 보면 통계 등 정형 데이터가 대부분인데 공공 및 민간에서 필요로 하는 비정형(그림, 동영상 등) 데이터는 부족한 실정"이라며 "기관들이 일회성으로 데이터를 모으는 데만 집착하지 말고 실제 활용할 수 있는 질 높은 데이터를 확보할 수 있도록 품질 검증 및 향상에 힘써야 할 것"이라고 강조했다.

[서울=뉴스핌] 김수진 기자 = 인공지능 학습용 데이터 구축 시 검증이 필요하다는 목소리가 높아지고 있다. [사진=픽사베이] 2020.12.22 nn0416@newspim.com

업계는 데이터 품질 이슈가 언제든 수면 위로 올라올 수 있는 문제라고 보고 있다. 이미 전부터 관련 문제가 제기된 상황이다.

특히 올해 많은 사업들이 8월에서 10월 사이에 발표되면서 현장에서는 실제 데이터 구축 시간이 부족했다는 볼멘소리가 나왔다.

적게는 수천 개에서 많게는 수억 개의 제출된 데이터를 담당기관이 전수 조사하는 것은 사실상 불가능한 만큼 품질 이상이 발생할 가능성이 높을 수밖에 없다는 지적이다.

한 업계 관계자는 "'어느 회사가 대충 수집한 데이터를 납품했는데 문제없이 통과되고 거기에 더해 추가 사업까지 받았다더라'는 이야기가 시장에서 파다하다"라며 "구축 과정부터 검수 전반으로 품질 검증없이 사업을 계속 진행할 경우 세금낭비가 될 가능성이 높지 않겠느냐"고 꼬집었다.

문제는 낮은 품질 데이터로 인해 AI 정확성이 떨어질 수 있다는 점이다.

업계 한 연구원은 "관련 없는 정보(데이터)는 AI를 혼동하게 만들어 정확도를 떨어뜨릴 수 있고, 데이터가 누락되거나 중복된 데이터로 양을 채우고 정작 필요한 데이터는 수집하지 못할 경우 AI가 부정확하게 동작할 가능성이 높다"라며 "만약 처리해야 할 내용과 전혀 무관한 데이터가 입력될 경우 AI가 학습할 특징값이 희석되기 때문에 심할 경우 학습 자체가 되지 않을 가능성이 높다"고 설명했다.

또한 "데이터 품질을 검증하고 높이기 위해 빠르게 대안을 찾지 못하면 기하급수 속도로 구축되고 있는 AI 학습용 데이터들이 쓸모없는 '빅쓰레기'가 될 수도 있다"라고 지적했다.

정부 또한 데이터 품질 확보 중요성을 인지하고 이에 대한 대책 마련에 나서고 있다. 사실 AI 데이터 품질에 대한 가이드라인은 전 세계 어느 국가에서도 확립하지 못한 상황이다. 구글이나 마이크로소프트 등 세계적인 기업이 구축한 데이터 정확도도 43~83%에 불과한 것으로 알려졌다.

정부는 향후 구축될 데이터 품질을 확보하기 위해 지난 9월 AI 학습용 데이터 품질관리를 대폭 강화하는 내용을 발표했다.

하지만 "구축단계에서의 품질검증이 어려워 사후 활용단계에서 유지보수 및 업데이트를 한다"는 내용이 담기는데 그쳐 소극적 대응에 불과하다는 비판을 받고 있다.

이에 최근 데이터 구축 전 설계 단계에서부터 데이터 다양성을 확보하는 방법으로 품질 관리에 나서야 한다는 주장이 힘을 얻고 있다.

한국정보통신기술협회 로고 [사진=한국정보통신기술협회] 2020.12.22 nn0416@newspim.com

한국정보통신기술협회(TTA)는 데이터 검증 및 품질 확보를 위해 지난 10일 6가지 지표를 담은 '데이터밸런스' 기술을 단체표준으로 제정했다.

데이터 댐에 모인 데이터가 실제 현장에서 유용한지, 해당 데이터로 훈련받은 AI이 오작동 가능성이 있는지를 검증하는 프로그램이다.

설계 단계에서 데이터 수집 기준을 잡을 수 있는데 이는 사실상 국내 첫 데이터 가이드라인에 가깝다.

협회 측은 "정확하면서도 다양한 데이터를 통해 데이터 품질 저하를 막고 AI 정확성을 높이기 위해 해당 기술을 단체표준으로 제정했다"고 밝혔다.

기술을 개발한 씽크포비엘 박지환 대표는 "데이터 댐의 궁극적 목적은 다양성과 정확성을 바탕으로 구축된 AI를 실제 산업현장에서 활용하는 것인데 아직 다양성 수준을 평가하는 공인 기준이 없다보니 현장에서 어려움을 겪는 것이 현실"이라며 "데이터 댐 사업이야 말로 AI 기술 분야를 빠르게 성장할 수 있는 기회인만큼, 데이터 품질을 위한 다양성을 확보할 수 있는 가이드 마련 등 정부의 현실적인 정책 마련이 시급하다"고 강조했다.

nn0416@newspim.com

[뉴스핌 베스트 기사]

사진
로봇부터 자율주행까지...미래 먹거리 가속페달 정의선 현대자동차그룹 회장이 그룹 지휘봉을 잡은지 2주년을 앞두고 있습니다. 정 회장은 취임하면서 현대차그룹을 첨단 모빌리티 솔루션 기업으로 전환하겠다고 선언했습니다. 2년이 지난 2022년 10월 정 회장은 취임 당시의 약속을 지키기 위해 여전히 바쁘게 움직이고 있습니다. 현대차그룹이 지난 2년 간 어떻게 달라졌고 앞으로 어떻게 나아갈지 살펴봤습니다. [서울=뉴스핌] 정승원 기자 = 정의선 현대차그룹 회장이 취임한 이후 현대차그룹은 공격적인 인수합병(M&A)를 거듭하며 몸집을 불려왔다. 단순히 자동차만 생산해서 판매하던 완성차업체라는 프레임을 넘어 종합 모빌리티기업으로 도약하겠다는 정 회장의 미래 모빌리티 로드맵에 따른 것이다. [정의선號 2년] 글싣는 순서1. 전기차 시대 개막...위상 달라진 현대차그룹2. 로봇부터 자율주행까지...미래 먹거리 가속페달3. 다시 시험대 오른 리더십...당면 과제는? 3일 업계에 따르면 현대차그룹은 정 회장 취임 이후 주요 기업 인수합병에만 1조원 이상을 투입했다. 그 시작은 미국의 로보틱스 기업 보스턴다이내믹스 인수였다. 로봇개 '스팟'으로 유명한 보스턴 다이내믹스는 보행과 인지, 제어가 가능한 로봇들을 보유하고 있는 세계 최고 수준의 로보틱스 기업이다. 현대차그룹은 이전에도 로봇 사업에 관심을 가져왔다. 지난 2014년에는 보행 보조 로봇을 상용화하기도 했다. 이러한 관심은 보스턴 다이내믹스 인수로 이어졌다. 정 회장은 보스턴 다이내믹스 인수 과정에서 사재 2400억원 가량을 투자한 것으로 알려졌다. 정 회장은 보스턴 다이내믹스 인수를 통해 로봇 물류, 안내 및 지원, 로봇팔 등의 기술을 토대로 신사업을 본격화하고 있다. 보스턴다이내믹스의 로봇 '스팟'과 함께 등장하는 정의선 현대차 회장 [사진=현대차] 실제로 정 회장은 지난해 보스턴 다이내믹스 인수 이후 올해 라스베이거스 CES 2022에서 로보틱스 비전을 발표하기도 했다. 정 회장은 CES 2022에서 "로보틱스는 더는 머나먼 꿈이 아닌 현실이다. 현대차는 로보틱스를 통해 위대한 성취를 이루고자 한다"며 "로보틱스를 기반으로 미래 모빌리티 솔루션을 '메타모빌리티'로 확장할 것이며 이를 위해 한계 없는 도전을 이어가겠다"고 밝혔다. 그룹 차원에서도 로봇은 중요한 미래 먹을거리 사업으로 꼽힌다. 현대차그룹은 지난 8월 로봇 인공지능(AI) 연구소 설립을 위해 4억2400만 달러(약 6069억원)를 출자한다고 밝혔다. 현대차그룹이 인수한 보스턴 다이내믹스와 미래 신사업 간 시너지를 내기 위해서 AI 역량을 키우기로 한 것이다. 현대차그룹은 자율주행 분야에서도 인수합병을 통해 몸집을 키웠다. 현대차와 기아는 지난 8월 자율주행 소프트웨어 기술 개발 스타트업인 '포티두닷(42dot)'을 4276억원에 인수했다. 정 회장은 이번 인수 전부터 포티두닷에 관심을 보여왔다. 포티두닷은 네이버 출신의 송창현 대표가 설립한 스타트업으로 정 회장은 인수 전 송 대표를 현대차 TaaS(Transportation-as-a-Service) 본부 사장으로 선임하기도 했다. 현대차그룹은 외부 겸직이 원칙적으로 불가능한데 예외적으로 송 대표에게는 허용할 정도로 포티투닷 기술의 관심을 보였던 것이다. 이외에도 현대차는 지난해 자동차 소프트웨어 개발 업체인 에어플러그도 인수했다. 현대차는 에어플러그 인수를 통해 커넥티드카 서비스를 강화한다는 계획이다. 커넥티트카는 자동차에 무선 통신을 연결하는 기술로 현대차그룹은 기존 커넥티드카 서비스인 블루링크, 제네시스 커넥티드, 기아 유보 등을 운영 중이다. 여기에 에어플러그의 커넥티비티 기술을 통해 클라우드 서비스 등을 확대한다는 계획이다. [사진= 현대차그룹] 현대차그룹은 자율주행에 사용되는 라이다 개발을 위해 글로벌 기업과 협업하고 있다. 라이다는 빛을 통해 거리를 탐지하는 기술로 현대차그룹이 개발하는 자율주행차에 적용하고 있다. 현대모비스는 지난 2019년 자율주행용 라이다 시스템 개발을 위해 미국 벨로다인에 지분 투자를 해 사업 협력을 이어오고 있다.  현대차와 기아도 이스라엘의 라이다 및 센서 개발 업체 옵시스에도 300만 달러를 투자하며 라이다 기술을 개발하고 있다. 또한 로봇용 라이다 기술 개발을 위해 에스오에스랩과도 업무협약을 체결하기도 했다.  현대차그룹은 글로벌 소프트웨어(SW)센터를 국내에 설립해 시장 변화에 적극적으로 대응한다는 방침이다. 현대차그룹 측은 "로봇 AI 연구소는 로봇을 넘어 그룹의 다양한 사업 영역에 인공지능 기술이 확대 적용될 수 있도록 하는 중요한 거점이 될 것"이라며 "글로벌 SW 센터는 기존 개발 체계에 의존하지 않는 유연하고 창의적인 조직 문화를 기반으로 과감한 혁신을 주도해 나갈 것으로 기대된다"고 전했다. origin@newspim.com 2022-10-03 07:24
사진
평생 직장은 없다… 워라밸 중요한 MZ세대 전 세계적으로 세대간의 사고 및 소비 풍속 등이 뚜렷히 나타나고 있다. 1990년대 등장한 X세대에 이어 현재의 2030세대인 MZ세대까지, 이들의 특성과 개성을 구분 짓는 '세대 담론' 역시 우리 사회에서 이슈로 등장했다. 이에 뉴스핌은 MZ 이후 세대인 '알파 세대'(2010년 이후 출생)의 특성을 짚어보고 향후 우리 사회가 나아갈 방향을 제시해 보고자 한다. [서울=뉴스핌] 이정윤 기자 강정아 박두호 정현경 인턴기자 = 17살 드라마 제작자, 현실에선 어렵지만 가상현실 플랫폼 '제페토'에서는 가능하다. 제페토 드라마는 제페토 내 아바타들의 연기를 촬영해 영상으로 제작한 웹드라마다. 이호(17) 양은 제페토 드라마 크리에이터로 활동 중이다. 캐스팅부터 기획, 촬영, 편집 등 모든 업무를 총괄한다. 유튜브와 제페토 플랫폼을 활용해 용돈도 직접 번다. 수익은 달마다 다르지만 한 달 용돈으로는 충분한 정도라고 한다. [포스트MZ 'α세대'] 글싣는 순서1. α세대 그들은 누구인가?2. 소비활동은 가상세계에서3. 스트레스는 학교서 푼다4. 그들만의 문화 '온라인 무덤'5. 영상부터 음성까지…AI 활용 능숙6. "돈도 중요" 10대부터 재테크7. 전통적 직업관은 가라8. 집단 탈피…이젠 개인 교육 이 양의 유튜브 구독자 수는 1만 2000여 명, 누적 조회수는 310만회를 넘었다. 학교생활을 배경으로 한 드라마 '일진이 착해지는 과정'은 조회 수 56만회를 기록했다. 제페토 드라마는 제페토 내 아바타들의 연기를 촬영해 영상으로 제작한 웹드라마로 10대 사이에서 인기를 끌고 있다. [사진=이호 '일진이 착해지는 과정' 유튜브 캡쳐] 2022.10.02 rightjenn@newspim.com ◆ 베이비붐과 X세대, 직업은 생존을 위한 수단 1955년부터 1960년대에 태어난 베이비붐 세대는 어린 시절 빈곤을 경험했다. 양질의 일자리를 잡지 못한 베이비붐 세대는 적성과 흥미 보다는 수입과 안정성을 기준으로 다른 일자리를 찾았다. 그들에게 안정적인 경제활동은 필연적이다. 1970년대생인 X세대는 베이비붐 세대와 다르게 자신의 개성을 표출하는 소비에 적극적이었다. 그러나 1997년 외환위기의 여파로 생계유지가 직업 선택의 중요한 기준이 됐다. 1976년생인 고등학교 교사 B 씨는 "외환위기 전후로 기업 채용이 줄어 고생한 친구들이 정말 많다"며 "그때 이후로 먹고 살려고 취직을 하려다보니 공무원을 하려는 사람들도 많아지고, 전문직 수요도 정말 높아졌다"고 어려웠던 당시 취업시장을 설명했다. X세대의 소비 패턴이나 정치 성향 등은 베이비붐과 확연한 차이를 보이지만 직업 선택에 있어서 적성보다는 수입과 안정성을 최우선으로 삼는다는 점에서 베이비붐 세대와 유사하다. 연령대별 직업 선택요인 [자료=통계청]  2021년 통계청이 조사한 사회조사에는 연령별 직업 선택요인이 나온다. 베이비붐 세대인 60대 이상은 67%, 50대는 69%가 직업을 선택할 때 수입과 안정성을 고려했다고 응답했다. 적성과 흥미를 고려했다는 응답은 60대 이상은 7.8%, 50대는 10%다. X세대인 40대는 수입과 안정성을 택한 비율이 64%로 조금 줄었고 적성과 흥미라고 답한 비율은 14.2%로 소폭 늘었다. ◆ 평생 직장은 없다… 워라밸 중요한 MZ세대 최근 직장을 그만두고 이직준비 중인 C씨(27)는 "잦은 야근과 업무에 시달리다 보니 나를 챙기고 싶었다"며 퇴사 이유를 밝혔다. C씨는 높은 연봉을 보장받았지만 과중한 업무로 퇴사하게 됐다. C씨는 "다음 회사는 적절한 연봉 수준이면서 저녁 있는 삶이 보장되는 곳으로 옮기고 싶다"고 말했다. 1980년대부터 1990년대 후반을 지칭하는 MZ세대는 일과 삶의 균형이 맞춰지는 일자리를 선호한다. 소확행(소소하지만 확실한 행복), 워라밸(일과 삶의 균형)이라는 신조어도 등장했다. 이는 자기 자신에게 투자하는 시간이 중요해진 MZ 세대의 특징을 보여준다 MZ세대 중에서도 90년대 중후반생인 Z세대부터 직업 가치관에 두드러진 변화가 나타났다. 20대는 직업을 선택할 때 수입과 안정성을 우선시하는 비율이 56%로, 처음으로 60% 밑으로 떨어졌다. 적성과 흥미를 응답한 비율은 20.6%로, 50대와 비교해 2배 이상 늘었다. 최지혜 서울대 소비트렌드연구센터 연구위원은 "MZ세대는 내 재능과 연결시켜 수익 극대화 방법을 고민한다"며 "유튜브를 통해 수익창출을 하거나 아이돌 굿즈를 만드는 등 돈 버는 방식에 인식 변화가 생겼다"고 말했다. ◆ 회사에선 일러스트레이터, 메타버스에선 가상공간디자이너 2일 통계청 자료에 따르면 알파세대가 포함된 10대에서 처음으로 순위 변화가 생겼다. 20대 이상의 모든 세대에서 수입 다음으로 안정성을 택했지만 알파세대는 적성과 흥미가 안정성을 제치고 2위를 차지했다. 알파세대는 수입과 안정성을 합한 응답이 51%를 차지했고, 적성과 흥미를 택한 비율이 31.3%로 20대 응답보다도 11%p 늘었다. 50대에 비해 3배 이상 많은 수치다. 이들은 직업의 안정성보다 자신의 흥미와 적성을 우선시한다. 가상공간은 알파세대의 흥미와 적성을 발현시키는 공간으로 시장 규모가 커지고 있다. 글로벌 시장조사업체 프라이스워터하우스쿠퍼스(PwC) 조사에 따르면 2019년 메타버스 시장 규모는 455억달러로 집계됐다. 컨설팅 회사 맥킨지는 2030년에는 시장 규모가 5조달러에 이를 수 있다고 분석했다. 새로운 일자리도 생겨날 전망이다. 2016년 미국의 마이크로소프트와 영국의 미래연구소가 발간한 '미래의 일자리' 보고서에 따르면 대학생 65%는 현재 존재하지 않는 직업에 종사할 것이라고 예측했다. 이 보고서에는 "2025년에는 수천만 명의 사람들이 가상공간에서 일하고, 놀고, 여행하고, 만나서 어울리며 신간을 보낼 것이다"라며 "미래 세대의 많은 건축가와 인테리어 디자이너는 가상공간에서 건물을 지으면서 경력을 쌓을 것이다"라고 나온다. [자료=이미지투데이] 마이크로소프트는 2025년에 주목할 새로운 직업에서 가상공간 디자이너를 꼽았다. 가상공간 디자이너는 가상공간에 나오는 건물과 풍경을 실제처럼 만들고, 캐릭터의 표정과 목소리, 움직임을 자연스럽게 구현해 이용자들에게 몰입감을 선사하는 직업이다. 이들은 가상공간과 현실을 구별되지 않도록 만드는 것을 목표로 한다. 또 디지털 문화 해설가도 새로운 직업으로 제시했다. 직장에 있을 때와 가족이나 친구들끼리 있을 때 정체성이 다른 것처럼 각각의 가상공간에서도 정체성을 달리할 것이다. 디지털 문화 해설가는 사람들이 가상공간에서 정체성을 표출할 때 사용하는 '이미지 언어' 데이터를 분석한다. 디지털 문화 해설가는 데이터를 기반으로 각각의 가상공간에서 어떤 이미지가 유행하고 있는 지를 파악해 로고를 만드는 등 마케팅 활동을 한다. 제페토에서 아이템을 제작해 판매하는 것처럼 알파 세대는 자신의 능력을 가상공간에서 발현해내는 것을 자연스럽게 여길 것이다. 현실에서 일러스트레이터를 하면서 동시에 가상공간 디자이너를 부업으로 삼을 수 있다는 것이다. 김창환 극동대 교수는 "현실 세계뿐만 아니라 가상세계에서도 돈을 동시에 벌 수 있는 사람들이 늘어날 것"이라며 "디지털 부업에서 시작해 전업으로 갈 수도 있고, 처음부터 전업을 삼는 사람들이 늘어날 것"이라며 직업 가치관의 변화를 시사했다. 최 연구위원은 "알파세대는 연령과 사회 변화에 따라 다양한 직업을 가질 것"이라며 "베이비붐 세대가 30년 동안 한 직장에서 일하던 방식은 사라질 수 있다"고 말했다. rightjenn@newspim.com 2022-10-02 07:00
Top으로 이동