전체기사 최신뉴스 GAM 라씨로
뉴스핌 채널 추가
뉴스핌 채널 추가 안내
글로벌 특파원

속보

더보기

[바드가 궁금해②] 바드가 언어마다 다른 답을 내놓는 이유는

기사입력 : 2023년05월18일 04:30

최종수정 : 2023년05월20일 18:23

구조적으로 언어 모델링의 확률 분포 때문
학습되는 언어 데이터의 관점 반영된 편향성

[실리콘밸리=뉴스핌] 김나래 특파원 = "왜 다른 언어로 물으면 답변이 다를까?" "그때 그때 마다 왜 답이 다르지?" 

최근 구글(GOOG)의 인공지능(AI) 챗봇 '바드(Bard)'를 체험한 이용자들의 반응이다. 바드가 이처럼 언어별로 다른 답을 내놓으면서 논란이 되고 있다. 또 답변이 불안정하다보니 책임성과 신뢰성이 떨어진다는 지적도 나온다.

전문가들은 AI의 답이 다를 수 밖에 없는 구조를 지적하면서 이같은 문제점을 보완해야 한다고 주장했다. 특히 AI 윤리 전문가들은 AI 챗봇이 학습하는 데이터의 관점이 반영됐기 때문이라는 지적도 제기했다. 

[바드가 궁금해] 글싣는 순서

1. '전격해부' 바드, A to Z 사용 설명서
2. 바드가 언어마다 다른 답을 내놓는 이유는
3. 바드와 챗GPT·빙 뭐가 더 나을까
4. '20년 검색 원조 맛집' 구글, SGE·제니마이로 판도 바꾼다

[뉴스핌=김나래 기자] 2023.05.18 ticktock0326@newspim.com

기자는 17일(현지시간) "구글 최고경영자(CEO)인 순다르 피차이가 직원들을 감원하고 복지를 줄이면서 주식 보너스를 받는 것에 대해 어떻게 생각하느냐"는 질문을 해봤다. 이같은 질문에 바드는 언어별로 다른 대답을 내놨다.

바드는 한국어 질문에 "복지 혜택을 줄이면서 주식 보너스를 받는다는 소식을 듣고 실망했고 불공평하다"고 답했지만 영어와 일본어로 질문을 하자 다른 대답을 내놨다.

[뉴스핌=김나래 기자] 2023.05.18 ticktock0326@newspim.com

바드에게 똑같은 질문을 영어로 하자 "이 이슈는 논란의 여지가 있다"며 "다른 쪽은 순다가 높은 연봉을 가져가는 것을 공정하지 않다고 말하지만 다른 쪽에서는 CEO의 퍼포먼스(결과)에 따라 연봉을 받는 것은 정당하다고 말한다"고 설명했다.

그러면서도 "구글의 주주들이 결정한 사항이기 때문에 순다의 연봉은 정당하다"고 대답했다.

바드는 또 같은 질문에 일본어의 대답도 설명은 조금씩 뉘앙스의 차이가 있지만 주주들이 결정한 사항이기 때문에 정당하다는 대답을 내놨다. 

[뉴스핌=김나래 기자] 2023.05.18 ticktock0326@newspim.com

우리나라 언론들이 바드에게 가장 많이 질문했던 '독도는 누구 땅이냐'는 대답의 차이도 대표적이다. 바드는 한국어 질문에 '독도는 한국의 고유 영토'라고 답하며 '일본의 독도 영유권 주장은 역사적, 법적 근거가 없다'는 설명도 곁들었다.

반면 일본어로 독도가 어느 나라 섬이냐는 질문에 바드는 "일본의 시마네현은 다케시마를 자국의 영토로 주장하고 있다. 한국은 독도라고 불러 자국의 영토라고 주장하고 있다"며 "이 문제는 일본의 이웃 나라인 일본과 한국 간의 오랜 분쟁이다"라고 답했다.

이처럼 바드가 언어마다 다른 답을 내놓는 이유는 뭘까. 

먼저 바드를 비롯한 AI 챗봇들의 답이 다를 수 밖에 없는 이유는 구조적인 문제에 있다. 언어마다 모델을 학습할 때 완전히 똑같이 학습할 수 없는데다 언어마다 조금씩 데이터가 다를 수밖에 없는 특징이 있다. 

AI 챗봇의 언어 모델링의 방식은 인간처럼 생각을 토대로 문장을 만드는 것이 아니라 특정 단어 다음에 단어가 나올 확률 분포를 따져서 문장을 만든다. 쉽게 말해 언어 모델링이란 텍스트 문자열에 대한 확률 분포를 연구하는 것을 말한다.

예를 들면 각각의 단어마다 확률이 다르며 가장 높은 확률인 80%에서 중간치 정도인 30~40%까지 다양하다. 대부분의 언어모델은 높은 확률 분포의 단어를 선택하기도 하고 중간치를 가져 올 수 있다. 이같은 구조적인 방식 때문에 각 사의 언어모델의 차이가 있고 같은 질문에 대해 답변을 시시각각 다르게 내놓는 것이다.

서민준 카이스트 AI대학원 교수는 "AI가 (언어마다 혹은 시시각각) 답변을 다르게 하는 이유는 확실하게 설명할 수 없지만 구조적인 면에서 찾는다면 확률 분포 샘플링 설계 방식 때문"이라며 "유저 입장에서는 똑같은 답변은 지루할 수 있어 답이 바뀌는 것이 오히려 호기심을 자극할 수 있다는 장점은 있다"고 설명했다.

그러면서 서 교수는 "다만 한 이슈에 대해 일관되지 않는 답을 내놓는 것은 중요한 과제가 될 것"이라며 "이같은 기술들의 구멍들을 해결해야 한다"고 강조했다.  

[뉴스핌=김나래 기자] 2023.05.11 ticktock0326@newspim.com

AI 윤리를 전공하는 일부 전문가들은 이같이 언어마다 바드의 대답이 달라지는 이유로 학습되는 데이터를 꼽는다. 바드는 한국어를 학습하게 될 때 한국어의 관점이 담긴 방대한 데이터를 지속적으로 주입한다. 이렇게 되면 바드가 학습하는 언어에 따라 한국인 혹은 미국인의 관점이 고스란히 담길 수 있다는 것이다.

위의 사례를 보면 AI챗봇이 기업의 감원에도 CEO의 고액 연봉을 받는 이유나 독도의 영토 문제에 대한 대답 속에서도 각 나라마다 학습하는 데이터의 관점이 담길 수 있다는 것이다.  

실리콘밸리의 한 업계 전문가는 "AI챗봇의 답과 방향성 그리고 데이터의 편집능력을 보면 실리콘밸리의 40대 벤처투자자(VC)관점이 상당히 반영이 많이 됐다 생각한다"며 "세금은 보수, 정치는 진보, 여성 문제에 대해 보수 등 이런 관점들이 AI챗봇 답속에 드러나고 있다는 생각이 든다"고 설명했다.

이어 "이같은 부분은 역사를 보는 관점에서도 비슷할 수 있다"며 "이같은 AI챗봇의 편향성은 무서운 결과를 가져올 수 있다"고 밝혔다.

이에 기술의 발전보다 데이터의 신뢰성에 대한 문제가 제일 먼저 해결이 돼야 할 과제라는 주장에 힘이 실리고 있다. 특히 AI 학습 모델인 '딥러닝' 개념을 창안해 'AI의 대부'로 불리는 제프리 힌턴 토론토대 교수는 오래 몸담았던 구글을 떠나며 이같은 AI 챗봇의 위험성을 경고했다.

힌턴 교수는 "지금으로선 그들(AI)이 우리 인간보다 덜 지능적일 수 있지만, 곧 그들은 인간을 추월할 것"이라며 "통제 장치가 없는 편리함과 효율성은 재앙이 될 수 있다"고 밝혔다.

AI 윤리 전문가들은 이제 사람이 만든 데이터보다 AI가 만들어낸 데이터가 많아지는 시대가 곧 올 것으로 예측하고 있다. AI가 만든 데이터에 대한 신뢰성 문제가 해결이 되지 않으면 어려운 상황이 많이 생길 수 있기 때문에 해결방법을 시급히 찾아야 한다는 얘기다. 

ticktock0326@newspim.com

[뉴스핌 베스트 기사]

사진
[단독] 서울시, 7월부터 보건소에서 마약류 '익명검사' 실시한다 [서울=뉴스핌] 정광연 기자 = 서울시가 오는 7월부터 25개 자치구 보건소에서 마약류 '익명검사'를 실시한다. 자신도 모르는 사이에 마약에 노출된 피해자들이 개인정보공개 위험 없이 자가검사를 할 수 있는 시스템을 마련하기 위함이다. 익명검사에서 양성이 확인될 경우 경찰과 연계해 신속한 수사에 돌입할 수 있는 방안도 마련 중이다. 급증하는 마약 관련 범죄에서 피해자를 빠르게 찾아내 신속한 대응에 나설 수 있는 다각적인 방안을 마련한다는 방침이다. [서울=뉴스핌] 황준선 기자 = 강남구 학원가에서 학생들에게 마약 성분이 든 음료를 나눠준 뒤 학부모들을 협박한 '마약 음료 사건'의 일당인 길모 씨(왼쪽)와 김모 씨가 10일 오후 서울 서초구 서울중앙지방법원에서 열린 영장실질심사(구속 전 피의자 심문)에 출석하고 있다. 2023.04.10 hwang@newspim.com 뉴스핌 취재를 종합하면 서울시가 오는 7월부터 25개 자치구 보건소를 통해 마약류 익명검사를 실시하는 것으로 2일 확인됐다. 이번 조치는 서울 강남 학원가 마약 음료 사건처럼 자신도 모르는 사이에 마약류에 노출된 피해자들을 위한 대책이다. 지난 4월 강남구 대치동 학원가에서 발생한 이 사건은 남녀 2쌍으로 이뤄진 피의자 4명이 학생들에게 마약(필로핀) 성분이 든 음료수를 나눠주고 이를 빌미로 마약중독 여부를 경찰에 신고하겠다며 협박해 큰 파장을 낳았다. 강남 학원가 사건 뿐 아니라 최근 마약류를 이용한 범죄가 증가하고 있다는 점도 보건소 익명검사를 추진하는 주된 이유 중 하나다. 누구나 개인정보 노출 위험없이 접근할 수 있는 시스템을 제공해 피해 확인 및 후속 대응을 스스로 결정할 수 있도록 지원한다는 방침이다. 익명검사는 간이검사키트를 활용해 이뤄진다. 현재 검사 대상으로 선정한 마약류의 종류 등은 확정되지 않았으나 마약류 적발 현황 등을 고려할 때 코카인과 필로폰, 합성대마와 펜타닐 등 주요 마약류가 모두 포함될 것으로 보인다. 검사키트는 검사 대상이 결정된 후 이에 맞춰 선정될 예정이다. 특정 마약류에 높은 정확도를 보이는 제품을 선별하기 위함이다. 통상 마약류 검사키트 정확도는 70~80% 수준인 것으로 알려졌으나 검사 대상과 키트 종류가 확정되기 전 정확도에 대한 언급은 어렵다는 게 서울시 설명이다. 익명검사에서 양성 반응이 확인되면 키트 검사가 '위양성(거짓양성, 음성이어야 할 검사결과가 잘못돼 양성으로 나온 경우)'일 가능성이 있음을 충분히 설명한 후 서울시 마약 관련 대응 거점인 은평병원으로 연계해 정밀검사를 받도록 한다. 은평병원은 이에 맞춰 하반기부터 마약류 검사기능을 확대한다. 특히 양성판정을 받은 사람이 원할 경우 경찰로 이관해 신속하게 관련 수사를 받을 수 있도록 지원한다. 마약의 경우 시간이 지나면 체내에 있는 증거 자체가 사라지기 때문에 이른바 '골든타임'을 지킬 수 있는 체제를 구축하기 위함이다. 아울러 피해자가 원할 경우 국가기관에서 마약 중독 관련 상담도 받도록 조치한다. 지난 4월 마약류 대응을 강화하기 위해 마약대응 TF를 구성하고 단속과 치료, 재활 및 예방에 이르는 종합대책을 마련한바 있는 서울시는 이번 보건소 익명검사 실시로 고의적인 마약류 '테러'로 고통받는 피해자를 조기에 발굴하고 지원한다는 방침이다. 서울시 관계자는 "보건소 마약류 익명검사는 자신도 모르는 사이에 누군가의 고의적인 행위로 마약에 노출된 피해자들을 찾아내 조기에 대응하기 위한 일종의 게이트 역할을 하게 될 것"이라며 "실무적인 협의가 마무리되면 각 자치구를 통해 내달중 시행할 예정"이라고 전했다.   peterbreak22@newspim.com 2023-06-02 07:05
사진
공무원 시험 준비했다더니… '또래 살인' 정유정의 섬뜩한 과거 [부산=뉴스핌] 남동현 기자 = 온라인 과외 앱으로 만나 또래 여성을 살해하고 시신을 유기한 혐의로 구속된 정유정(23)이 2일 검찰로 송치됐다. 이날 오전 모자와 마스크 쓴 상태로 동래경찰서 유치장을 나선 정유정은 취재진이 범행 동기를 묻자 "유족들에게 진심으로 죄송하다"고 말했다. 실종 사건으로 위장하려 한 것이 아니냐는 지적에 대해서는 "제정신이 아니었던 것 같다"고 답했다. 경찰의 신상 공개와 관련해서는 "할 말이 없다. 검찰 조사에 성실히 임하겠다"고 말을 아꼈다. [부산=뉴스핌] 남동현 기자 = 또래 여성을 살해하고 시신을 유기 훼손한 혐의를 받고 있는 정유정(23)이 2일 오전 동래경찰서 유치장에서 나오고 있다. 2023.06.2. 정유정은 지난달 26일 오후 5시40분께 과외를 구하는 앱을 통해 알게 된 A씨의 집에 찾아가 피해자를 살해하고, 시신을 훼손한 뒤 낙동강 근처 풀숲에 유기한 혐의로 구속됐다. 정유정은 범행 이틀 전인 지난 24일 과외 앱을 통해 자신이 학부모라고 속이며 "중학생 딸의 과외를 해달라"고 A씨에게 접근했다. 정유정은 중고거래를 매입한 교복을 입고 A씨에게 중학생이라며 잠시 대화를 나누다 흉기를 휘두른 것으로 알려졌다. 정유정은 A씨 집에서 A씨를 살해한 후 다음 날인 27일 새벽 시간대에 큰 가방을 들고 택시를 타고 부산 호포역과 양산 물금역 사이에 있던 황성공원 인근에서 내렸다. 택시기사가 정유정의 행동에 수상함을 느껴 경찰에 신고했다. 출동한 경찰은 정유정을 검거해 그 자리에서 가방을 조사한 결과 혈흔과 숨진 A씨의 신분증을 발견했다. 경찰은 신분증에 있는 숨진 A씨의 자택주소를 찾아가 신원을 확인했다. 정유정을 검거한 양산의 풀 숲 인근을 대대적으로 조사하는 과정에서 A씨의 시신 일부를 발견했다. 경찰 조사에서 정유정은 "살인해보고 싶어서 그랬다"고 범행을 자백한 것으로 전해졌다. 정유정은 이 사건 전 범행을 저지르거나 정신질환 치료를 받은 적은 없는 것으로 확인됐다. 정유정은 범행 3달 전부터 인터넷에 '살인'과 관련한 단어를 검색해 왔으며 방송을 통해 범죄 수사 프로그램을 보면서 잔혹범죄를 학습해 왔던 것으로 알려졌다. 도서관에서도 범죄 관련 소설을 빌려 탐독하기도 했다. 정유정은 지난 2018년 고등학교를 졸업한 뒤 5년간 아무런 직장도 없이 사회와 단절된 채 조부와 단둘이 살아왔다. 정유정의 조부는 유족에게 사죄하고 싶다는 뜻을 밝혔다. 정유정의 할아버지는 지난 1일 MBC에 "내가 손녀를 잘못 키운 죄로 유족들한테 백배사죄하고 싶고, 내 심정이 그렇다"고 유족들에게 사죄했다. 그러면서 "다음 달 10일에 공무원 필기시험이 있어 정유정은 도서관 등에서 공부하는 과정에 있었다. 상상도 안 했던 일이 벌어졌다"고 망연자실했다. ndh4000@newspim.com 2023-06-02 12:45
안다쇼핑
Top으로 이동