[김정호의 4차혁명 오딧세이] 아이에게서 배우는 AI 강화학습

기사입력 : 2019년04월22일 08:00

최종수정 : 2019년04월22일 08:00

우리는 어떻게 배우는가

필자가 처음 영어 공부를 시작한 것은 중학교 들어가기 전, 초등학교 6학년 때로 기억한다. 아마 공책에 a, b, c, d 알파벳을 필기체와 출판 서체로 연습한 기억이 난다. 그리고 영어로 배운 첫 문장이 “I am a boy,아니면 “You are a girl” 이 아닌가 생각한다.

본격적으로 영어를 공부한 시기는 고등학교 때이다. 그때 사용했던 영어 교재가 ‘성문종합영어’, ‘영어의 왕도’ , 그리고 ‘1200제’였다. 특히 그 중에 가장 어려운 교재가 ‘1200제”이었는데 아마도 일본 참고서를 번역한 책으로 기억한다.

그런데 이렇게 영어 공부를 시작할 때 재일 재미없었던 부분이 문법을 외우는 과정이었다. 명사, 대명사, 동사, 가정법 등 외우는 내용도 많고, 예외도 많았다. 그 규칙을 파악하고 외우고 이를 토대로 문장을 이해하고, 해석하고 작문하였다.

인공지능에서도 전통적으로 이와 비슷한 학습 방법을 써 왔다. 전통적 인공지능에서는 먼저 뇌와 지능의 동작 원리를 이해하고, 그에 맞추어 모델을 세우고 이를 컴퓨터 프로그램으로 구현하는 방법이다. 이 방법은 인간의 뇌의 동작을 인간의 논리로 파악하려 하는 방법이다. 영어 배울 때 문법으로 언어를 배우려는 시도와 같은 방법이다.

성문종합영어 참고서 내의 영어 문법과 작문 부분, [출처: tistory]

하지만 최근 딥뉴럴네트워크(DNN)으로 표현하는 인공지능은 빅데이터를 제공하고 그 데이터를 통해서 인공지능이 스스로 학습하는 방법이다. 이러한 방법을 ‘머신러닝' 인공지능이라고 한다. 여기서는 데이터를 믿고 학습한다. 이러한 머신러닝 학습 방법 중에서 인공지능 스스로 데이터를 만들어 내고 최적의 답을 만들어 내는 방법이 등장했는데, 이를 ‘강화학습(RL: Reinforcement Learning)’이라고 한다. 이를테면 컴퓨터 스스로가 자율학습을 해서 지능을 쌓아가는 방법이다.

아기가 처음 말을 배울 때 하는 말을 ‘옹알이’라고 한다. 옹알이를 통해서 엄마와 소통하면서 말을 배워나간다. 그때 처음 배우는 말이 ‘엄마’, ‘맘마’, ‘아빠’ 와 같은 단어들이다. 맘마라고 부르면 엄마가 우유를 주고, 엄마라고 부르면 엄마가 따뜻한 눈길을 주고 사랑으로 안아준다. 이처럼 아기가 언어를 배우는 과정에서는 아기가 주변 환경과 교류하면서 보상을 얻는 과정에서 말을 배운다. 우리처럼 문법을 통해서 배우지 않는다.

또한 아기가 걸음마를 배우는 과정도 비슷하다. 걷고, 넘어지고 다치면서, 시행착오를 거치면서 아장 아장 걷기를 배운다. 이때 환경은 거실 마루이고, 보상은 걷는 기쁨과 엄마의 웃음이다. 이처럼 주변환경 속에서 행동하고 보상 받으면서, 그 결과 최선의 결정과 행동을 하면서 학습하는 방법을 ‘강화학습’ 인공지능이라고 한다. 그래서 강화학습은 인간이 본능적으로 배우는 학습 방법이다.

시행착오 통한 강화학습, 로봇과 게임에도 적용 가능

강화학습에서는 주변 환경(Environment)이 있고 그 상태(State)를 벡터로 표현한다. 다양한 시도(Action)와 보상(Reward)를 얻으면서 스토리(Episode)를 만들고, 그 결과로 환경을 파악해 간다. 이렇게 시행착오를 거쳐서 학습하게 된다. 그리고 최적의 정책(Policy)을 찾아간다.

생쥐의 미로 찾기 게임이 강화학습의 좋은 한 예가 된다. 이 때 미로의 구조가 환경이 되고, 최종적으로 치즈를 먹게 되면 보상을 얻게 된다. 그렇지만 최단 시간 내에 찾아야 하는 조건이 붙게 된다. 이처럼 각 상태에 따라 미래를 정할 수 있고, 과거는 묻지 않는 조건을 강화학습에서는 마르코프(Markov) 조건이라고 한다. 강화학습을 적용하려면 마크코프 조건을 만족해야 한다. 과거는 묻지 않고, 현재 상태로만 그의 미래를 점치는 조건이다. 과거까지 따지면 너무 복잡해서 보상을 예측하기 어렵기 때문이다.

강화학습은 로봇의 걷기 제어에도 적용될 수 있다. 로봇이 넘어지고 걷기를 반복하면서 인간에게 가까운 최적의 보행 제어를 이러한 강화 학습 방법으로 찾을 수 있다. 마찬가지로 이러한 학습은 드론의 조종, 헬리콥터 조종, 항공기의 조종 제어에 사용할 수 있다. 더 나아가 자율주행 자동차의 자동 운전에 강화학습이 사용되어 주어진 조건(State) 에서 최적의 자율 운전을 할 수 있다. 이때 최종적으로 주어지는 보상이 연료비의 절약이나 사고율 저하, 안전성 향상 등이 될 수 있다.

이때 시행착오의 과정은 시간과 비용이 든다. 자동차를 부수기에는 비용이 비싸다. 경우에 따라 시행과 보상을 컴퓨터 시뮬레이션으로 대신 하기도 한다.

강화학습은 게임에 적용되기도 한다. 블록깨기(Atari Breakout)게임을 강화학습으로 하는 경우 금방 최적의 조건을 찾는 것을 볼 수 있었다. 돌이 블록 뒤로 들어가면 여러 번의 반사과정을 반복하면서 저절로 대부분의 블록이 격파되고 점수가 올라간다.

그래서 강화학습을 수행한 컴퓨터와의 인간과의 게임이 이제 더 이상 상대가 되지 않는다. 인공지능은 이런 경우뿐만 아니라 주식투자, 재고관리, 웹사이트의 광고 배치, 상품추천 등 다양한 분야에서 중요한 결정을 인간을 대신해서 할 수 있다. 인간처럼 이 때 보상은 경영상 이익이 된다. 컴퓨터는 졸거나, 피곤해 하거나, 술을 마시지도 불평하지도 않는다. 강화 학습으로 훈련한 보상 체계만 따를 뿐이다.

생쥐 미로게임에서 다양한 시도를 통해 치즈를 얻는 길을 찾는 인공지능 강화학습의 내부 구조, [출처: KAIST]

강화학습 인공지능으로 무장한 컴퓨터의 블록깨기(Atari Breakout) 게임, [출처:Ecosia]

강화학습은 인공지능의 '무기'

이와 같이 강화학습은 데이터와 정답 없이 스스로 학습이 가능한 인공지능 알고리즘이다. 공부로 치면 자율학습 공부 방법이다. 인공지능이 데이터를 이용해서 학습하기 위해서는 데이터를 모으는 작업에서 많은 비용을 지불 해야 한다. 데이터 수거 장치, 전송 장치, 저장 장치에 투자해야 한다. 5G 무선 통신도 투자 비용이 크다. 그러면서도 데이터를 모으려면 개인의 허락을 받아야 하고, 개인 정보 보호 문제도 극복해야 한다. 그렇지만 강화학습은 데이터 없이 학습한다. 인공지능이 점점 강력해지는 또 다른 이유이기도 하다.

joungho@kaist.ac.kr

[김정호 카이스트 전기 및 전자공학과 교수]

[관련기사]

[관련키워드]

GAM - 해외주식 투자 도우미

[미국 특징주] 스페이스XAI, 코딩·에이전틱 작업 특화 '그록 4.5' 출시

허니웰 테크놀로지스, 주식 병합 후 수익 전망 상향

[홍콩 대장주] 메이퇀 ③ 신성장 동력의 '폭발적 성장'

[홍콩 대장주] 메이퇀② 실적은 고속 상승, 밸류는 역대 저점

[뉴스핌 베스트 기사]

사진

송영길, 정청래 견제하며 당권 출사표 [서울=뉴스핌] 조승진 기자 = 송영길 더불어민주당 의원이 8·17 전당대회 당대표 출마를 공식 선언했다. 송 의원은 8일 서울 여의도 민주당 중앙당사 당원존에서 "원팀 민주당, 총선에서 승리하는 민주당, 국민에게 다시 희망을 주는 민주당을 다시 만들겠다"며 "나는 위기를 이겨본 사람, 무너진 당을 다시 세워본 사람이다 자신있다"고 지지를 호소했다. [서울=뉴스핌] 정일구 기자 = 송영길 더불어민주당 의원이 8일 오전 서울 여의도 민주당 중앙당사에서 당 대표 출마를 선언하고 있다. 2026.07.08 mironj19@newspim.com ◆ 송영길, 당원존서 출마 선언 "이재명이 만든 상징 공간" 출마선언식에는 김영호·민병덕·민홍철·박선원·정일영·허종식 의원과 윤준호 전 의원, 김용 전 민주연구원 부원장, 이승훈 변호사가 자리했다. 송 의원은 "출마 기자회견 전에 김밥 조찬모임을 함께했다"며 "전략 총괄을 해줄 민병덕 의원은 매주 몇 차례 김밥미팅을 했고, 허종식·김영호 의원은 간사, 김용 전 부원장은 내 대학 후배이자 동지, 이승훈 변호사는 강북 지역에서 석연찮게 후보를 박탈당했다"고 소개했다. 이어 송 의원은 "출마 선언 전에 오현지 민주당 전국대학생위원회 수석대변인 말부터 듣겠다"며 청년층을 향한 스킨십에도 공을 들이는 모습을 보였다. 당원존에서 전당대회 출마를 선언한 이유에 대해서 송 의원은 "이재명 대통령이 당 대표 시절 만든 당원존"이라며 당 대표가 되고자 했기 때문에, 여기서 하는 게 맞겠다(고 생각했고), 특히 권리당원과 소통의 장이라는 상징적 의미를 뒀기 때문"이라고 설명했다. [서울=뉴스핌] 정일구 기자 = 송영길 더불어민주당 의원이 8일 오전 서울 여의도 민주당 중앙당사에서 당 대표 출마를 선언하고 있다. 2026.07.08 mironj19@newspim.com ◆ "6·3 지방선거는 패배, 위기는 우리 안에서 시작"… 정청래 지도부 우회 비판 출마선언문에서 송 의원은 그간 민주당이 이재명 정부를 뒷받침하는 책무를 다하지 않았다며 우회적으로 정청래 지도부에 대해 비판했다. 또 이번 지방선거가 사실상 패배했다고 지적했다. 송 의원은 "민주당은 국민의힘하고만 경쟁하는 정당이 아니다. 세계 정당과 경쟁, 협력하고 이재명 정부를 강력히 뒷받침해야 한다"며 "이재명 정부의 성공은 곧 민주당의 책임"이라고 강조 했다. 이어 "지금 이 순간에도, 이재명 대통령은 혼신의 힘을 다하고 있다. 대통령 혼자 가시밭길을 걸어가게 해서는 안 된다"고 했다. 그러면서 "지난 6·3 지방선거는, 승리의 외피를 쓴 패배"라며 "70%에 육박하는 지지율과 이재명 대통령의 땀과 눈물로 만든 성과에도 당은 압승에 실패했다"고 짚었다. 그는 "위기는 밖이 아니라, 안에서 왔다. 우리 안에서 시작됐다"고 거듭 강조한 뒤 "해법도 우리 안에 있다. 이제는 집권여당다운 책임과 실력을 보여야 한다. 똘똘뭉쳐 하나로 뛰는 진짜 여당을 송영길이 만들겠다"고 했다. 또 "이번 지방선거에서 국민들이 민주당에 옐로카드(경고)를 보냈다"며 "대수롭지 않게 넘기면 다음 총선은 레드카드다. 총선 패배"라고 말했다. 그러면서 "총선에서 지면 정권 재창출은 없다. 그러면 이재명 정부의 성공도 장담할 수 없다"고 했다. 송 의원은 "2022년 대선당시 선거에서 패배했을 때 변명하지 않고 책임지고 곧바로 당대표직을 내려놓았다"고 했다. 또 "이번 전당대회는 누가 더 선명한 사람인가를 뽑는 선거가 아니다. 누가 이재명 정부와 협력해 대체불가 대한민국을 만들 대표인지를 선택하는 선거"라고 했다. [서울=뉴스핌] 정일구 기자 = 송영길 더불어민주당 의원이 8일 오전 서울 여의도 민주당 중앙당사에서 당 대표 출마 선언을 위해 이동하고 있다. 2026.07.08 mironj19@newspim.com ◆ "민주당, 동네 정당으로 축소…당이 李 국제무대 힘있게 뒷받침해줘야" 두 발언은 정 전 대표를 겨냥한 것으로 해석될 수 있다. 정 전 대표는 정치권 안팎에서 이번 선거 책임을 지고 물러나야 한다는 주장이 있었으나, 수용하지 않았다. 또 그간 검찰개혁과 관련해 보완수사권 완전폐지를 두고 정부의 '정부안 미제출'을 지적해 내부에서 '선명성 경쟁'을 한다는 비판을 받았다. 그는 "이번에 이 대통령이 포럼에서 외국 패널과 원고없이 바로 즉답하는 모습을 보며 자랑스러웠다"며 "이런 대통령을 보다 힘있게 뒷받침할 민주당이 필요하다"고 했다. 이어 "그동안 민주당 당내 지도부의 워딩(발언)을 보면 국제무대에서 이재명 정부를 뒷받침하는 언급은 너무 적었다"며 "매번 국내문제로 복닥복닥 하는 모습을 보며 답답함을 느꼈다"고 했다. 그러면서 "김대중 대통령, 노무현 대통령의 정신을 계승하는 민주당이 어떻게 동네 정당처럼 축소됐냐"며 "국민의힘과만 경쟁하는 정당이 아닌, 세계 여러 정당과 경쟁하고 협력하고 대한민국 주권을 지켜나가는 민주당을 만드는 것이 내 꿈"이라고 재차 정청래 지도부를 겨냥했다. [서울=뉴스핌] 정일구 기자 = 송영길 더불어민주당 의원이 8일 오전 서울 여의도 민주당 중앙당사에서 당 대표 출마 선언을 위해 이동하고 있다. 2026.07.08 mironj19@newspim.com ◆ "당대표 출마 선언, 정청래에 종속될 문제 아냐" 이후 기자들과 만남에서 '대통령의 마음이 김민석 전 총리, 정청래 전 대표가 아닌 송영길 의원에게 있다고 생각하냐'는 질의에 송 의원은 "당대표는 당원이 결정하는 것이고 당원의 마음이 가장 중요하다"며 즉답을 피했다. 민주당 전당준비위원회에서 선호투표 방식이 결정된 것과 관련해서 송 의원은 "결정을 존중한다. 사표방지 심리가 없어지게 됐다"며 "결과적으로 과반수 득표가 돼 부담없이 송영길을 찍을 분위기가 만들어졌다. 나로서는 승리의 카드"라고 했다. 또 '정 전 대표의 거취를 보고 출마를 판단하겠다고 하지 않았냐'는 질문에는 "정 전 대표의 출마가 확실시 되고 있다. 거기에 종속될 문제가 아니다"라고 말했다. 아울러 송 의원은 ▲'3대 메가 프로젝트' 실현 ▲반도체 전담기구 신설 ▲'AI 고속도로' 정책 뒷받침 ▲서울 주택 공급부족 문제 해결 ▲청년 해외진출을 위한 '장보고 10만 프로젝트' ▲주가누르기 방지법 통과 등을 공약으로 내세웠다. chogiza@newspim.com 2026-07-08 12:00

사진

딥시크도 '자체 AI칩' 개발 추진 [서울=뉴스핌] 고인원 기자= 중국 인공지능(AI) 스타트업 딥시크(DeepSeek)가 자체 AI 반도체 개발에 나선 것으로 알려졌다. 그동안 AI 모델 학습과 운영에 사용해 온 엔비디아와 화웨이 반도체 의존도를 줄이기 위한 전략으로 풀이된다. 개발이 성공하면 중국 AI 대표 기업으로 떠오른 딥시크의 사업 전략이 크게 바뀌는 것은 물론, 중국 AI 반도체 시장에서 영향력을 키워온 화웨이에도 새로운 경쟁자가 등장하게 된다. 로이터 통신은 7일(현지시간) 사안에 정통한 복수의 관계자를 인용해 딥시크가 자체 AI 추론용(inference) 반도체를 개발하고 있다고 보도했다. 추론은 학습을 마친 AI 모델이 사용자의 질문에 답변을 생성하는 단계로, 새로운 모델을 학습시키는 훈련(training)용 반도체와는 용도가 다르다. [AI 이미지 = 배상희 기자] 소식이 전해진 뒤 미국 엔비디아(NASDAQ:NVDA)의 주가는 개장 전 거래에서 약 1.6% 하락했다. 리처드 윈저 라디오프리모바일 애널리스트는 "엔비디아는 중국 시장에서 사실상 퇴출된 상태이며, 앞으로도 상황이 달라질 가능성은 거의 없다"며 "딥시크도 최첨단 반도체 생산 능력을 확보하지 못하면 자체 AI 반도체를 중국 외 시장에 판매하기는 사실상 불가능하다"고 말했다. 그는 따라서 이번 딥시크의 반도체 개발이 엔비디아 실적에는 큰 영향을 주지 않을 것으로 내다봤다. 딥시크는 지난해 공개한 저비용·고효율 AI 모델이 세계적인 주목을 받으며 중국 AI 산업의 대표 기업으로 떠올랐다. 다만 그동안에는 기술 상용화보다 AI 모델 성능 개선에 집중해 온 것으로 알려졌다. ◆ 화웨이 의존 줄이고 자체 생태계 구축 미국의 대중국 수출 규제로 엔비디아의 최첨단 AI 반도체 공급이 막히면서 화웨이는 약 500억달러 규모의 중국 AI 반도체 시장에서 절반가량의 점유율을 확보했다. 딥시크를 비롯한 중국 주요 AI 기업들도 화웨이 반도체를 적극 활용해 왔다. 하지만 화웨이의 독주도 흔들리고 있다. 알리바바와 바이두가 자체 AI 반도체를 개발하며 시장 점유율을 확대하고 있는 데 이어 딥시크까지 경쟁에 뛰어든 것이다. 소식통들에 따르면 딥시크의 반도체 개발은 아직 초기 단계다. 회사는 반도체 설계업체와 파운드리, 메모리 업체 등과 협의를 진행하고 있으며 프로젝트는 약 1년 전 시작됐다. 최근에는 반도체 설계 엔지니어 채용도 확대했지만 공개 채용 사이트에는 공고를 내지 않고 비공개 방식으로 인력을 확보한 것으로 전해졌다. 딥시크는 이번 보도와 관련한 논평 요청에 응답하지 않았다. [AI 이미지 = 배상희 기자] ◆ AI 추론 시장 겨냥…오픈AI도 자체 칩 개발 딥시크의 전략은 글로벌 AI 기업들의 움직임과도 맞닿아 있다. 오픈AI는 지난달 브로드컴과 공동 개발한 첫 자체 추론용 AI 반도체 '할라페뇨(Jalapeno)'를 공개했고, 앤트로픽도 자체 AI 반도체 개발을 검토 중인 것으로 알려졌다. 딥시크에는 미국의 대중국 반도체 수출 규제도 중요한 배경이다. 미국은 중국 기업들이 엔비디아의 최첨단 AI 반도체를 구매하지 못하도록 막고 있으며, 중국 정부는 자국 기업들에 국산 AI 반도체 개발을 독려하고 있다. 딥시크 창업자인 량원펑은 2024년 중국 언론과의 인터뷰에서 미국의 반도체 수출 규제가 회사의 가장 큰 과제 중 하나라고 밝힌 바 있다. 딥시크는 초기에는 엔비디아 H800 반도체를 이용해 AI 모델을 학습시켰지만, 이후 화웨이 어센드(Ascend) 반도체 사용 비중을 꾸준히 늘려왔다. 지난 4월에는 화웨이 어센드에 최적화된 V4 모델을 공개했고, 화웨이는 V4-Flash 모델 학습에도 자사 반도체가 일부 사용됐다고 밝혔다. 이후 중국 대형 IT 기업들의 화웨이 어센드 950 반도체 주문도 크게 증가한 것으로 알려졌다. 딥시크가 개발 중인 추론용 반도체는 AI 산업에서 가장 빠르게 성장하는 시장을 겨냥한다. AI 서비스가 확산되면서 컴퓨팅 수요가 모델 학습보다 실제 서비스를 위한 추론 단계로 빠르게 이동하고 있기 때문이다. 추론용 반도체는 범용 GPU보다 가격이 저렴하고 전력 소비도 적다는 장점이 있다. 다만 성공을 장담하기는 어렵다. 경쟁력 있는 AI 반도체를 개발하려면 막대한 자금과 수년의 개발 기간이 필요하며, 미국의 수출 규제로 중국 기업들은 최첨단 해외 파운드리와 고대역폭메모리(HBM) 접근에도 제약을 받고 있다. 한편 딥시크는 최근 기업가치 520억~590억달러를 인정받는 조건으로 70억달러 규모의 첫 외부 투자 유치를 추진하고 있다. 수년간 외부 투자를 거부해 온 기존 전략을 바꾸는 첫 행보다. koinwon@newspim.com 2026-07-07 22:00