전체기사 최신뉴스 GAM
KYD 디데이
글로벌 일본

속보

더보기

AI의 무서운 진화...도쿄대 입시 '합격 수준' 도달

기사입력 :

최종수정 :

※ 본문 글자 크기 조정

  • 더 작게
  • 작게
  • 보통
  • 크게
  • 더 크게

※ 번역할 언어 선택

[서울=뉴스핌] 오영상 기자 = 2022년 11월 오픈AI가 챗GPT를 세상에 내놓은지 2년여가 지났다. 기업은 물론 국가까지도 AI를 핵심 전략으로 삼고 있는 지금 AI는 과연 어디까지 진화했을까.

11일 니혼게이자이신문은 이제 AI는 일본에서 가장 난이도가 높다는 도쿄대학교 2차 시험의 수학 문제를 '합격 수준'으로 풀 수 있게 됐다고 전했다.

AI 이미지 [사진=픽사베이]

◆ 'o1' 등 추론 모델 등장하며 AI 급진화

지금까지 다른 과목에 비해 수학은 AI가 약한 분야였으며, 오픈AI의 초기 대화형 AI인 챗GPT는 간단한 산수 문제에서도 실수를 자주 범했다. 하지만 2024년 9월 이후 오픈AI의 'o1', 'o3' 등 추론 모델로 불리는 AI들이 속속 등장하면서 상황이 급변했다.

일본국립정보학연구소의 아라이 노리코 교수는 "o1은 2025년 2월 출제된 도쿄대 2차 시험의 이과 수학 문제뿐만 아니라 과거의 난이도 높은 문제들도 거의 풀어낼 수 있다"며 "도쿄대의 합격선을 넘어 상위 합격자 수준에 도달한 것 같다"고 말했다.

2024년 2월까지만 해도 챗GPT는 도쿄대 수학 문제를 전혀 풀지 못했다. 하지만 1년 만에 비약적인 발전을 이룬 것은 추론 모델의 등장 덕분이다. 추론 모델은 단순한 대규모 언어 모델(LLM)이 아니라 수학 등 논리적 사고가 필요한 문제 해결에 특화된 AI다.

o1과 o3 외에도 중국 딥시크의 'R1', 일론 머스크가 이끄는 xAI의 'Grok(그록) 3', 앤스로픽의 'Claude(클로드) 3.7 소넷' 등이 추론 능력이 뛰어난 모델로 평가된다.

오픈AI 챗GPT와 딥시크.[사진=로이터 뉴스핌]

◆ 美 수학올림피아드 정답률 90%에 육박

미국 수학올림피아드(AIME)의 정답률을 보면 AI의 급격한 발전이 더욱 뚜렷하게 드러난다.

2024년 5월 오픈AI가 발표한 'GPT-4o'의 AIME 정답률은 9.3%에 불과했다. 하지만 같은 해 9월 출시된 'o1 프리뷰'는 56.7%로 높아졌다, 이어 12월 정식 버전 o1은 83.3%, 2025년 1월 발표된 o3-mini는 87.3%로 급격히 향상됐다. R1과 그록 3의 정답률도 80~90%에 도달했다.

수학이나 프로그래밍과 같이 논리적 사고가 필요한 문제에서 추론 모델이 높은 성과를 낼 수 있는 메커니즘은 아직 명확하게 밝혀지지 않았다.

다만 올바른 추론을 했을 때 보상을 주는 '강화 학습', 문제를 단계별로 해결하는 '사고의 연쇄', 그리고 추론에 필요한 계산량(계산 시간) 증가 등의 기술이 성능 향상의 요인으로 꼽히고 있다.

추론 모델의 수학적 성능이 높다고 해도, 아직 인간 수학자처럼 극도로 어려운 문제를 해결하거나 새로운 정리를 창출할 수 있는 수준에는 이르지 못했다.

니혼게이자이는 "인간처럼 광범위한 지적 활동을 수행할 수 있는 범용 인공지능(AGI)이나, 인간 능력을 월등히 초월하는 인공지능(ASI)의 실현을 위해서는 여전히 기술적 돌파구가 필요하다"고 지적했다.

goldendog@newspim.com

[관련키워드]

[뉴스핌 베스트 기사]

사진
군 마트 매출 상위 4개 모두 '술' [서울=뉴스핌] 오동룡 군사방산전문기자 = 올해 1∼11월 군 마트 판매량 상위 4개 품목이 모두 주류로 집계됐다. 국군복지단 소속 PX(군 마트)가 병영 내 '생활복지 시설'로 운영되고 있음에도, 판매 구조는 사실상 '주류 중심'으로 재편된 셈이다. 논산 육군훈련소 본점 군 마트 전경. [사진=국방부 제공] 2025.12.21 gomsi@newspim.com 국회 국방위원회 소속 유용원 국민의힘 의원이 21일 국방부로부터 제출받은 자료에 따르면, 기간 내 판매량 1위는 A 캔맥주(2398만개)였으며, 이어 B 캔맥주(2171만개), D 캔맥주(1400만개), C 소주(256만개) 순으로 나타났다. 네 품목 판매량을 합치면 총 8025만개, 매출액은 918억6948만원에 달한다. 군 마트 내 A 캔맥주 가격은 1000원으로, 편의점 평균가(2250원)의 절반 이하다. C 소주 역시 1060원으로, 시중가(1800원)보다 약 40% 낮은 수준이다. 복지단이 대량 구매 및 유통 수수료 절감으로 단가를 낮춘 영향으로 풀이된다. 매출액 기준으로는 E 화장품 세트가 전체 1위(323억6621만원)를 차지했다. 판매량은 83만개로, 군 마트 판매가(3만8930원)는 온라인 최저가(29만원)의 약 7분의 1 수준이다. 유용원 의원은 "군 마트는 장병들의 기본적인 생활을 지원하기 위한 공간임에도, 실제 판매 비중을 보면 주류와 화장품이 매출을 주도하고 있다"며 "복지 취지에 맞게 품목 구성과 가격 체계를 다시 점검할 필요가 있다"고 지적했다. gomsi@newspim.com 2025-12-21 15:12
사진
이노스페이스, '한빛-나노' 23일 발사 [세종=뉴스핌] 이경태 기자 = 민간 우주발사체 기업 이노스페이스가 첫 상업발사체 '한빛-나노'의 발사를 한국시간 오는 23일 오전 3시 45분에 재시도한다고 21일 밝혔다. 이노스페이스는 지난 20일 발사를 앞두고 추진제 충전 과정에서 2단 액체 메탄 탱크 배출 밸브의 간헐적 미작동을 확인하고 발사를 중단했다. 해당 밸브는 발사체 상단부 압력 제어를 담당하는 부품으로, 작동 불량 시 탱크 파열 가능성이 있어 안전을 고려해 예방적으로 발사를 중단했다. 이노스페이스 '한빛-나노' 발사체 전경 [사진=이노스페이스] 2025.12.21 biggerthanseoul@newspim.com 이후 점검 결과 배출 밸브 외 추가 이상은 없었으며, 예비품으로 교체가 가능한 상태다. 발사 일정은 브라질 공군과의 협의를 거쳐 발사 윈도우 마지막 날인 12월 22일(브라질 시간) 오후 3시 45분으로 확정됐다. 다만 당일 비 예보가 있어 기상에 따라 조정될 수 있다. 이노스페이스는 이번 발사로 고객 위성 5기를 고도 300km, 경사각 40도의 지구 저궤도에 투입하고, 비 분리 실험용 탑재체 3기에 대한 임무를 수행할 예정이다. 김수종 대표는 "발사체 개발과 발사 운용은 고난도 기술 영역인 만큼 남은 시간 면밀히 점검해 안전하고 성공적인 발사를 수행하겠다"고 말했다. biggerthanseoul@newspim.com 2025-12-21 17:20
기사 번역
결과물 출력을 준비하고 있어요.
종목 추적기

S&P 500 기업 중 기사 내용이 영향을 줄 종목 추적

결과물 출력을 준비하고 있어요.

긍정 영향 종목

  • Lockheed Martin Corp. Industrials
    우크라이나 안보 지원 강화 기대감으로 방산 수요 증가 직접적. 미·러 긴장 완화 불확실성 속에서도 방위산업 매출 안정성 강화 예상됨.

부정 영향 종목

  • Caterpillar Inc. Industrials
    우크라이나 전쟁 장기화 시 건설 및 중장비 수요 불확실성 직접적. 글로벌 인프라 투자 지연으로 매출 성장 둔화 가능성 있음.
이 내용에 포함된 데이터와 의견은 뉴스핌 AI가 분석한 결과입니다. 정보 제공 목적으로만 작성되었으며, 특정 종목 매매를 권유하지 않습니다. 투자 판단 및 결과에 대한 책임은 투자자 본인에게 있습니다. 주식 투자는 원금 손실 가능성이 있으므로, 투자 전 충분한 조사와 전문가 상담을 권장합니다.
안다쇼핑
Top으로 이동