[베이징=뉴스핌] 조용성 특파원 = 중국의 AI 업체인 딥시크(DeepSeek)가 공개한 추론 AI 모델인 R1의 업그레이드 버전이 일부 영역에서 오픈AI의 성능을 앞섰다는 주장이 나오고 있다.
딥시크는 지난 1월 R1 모델을 공개하며 전 세계에 이른바 '딥시크 충격'을 안겼다. 이어 딥시크는 R1의 업그레이드 버전을 지난 28일 밤 공개했다. 업그레이드 버전의 명칭은 공개일을 사용해 'R1-0528'이라고 명명했다.
독립적 벤치마크 플랫폼인 라이브코드벤치는 R1-0528의 성능이 오픈AI의 최신 모델인 o3(하이) 모델에 버금간다는 평가를 내렸다.
중국 커촹반(科創板)일보는 R1-0528과 o3(하이)를 실제 비교해 본 결과 일부 영역에서 딥시크의 성능이 오픈AI를 넘어섰다고 30일 전했다.
커촹반일보는 AI 벤치마크 테스트 플랫폼인 엑스벤치가 사용하는 예제 중 5가지를 사용해 비교 테스트했다. 5가지 문제는 각각 ▲코딩 능력 ▲높은 난이도의 수학 추론 ▲사실 검색 및 데이터 통합 기능 ▲역사적 고증과 세부 분석 능력 ▲다차원 정보 추출과 데이터 통합 기능을 검증했다.
딥시크는 코딩 능력 문제에서 클릭하면 바로 실행되는 웹게임을 만들어냈다. 반면 오픈AI가 구현한 게임은 바로 실행되지 않았으며, 실행 시 오류가 빈번히 발생했다. 매체는 "딥시크의 모델은 코딩 분야에서 상당한 경쟁력을 갖추고 있음을 증명했다"고 평가했다.
수학 추론 문제에서 오픈AI는 41초 만에 정답을 제시했지만, 딥시크는 351초의 시간을 들여 정답을 내놓았다.
사실 검색 및 데이터 통합 문제에서 오픈AI는 정답을 제시했지만, 딥시크는 오답을 내놓았다.
역사적 고증과 분석 능력 문제에서도 오픈AI는 정답을 제시했고, 딥시크는 오답을 내놓았다.
다차원 정보 추출과 데이터 통합 기능 문제에서는 딥시크와 오픈AI는 모두 정답을 내놓았다. 다만 딥시크는 1분이 소요됐지만, 오픈AI는 6분이 소요됐다.
매체는 딥시크는 코딩 작업에서 오픈AI를 압도했으며, 나머지 영역에서도 안정적인 발전을 보여줬고, 전체적으로 오픈AI에 근접한 제품을 만들어냈음을 증명했다고 평가했다.
한편 R1-0528은 라이브코드벤치의 코딩 성능 평가에서 챗GPT 개발사인 오픈AI('o4-미니-하이', 'o3-하이', 'o4-미니-미디엄')에 이어 2위를 차지했다.
![]() |
중국 딥시크 이미지 [사진=로이터 뉴스핌] |
ys1744@newspim.com