6개 장르 게임서 AI 수행 능력 정량 평가
엔비디아와 공동 개발한 CPC 기술 경험 반영
AI 연구 기준 제시…산업 전반 확장 계획
[서울=뉴스핌] 김영은 인턴기자 = 크래프톤이 대규모 언어 모델(LLM) 기반 게임 AI 평가 벤치마크 'Orak'을 공개했다. AI 평가 벤치마크란 AI 모델의 성능을 객관적으로 측정하고 비교할 수 있게 해주는 표준화된 테스트 세트 또는 평가 기준을 의미한다.
크래프톤은 LLM 기반의 AI 에이전트가 게임 내에서 보여주는 상황 인식, 판단, 행동 결정 능력을 정량적으로 평가할 수 있는 벤치마크 'Orak'을 선보였다고 16일 밝혔다. 'Orak'은 '오락'에서 착안한 이름으로, ▲액션 ▲어드벤처 ▲RPG ▲시뮬레이션 ▲전략 ▲퍼즐 등 6개 장르의 대중적인 게임을 기반으로 설계됐다.
![]() |
[서울=뉴스핌] 김영은 인턴기자 = 크래프톤의 오락 작동 이미지 [사진=크래프톤] 2025.06.16 yek105@newspim.com |
이 평가 체계에는 크래프톤과 엔비디아가 공동 개발한 협업 가능 캐릭터(CPC) 등 AI 설계 경험이 반영됐다. 이를 통해 LLM 기반 AI 에이전트가 복잡한 게임 맥락 속에서 상황을 해석하고 의사결정을 내리는 능력을 반복적으로 검증할 수 있다.
핵심 기술인 '모델 컨텍스트 프로토콜(MCP)'은 게임 정보를 언어 모델이 이해할 수 있는 텍스트 기반 정보로 전달하고, 모델의 응답을 실제 게임 내 행동으로 변환하는 역할을 한다. 이를 통해 LLM은 플레이어처럼 게임 상태를 파악하고 최적의 행동을 선택할 수 있다.
예를 들어, 액션 게임에서는 장애물의 위치를 인식해 이동이나 점프 등 상황에 맞는 판단을 수행한다.
크래프톤은 Orak을 통해 게임 산업을 넘어 다양한 산업 분야로 AI 연구를 확장할 계획이며, LLM 파인튜닝용 데이터셋도 함께 제공한다. 연구자들은 이를 활용해 사전 학습된 LLM을 실제 게임 환경에 맞게 적용하고 최적화할 수 있다.
이강욱 크래프톤 딥러닝 본부장은 "Orak은 크래프톤의 선행 연구와 노하우가 집약된 게임 특화형 LLM 벤치마크"라며, "향후 LLM 에이전트 설계 역량을 겨루는 대회도 기획 중"이라고 밝혔다.
yek105@newspim.com