AI 핵심 요약
beta- KT와 고려대가 16일 한국형 멀티모달 AI 안전성 평가 벤치마크 KSAFE-MM을 공개했다.
- KSAFE-MM은 글로벌 위험요소 변환 KSAFE-MM-G와 전세사기·독도 등 국내 이슈 KSAFE-MM-C로 구성됐다.
- 총 1만4135개 샘플로 12개 모델을 검증했으며 전 과정 자동화로 비용을 낮추고 해외 적용 가능성을 확인했다.
!AI가 자동 생성한 요약으로 정확하지 않을 수 있어요.
국내 최대 규모 데이터셋 구축…글로벌 확장 가능성도 입증
[서울=뉴스핌] 서영욱 기자 = KT가 고려대와 함께 한국 사회와 문화적 맥락을 반영한 멀티모달 인공지능(AI) 안전성 평가 벤치마크 'KSAFE-MM'을 공개했다.
KT는 16일 멀티모달 대형언어모델(MLLM)의 안전성을 평가하는 KSAFE-MM을 개발해 공개했다고 밝혔다. KSAFE-MM은 글로벌 공통 위험 요소를 한국 문화에 맞게 변환한 'KSAFE-MM-G'와 전세사기, 독도 분쟁 등 국내 특수 이슈를 반영한 'KSAFE-MM-C'로 구성됐다.

총 1만4135개의 평가 샘플로 이뤄진 국내 최대 규모 한국어 멀티모달 안전성 데이터셋으로, 구글의 젬마(Gemma)와 네이버의 하이퍼클로바(HyperCLOVA) X 등 12개 AI 모델을 검증했다.
이번 벤치마크의 특징은 안전성 평가 데이터를 자동으로 구축하는 파이프라인을 적용했다는 점이다. 민감 주제 수집부터 질의 생성, 합성 이미지 제작, 탈옥(Jailbreak) 질의 생성까지 전 과정을 자동화해 비용을 낮추고 구축 효율을 높였다.
KT와 고려대 연구진은 동일한 방식을 일본어 환경에도 적용해 다른 국가와 문화권에서도 활용할 수 있음을 확인했다.
KT는 이번 연구 결과가 AI 서비스 안전성 검증과 레드팀 테스트, 가드레일 모델 평가 등에 활용될 것으로 기대하고 있다. 연구 결과와 데이터셋은 아카이브(arXiv)와 허깅페이스(Hugging Face)를 통해 공개됐다.
박재형 KT AX미래기술원 프론티어 AI랩장(상무)은 "KSAFE-MM이 한국어와 한국 문화 기반 AI 안전성을 검증하는 공통 기준으로 자리잡길 기대한다"고 말했다.
syu@newspim.com












