AI 핵심 요약
beta- 숭실대학교는 24일 최혜송 교수팀 논문 3편이 ECCV 2026에 채택됐다고 밝혔다.
- 연구팀은 비전-언어 모델 세밀 정보·강건성 개선을 위한 ECC·Aether 기법을 제안해 성능 향상을 입증했다.
- 또 멀티모달 모델 정렬 성능을 높이는 새 방법을 제안해 생성 품질과 교차 모달 정렬을 함께 개선했다.
!AI가 자동 생성한 요약으로 정확하지 않을 수 있어요.
비전-언어 모델 성능·강건성 개선 주목
[서울=뉴스핌] 송주원 기자 = 숭실대학교는 전자정보공학부 최혜송 교수 연구팀의 논문 3편이 인공지능(AI)·컴퓨터비전 분야 최고 권위 국제학술대회인 ECCV 2026에 채택됐다고 24일 밝혔다.
ECCV는 CVPR, ICCV와 함께 컴퓨터비전 분야 세계 3대 국제학술대회로 꼽힌다. 전 세계 연구자들이 최신 연구 성과를 발표하는 학술 교류의 장으로 엄격한 심사를 거쳐 우수 논문을 선정한다. 숭실대는 이번 성과가 인공지능·컴퓨터비전 분야 연구 역량을 국제적으로 인정받은 사례라고 설명했다.

채택 논문 가운데 2편은 글로벌 빅테크 기업인 메타(Meta), 네이버(NAVER) 연구진과 공동으로 수행한 연구다. 최 교수는 이들 논문 2편에 제1저자로 참여했다.
첫 번째 논문 'ECC: Encoder-Centric Corruption for Fine-Grained Vision in VLMs'는 메타 차성민 연구원, 캐나다 브리티시컬럼비아대학교(UBC) 이광무 교수 연구팀과 함께 진행한 국제 공동연구다.
연구팀은 비전-언어 모델(VLM)이 세밀한 시각 정보를 충분히 반영하지 못하는 문제를 개선하기 위해 '인코더 중심 손상(Encoder-Centric Corruption, ECC)' 기법을 제안했다. 이 기법은 기존 학습 방식보다 성능 향상을 보였고, 여러 대규모 모델에서도 일관된 개선 효과를 확인했다. 연구팀은 이를 통해 차세대 파운데이션 모델 학습 전략으로서 가능성을 제시했다.
두 번째 논문 'Isotropic Embedding Perturbations for Robust Vision Language Encoders'는 네이버 인공지능 연구진과 공동으로 수행했다. 연구팀은 기존 데이터 증강 기법의 한계를 보완하기 위해 임베딩 공간에서 작동하는 새로운 증강 기법 'Aether'를 제안했다. 해당 기법은 의미적 일관성을 유지하면서 모델의 강건성을 높이는 방식으로, 비전-언어 모델의 성능 개선 가능성을 입증했다.
세 번째 논문 'Enhancing Alignment for Unified Multimodal Models via Semantically-Grounded Supervision'은 통합 멀티모달 모델의 정렬 성능을 높이는 연구다. 최 교수는 이 연구에 공저자로 참여했다. 연구팀은 의미 기반 시각 단서와 손상 입력을 활용해 생성 품질과 교차 모달 정렬 성능을 함께 개선하는 방법을 제안했다.
최 교수는 "이번 성과는 메타와 네이버 등 글로벌 연구진과의 협력을 통해 이뤄낸 결과"라며 "앞으로도 비전-언어 모델과 멀티모달 인공지능 분야의 핵심 연구를 지속해 학계와 산업계 발전에 기여하겠다"고 말했다.
jane94@newspim.com












