[연구의 필요성]
약지도 밀집 비디오 캡셔닝(Weakly-Supervised Dense Video Captioning, WSDVC) 연구는 영상 내 이벤트의 시간적 경계(temporal boundary)에 대한 라벨링 없이 캡션 주석만으로 이벤트를 탐지하고 설명하는 작업입니다. 이를 위해 기존 연구는 가우시안 마스킹(Gaussian masking)과 상호 보완적 캡셔닝(complementary captioning)에 기반한 암묵적 지도(implicit supervision) 패러다임을 도입했습니다. 하지만 기존 방식은 서로 겹치지 않는 마스크를 생성하는 데에만 집중할 뿐, 마스크와 해당 이벤트 간의 의미적 관계를 고려하지 않아, 의미적으로 유의미한 영역을 포착하지 못하는 단순하고 균일하게 분포된 마스크를 만든다는 한계가 있습니다. 또한 정답(ground-truth) 캡션에만 의존하는 방식은 기존 데이터셋이 본질적으로 희소(sparse)하다는 특성으로 인해 차선의 성능에 머무릅니다. 이에 따라 이벤트와 시각적 영역 간의 의미적 정렬을 반영하는 새로운 약지도 학습 방법론이 요구되었습니다.
[연구의 의미]
SAIL은 이러한 약지도 밀집 비디오 캡셔닝의 문제를 해결하기 위해 제안된 새로운 학습 프레임워크 로서 기존 방식처럼 단순히 서로 다른 시간 구간에 가우시안 마스크를 적용하는 대신, 교차 모달 정렬(cross-modal alignment)을 통해 의미를 인지하는(semantically-aware) 마스크를 구성하는 것을 목표로 합니다.
이를
위해 SAIL은 다음과 같은 두 가지 핵심 전략을 제안했습니다.
첫째, 유사도 인지 가이드(Similarity-Aware
Guidance)는 Vision-Language모델인 CLIP임베딩의
교차 모달 유사도를 활용하여 마스크가 이벤트와 관련된 영역(event-relevant region)을
강조하도록 유도합니다.
둘째, 캡션 간 증강(Inter-Caption
Augmentation)은 희소한 정답 주석을 대형 언어 모델(LLM)로 증강한 이벤트
캡션으로 보강하여, 모델이 보다 풍부한 이벤트-영역 정렬
관계를 학습할 수 있도록 합니다. 이러한 접근을 통해 SAIL은
데이터의 희소성으로 인한 학습 한계를 극복하면서, 대상 이벤트를 정확히 설명하는 고품질 캡션 생성을
가능하게 합니다.
[연구 결과의 진행 상태 및 향후 계획]
SAIL은 ActivityNet과 YouCook2와 같은 표준 벤치마크에서 그 효과를 입증했습니다. 캡셔닝 작업에서 CIDEr 35.38을 달성하여 기존 WSDVC 모델을 능가했으며, 다른 모든 캡셔닝 지표에서도 일관되게 우수한 성능을 보였습니다. 또한 지역화(localization) 작업에서도 가장 높은 재현율(54.39)과 정밀도(59.87)를 바탕으로 최고 F1 점수(57.00)를 기록하며 최고 성능을 달성했습니다. 특히 학습 과정에서 시간적 경계 주석을 전혀 사용하지 않았음에도 불구하고, 대다수 지표에서 완전 지도(fully-supervised) 방식을 능가하는 결과를 보였습니다. 이는 의미를 인지하는 마스크가 이벤트 관련 영역을 성공적으로 강조하여 정확한 캡션 생성을 가능하게 함을 입증합니다. 향후 연구에서는 밀집 비디오 캡셔닝 작업을 넘어, 다양한 멀티모달 작업 전반에 걸친 데이터 희소성 문제를 완화하는 방법으로 SAIL의 원리를 확장할 계획입니다.
그림 1. SAIL 티저
그림 2. SAIL 전체 구조도
[성과와 관련된 실적]
국제 학회 논문:
Ye-Chan Kim, SeungJu Cha, Si-Woo Kim, Minju Jeon, Hyngee Kim, Dong-Jin Kim,
“SAIL: Similarity-Aware Guidance and Inter-Caption Augmentation-based Learning
for Weakly-Supervised Dense Video Captioning”, Conference on Computer Vision
and Pattern Recognition (CVPR), 2026. (main conference)
※ CVPR (Conference on Computer Vision and Pattern Recognition)는 인공지능(AI) 분야를 대표하는 세계 최고 수준의 국제 학회 중 하나임.