[연구의 필요성]
Dense Video Captioning(DVC)은 긴 비디오 속에서 여러 이벤트를 탐지하고 각 이벤트를 자연어로 설명하는 중요한 비전-언어 연구 분야입니다. 최근에는 외부 데이터베이스로부터 관련 캡션을 검색하여 활용하는 Retrieval-Augmented DVC 방식이 우수한 성능을 보이고 있습니다. 그러나 기존 방법들은 이벤트 구간을 생성할 때 균일 샘플링이나 프레임 유사도 기반 클러스터링과 같은 휴리스틱한 분할 방식을 사용하기 때문에 실제 이벤트 경계와 일치하지 않는 경우가 많습니다. 이러한 잘못된 구간 분할은 관련성이 낮은 캡션 검색으로 이어지고, 결과적으로 캡션 생성 성능을 저하시킵니다. 따라서 Retrieval-Augmented DVC의 성능을 향상시키기 위해서는 검색 과정 이전에 실제 이벤트 경계와 잘 정렬된 정확한 temporal localization을 수행하는 것이 매우 중요합니다.
[연구의 의미]
STaRC(Saliency Training for Retrieval and Captioning)는 이러한 문제를 해결하기 위해 제안된 새로운 지도학습 기반 Saliency 프레임워크입니다. STaRC는 기존 DVC 데이터셋에 포함된 이벤트 구간 정보를 활용하여 추가적인 라벨링 비용 없이 프레임 단위 중요도(Saliency)를 학습합니다.
학습된 Saliency 정보는 두 가지 핵심 방식으로 활용됩니다.
1) Saliency-Guided Segmentation and Retrieval (SGSR):
학습된 Saliency를 기반으로 Optimal Transport 기법을 적용하여 실제 이벤트 경계와 정렬된 비디오 구간을 생성합니다. 이를 통해 기존 방식보다 더 정확한 이벤트 단위 검색이 가능하며, 검색된 캡션의 품질을 크게 향상시킵니다.
2) Saliency Prompt (SaliP):
프레임 단위 Saliency 정보를 디코더에 직접 입력하여 중요한 시각 정보를 명시적으로 전달합니다. 이를 통해 모델은 의미적으로 중요한 구간에 집중하여 보다 정확하고 자연스러운 캡션을 생성할 수 있습니다.
STaRC는 동일한 Saliency 신호를 Retrieval과 Caption Generation 모두에 활용하는 Unified Saliency-Based Design을 제안함으로써 두 과정 간의 일관성을 확보하고 성능 향상을 이끌어냅니다.
[연구 결과의 진행 상태 및 향후 계획]
STaRC는 YouCook2 및 ViTT와 같은 대표적인 Dense Video Captioning 벤치마크에서 기존 최신 Retrieval-Augmented 방법들을 뛰어넘는 성능을 달성하였습니다. 특히 CIDEr, METEOR, BLEU4 등 주요 캡셔닝 지표에서 최고 수준의 성능을 기록하였으며, 이벤트 구간 탐지(Localization) 성능 또한 크게 향상시켰습니다.
또한 분석 결과, 이벤트 구간 분할 품질이 향상될수록 Retrieval 품질과 Caption 성능이 함께 향상되는 강한 상관관계를 확인하였으며, 이를 통해 Retrieval-Augmented DVC에서 정확한 Temporal Localization의 중요성을 입증하였습니다.
향후 연구에서는 현재의 Saliency 기반 학습 방식을 Egocentric Video Understanding, Cross-view Dense Video Captioning, Video Retrieval 등 다양한 비디오 이해 분야로 확장할 계획입니다. 또한 지도학습 기반 Saliency를 활용한 보다 정교한 Localization 및 Retrieval 구조를 개발하여 장시간 비디오 이해 문제를 해결하는 방향으로 연구를 발전시킬 예정입니다.
[성과와 관련된 실적]
국제 학회 논문: Choi,Seung hee et al. "Follow the Saliency: Supervised Saliency for Retrieval-augmented Dense Video Captioning." CVPR 2026.
그림 1: STaRC 전체 구조도
그림 2: STaRC main 결과