학부뉴스

학부뉴스

논문실적 [연구, 김동진 교수] Sali4Vid, 시간적 중요도를 고려한 비디오 프레임 재가중 및 캡션 생성 방법
2025-11-28 14:47:07 조회수120

 [연구의 필요성]

Dense Video Captioning (DVC) task는 영상 내 이벤트의 경계를 탐지하고 이에 맞는 캡션을 생성하는 복합적인 문제입니다. 하지만, 기존 모델들은 제공되는 타임 스탬프 정보를 텍스트 정보로만 활용하고, 정작 비디오 프레임은 모두 동일한 중요도로 처리하는 구조적 한계를 가지고 있었습니다. 이러한 균일한 처리 방식은 모델이 실제 중요한 장면이나 이벤트 전환 지점에 집중하지 못하도록 만들며, 결과적으로 이벤트 인식 성능이 저하됩니다. 또한 최근 사용되는 외부 캡션 기반의 retrieval 방식 역시 고정 길이의 영상 조각을 기준으로 캡션을 검색해 장면 전환을 반영하지 못하고 의미적으로 다른 사건들이 섞인 상태로 검색되는 문제가 발생합니다. 따라서 비디오의 시간적 중요도를 직접 반영하고 의미 기반으로 장면을 구분하여 보다 정확한 캡션을 제공할 수 있는 새로운 접근이 필요합니다.

 

[연구의 의미]

본 연구는 타임스탬프 어노테이션을 직접 활용해 프레임마다 시그모이드 기반 중요도를 부여함으로써 기존 모델에서 비어 있던 비디오 영역의 시간적 지시 정보를 새롭게

 도입했다는 점에서 의미가 큽니다. 이를 통해 모델은 학습 과정에서 더 중요한 시각적 단서를 효과적으로 활용하게 되며, 이벤트 중심부와 경계 지점에 대한 인식이 향상됩니다. 더불어 프레임 간 유사도 변화를 활용하는 의미 기반 적응형 세그멘테이션 방식을 통해 고정 길이의 caption retrieval 이 갖는 정보 혼합 문제를 해결하고, 각 의미 단위에 가장 적합한 외부 캡션을 검색하도록 설계한 점 역시 중요한 기여입니다. 두 구성 요소는 상호 보완적으로 작용해 Dense Video Captioning의 구조적 한계를 해결하며, DVC뿐 아니라 다양한 비디오-언어 모델링 분야로 확장될 수 있는 기반을 제시합니다.

 

[연구결과의 진행 상태 및 향후 계획]

현재까지의 실험에서 Sali4VidYouCook2ViTT에서 기존 최고 성능을 뛰어넘는 SOTA를 기록하며 효과를 입증하였습니다. 시그모이드 기반 프레임 가중치는 이벤트 경계 탐지와 캡션 생성 성능 모두를 유의하게 향상시켰고, 의미 기반 세그멘테이션은 caption retreival 오류를 크게 줄이며 정교한 캡션 생성을 가능하게 했습니다. 다양한 ablation 실험을 통해 각 구성 요소의 효과도 충분히 검증된 상태입니다. 향후에는 타임스탬프 의존성을 줄여 weakly-supervised 학습 환경에서도 적용할 수 있는 saliency 추정 모델을 개발하고, boundary 추정 방식 역시 attention 기반 혹은 self-supervised 방식으로 확장할 계획입니다. 또한 실시간 streaming captioning 까지 연구 범위를 확장해 보다 넓은 비디오-언어 응용 분야로 발전시킬 예정입니다.

 

[성과와 관련된 실적]

국제 학회 논문:

MinJu Jeon, Si-Woo Kim, Ye-Chan Kim, HyunGee Kim, Dong-Jin Kim, “Sali4Vid: Saliency-Aware Video Reweighting and Adaptive Caption Retrieval for Dense Video Captioning”, International Conference on Empirical Methods in Natural Language Processing (EMNLP), 2025. (long, main)

 

Sali4Vid_구조도 

그림 1. Sali4Vid 전체 구조도

 

Sali4Vid_정성평가

그림 2. Sali4Vid 정성 평가 결과

 

 
사이트맵 닫기