[연구의 필요성]
제로샷 이미지 캡셔닝(Zero-shot Image Captioning, ZIC)연구는 비용이 많이 드는 데이터 라벨링 과정을 보완하고자 텍스트-이미지(T2I) 생성 모델을 통한 합성 데이터셋을 구축하는 방향으로 발전하고 있습니다. 하지만T2I 모델은 입력된 캡션의 의미를 이미지에 완벽히 반영하지 못하는 의미적 불일치(semantic misalignment)문제를 보입니다. 이러한 부정확한 이미지-캡션 쌍은 캡셔닝 모델의 학습을 방해하는 요인이 됩니다. 기존의 데이터 정제 기술들은 주로 웹에서 수집된 데이터의 질 낮은 텍스트를 제거하는 데 초점이 맞춰져 있어, 텍스트는 잘 정제되어 있으나 이미지가 문제인 합성 데이터셋의 특성에는 적합하지 않기 때문에, 적절한 제로샷 이미지 캡셔닝을 위한 데이터 정제론을 새롭게 제안합니다.
[연구의 의미]
SynC는 이러한 합성 데이터셋의 문제를 해결하기 위해 제안된 새로운 정제 프레임워크입니다. 기존 방식처럼 단순히 품질이 낮은 이미지-캡션 쌍을 제거하는 대신, 이미 생성된 이미지 풀 내에서 각 캡션에 가장 잘 맞는 이미지를 다시 찾아 연결해주는 방식을 사용합니다. 이를 위해 SynC는 두 가지 핵심 전략을 사용합니다. 1) 일대다 매핑:하나의 캡션에 대해 가장 연관성 높은 여러 후보 이미지들을 검색합니다. 2) 검색 기반 평가:후보 이미지 중에서 원본 캡션을 가장 잘 검색해내는 이미지를 최종적으로 선택하여, 양방향 의미 일관성을 검증합니다. 이러한 접근을 통해 SynC는 불완전한 생성으로 인해 버려질 수 있었던 좋은 캡션들을 보존하면서 데이터셋의 전반적인 품질을 크게 향상시킵니다.
[연구 결과의 진행 상태 및 향후 계획]
SynC는 MS-COCO, Flickr30k, NoCaps와 같은 표준 벤치마크에서 여러ZIC 모델의 성능을 일관되고 큰 폭으로 향상시켰으며, 다수의 시나리오에서 최첨단(state-of-the-art) 성능을 달성했습니다. 이는SynC가ZIC 모델 학습을 위한 합성 데이터 정제에 매우 효과적인 전략임을 입증합니다.
향후 연구에서는SynC의 원리를 이미지 분할(segmentation)이나 시각 질의응답(VQA)등 다른 비전-언어 분야로 확장하고, 더 발전된 이미지 생성 모델을 활용하여 그 적용 가능성을 넓힐 계획입니다.
[성과와 관련된 실적]
국제 학회 논문:
Si-Woo Kim, MinJu Jeon, Ye-Chan Kim, Soeun Lee, Taewhan Kim, Dong-Jin Kim, “SynC: Synthetic Image Caption Dataset Refinement with One-to-many Mapping for Zero-shot Image Captioning”, ACM International Conference on Multimedia (MM), 2025
그림 1. SynC 전체 구조도
그림 2. SynC 결과