[연구의 필요성]
최근 이미지 캡셔닝(Image Captioning) 분야에서는 대규모 모델(SimVLM, PaLi 등)을 활용한 연구가 활발히 이루어지고 있지만, 이러한 모델들은 높은 계산 비용과 대량의 학습 데이터를 필요로 한다는 한계가 있다. 이를 해결하기 위해 경량화된 캡셔닝 모델들이 연구되고 있으며, 특히 외부 데이터에서 검색된 텍스트를 활용하는 retrieval 기반 방식이 주목받고 있다. 하지만 기존 연구들은 검색된 텍스트를 단순한 프롬프트로만 활용하고, 시각 정보는 CLIP의 비전 임베딩에만 의존하는 한계를 갖고 있다. 이에 따라, 검색된 텍스트가 포함하는 이미지 설명이 비전 임베딩 공간에서 충분히 반영되지 않는 문제가 발생한다. 이러한 문제를 해결하기 위해, 본 연구는 검색된 텍스트를 시각 프롬프트로 변환하여 캡셔닝 모델의 성능을 개선하는 새로운 방법을 제안한다.
[연구의 의미]
본 연구 ViPCap은 검색된 텍스트를 활용하여 시각 프롬프트(Visual Prompt)를 생성하는 새로운 경량 이미지 캡셔닝 모델을 제안한다. ViPCap은 검색된 텍스트를 CLIP 임베딩 공간에 매핑하고, 이를 랜덤 가우시안 분포(Randomized Gaussian Distribution) 기반의 샘플링 기법을 활용하여 다양한 의미적 특징을 추출한다. 이후, 추출된 의미적 특징을 이미지 패치와 정렬하여 시각 프롬프트로 변환함으로써, 기존의 retrieval 기반 방식보다 더욱 시각 정보가 강화된 캡셔닝을 가능하게 한다. 특히, 본 연구는 검색된 텍스트에 내재되어 있는 시각 정보가 이미지의 로컬 정보와 결합하여 향상된 캡셔닝으로 다양한 데이터셋(COCO, Flickr30k, NoCaps)에서 뛰어난 성능을 보인다.
[연구 결과의 진행 상태 및 향후 계획]
ViPCap은 기존 경량 캡셔닝 모델 대비 높은 성능을 보이며, 특히 적은 수의 파라미터(14M)로도 뛰어난 효율성을 입증하였다. 또한, 기존의 대규모 모델(OSCAR, SimVLM) 대비 적은 연산 비용으로 유사한 성능을 달성하는 등, 플러그 앤 플레이(Plug-and-Play) 방식의 확장 가능성을 제시하였다. 향후 연구에서는 검색된 텍스트마다 임베딩화하고 비디오 캡셔닝 분야로 확장하여, 더 세밀하고 시간 정보를 고려한 정교한 캡션 생성 방법을 제안할 예정이다.
[성과와 관련된 실적]
국제 학회 논문:
Taewhan Kim, Soeun Lee, Si-Woo Kim, Dong-Jin Kim,"ViPCap: Retrieval Text-Based Visual Prompts for Lightweight Image Captioning", Association for the Advancement of Artificial Intelligence (AAAI), 2025. (main conference)
※ AAAI (Association for the Advancement of Artificial Intelligence)는 인공지능(AI) 분야를 대표하는 세계 최고 수준의 국제 학회 중 하나임.