한양대학교 데이터사이언스학과

[연구의 필요성]

최근 CLIP과 같은 vision language models(VLMs)와 GPT와 같은 large language models(LLMs)의 발전으로 이를 활용한 연구가 활발히 이루어지고 있지만, 이러한 모델을 학습하기 위해서는 데이터 수집 및 주석 작업에 많은 시간과 비용이 소요된다. 이처럼 데이터 의존 문제를 완화하기 위해 제로샷 학습(Zero-shot learning) 방법은 모델이 학습하지 않은 데이터도 잘 설명할 수 있도록 하는 것을 목표로 한다. 특히, 이미지 데이터 없이 텍스트만으로 이미지를 학습한 효과를 내는 text-only training 방식이 연구되고 있다. 이 방식은 학습 시 텍스트 데이터를, 테스트 시 이미지 데이터를 입력으로 받으며, 대규모 데이터 쌍에서 학습되어 이미지와 관련 텍스트를 공유된 특징 공간에서 가깝게 위치 시키는 CLIP의 능력을 활용한다. CLIP의 우수한 성능은 다양한 연구 분야에서 입증되고 있지만, 최근 CLIP에 이미지와 텍스트 같은 서로 다른 모달리티 간의 차이(modality gap)가 존재한다는 문제가 제기되고 있다. 이는 모델 학습에 부정적인 영향을 미칠 수 있으므로 모달리티 간의 차이를 완화해야 한다.

[연구의 의미]

본 연구(IFCap)는 text-to-text retrieval을 통한 효율적인 제로샷 캡셔닝을 수행하고자 한다. Retrieval은 입력 데이터와 가장 유사한 정보를 외부 데이터에서 검색해와 활용함으로써 학습 없이도 학습한 효과를 내는 효율적인 방식이다. 기존 text-only training 방식이 모달리티 간 차이를 해결하지 못한 반면, 본 연구는 모달리티 차이를 고려한 text-to-text retrieval을 수행하는 방법(Image-like Retrieval)을 제안하여 테스트 시 이미지가 입력되는 text-only training의 환경에 더 적합하고 효율적인 제로샷 캡셔닝을 수행하도록 한다. 또한, 입력 텍스트로부터 명사를 추출 및 필터링하는 방식(Frequency-based Entity Filterning)을 제안하여 LLM에게 명시적인 가이드를 주어 캡션 생성 품질을 향상 시킨다.

[연구 결과의 진행 상태 및 향후 계획]

제안하는 연구(IFCap)는 이전의 연구들과 비교하여 이미지 및 비디오 캡셔닝 분야에서 뛰어난 성능을 입증하였다. 또한, 학습에 사용하는 특징 벡터를 시각화 함으로써 기존 연구 대비 모달리티 간의 차이가 완화되었음을 보이면서 제안하는 연구가 효과적임을 증명하였다. 향후 연구에서는 본 연구를 확장하여 비디오의 시간 정보를 고려하여 더욱 향상된 비디오 캡셔닝을 위한 새로운 연구 방법을 제안할 계획이다.

[성과와 관련된 실적]

국제 학회 논문:

Soeun Lee*, Si-Woo Kim*, Taewhan Kim, Dong-Jin Kim. "IFCap: Image-like Retrieval and Frequency-based Entity Filtering for Zero-shot Captioning", International Conference on Empirical Methods in Natural Language Processing (EMNLP), 2024. (long, main)

*co-first authors

※ EMNLP (Empirical Methods in Natural Language Processing)는 컴퓨터공학을 구성하는 분야 중 하나인 “자연어처리(Natural Language Processing; NLP)” 분야를 대표하는 세계 최고 수준의 국제 학회임.

emnlp2024_framework

한양대학교 데이터사이언스학과

학부뉴스