한양대학교 데이터사이언스학과

[연구의 필요성]

기존 연구에서는 대규모 이미지와 텍스트 데이터를 다루는 자기지도 학습 기반 비전-언어 사전 학습(Vision-Language Pre-training) 모델에서 세밀한 특징을 반영하는 단일 모달 임베딩과 어려운 음성 샘플(hard negative sample) 처리에 한계가 있었다. 특히 대조학습 기반 교차 모달 학습을 위한 임베딩 과정에서 전역 표현(global representation)에 의존하는 경향은 데이터의 전반적인 특징을 반영하는 데는 효과적이지만, 세밀한 특징을 반영하기에는 한계가 있다. 또한, 세밀한 교차 모달 정렬을 위해서는 긍정 샘플과 어려운 음성 샘플을 효과적으로 구분하는 것이 중요하지만, 자기지도 학습 기반 대조학습 과정에서의 대규모의 쉬운 음성 샘플(easy negative sample)의 손실 규모가 어려운 음성 샘플의 손실을 압도하는 현상은 어려운 음성 샘플을 양성 샘플과 구분하는 학습을 어렵게 만드는 또 다른 요인이다. 이에 따라, 자기지도 학습 기반 대조학습 과정에서 세밀한 지역 표현을 전역 표현과 통합하여 어려운 음성 샘플에 초점을 맞춘 대조학습을 유도하는 것이 세밀한 교차 모달 정렬 성능을 개선하는 효과적인 방법이 될 수 있다.

[연구의 의미]

본 연구는 비전-언어 사전 학습에서 이미지와 텍스트 간의 세밀한 정렬 문제를 개선하기 위한 3가지 학습 모듈(i.e., MAA, HNM-F 그리고 C-CmA)을 포함하는 방법론인 Fashion-FINE을 제안한다. 제안한 세 가지 모듈들은 이중 스트림 아키텍처에 기반한 다양한 vision-language models(VLMs)의 교차모달 정렬 학습에 적용될 수 있어 세밀한 크로스모달 표현 학습에 활용 가능성을 크게 확장한다. 특히, 최근 다양한 인공지능 응용 분야에서 강력하고 범용적인 성능을 제공하는 기반 모델(foundation model) 아키텍처 중 하나인 BLIP 에 대한 적용 가능성 실험을 통해 제안하는 방법의 확장성을 보였다. 본 연구에서 제안된 방법론은 패션 도메인을 넘어 다른 세밀한 특징을 가진 도메인에도 적용될 수 있는 잠재력이 있으며, Fashion-FINE이 기존의 융합 인코더(fusion encoder) 기반 사전 학습 작업과도 성공적으로 통합될 수 있음을 정량적으로 입증함으로써, 세밀한 교차모달 정렬을 위한 VLP 아키텍처의 발전에 기여하였다.

[연구결과의 진행 상태 및 향후 계획]
제안하는 Fashion-FINE을 활용한 대표적인 다운스트림 테스크는 교차모달 검색(i.e., text-image retrieval, image-text retrieval)이다. 일반적으로 교차모달 검색 학습을 위한 벤치마크에 사용된 텍스트는 이미지를 충분히 상세 설명하고 있으나, 실제 세계에서 사용자들은 이미지 검색 시에 벤치마크의 텍스트와 같이 상세 설명을 충분히 작성하여 쿼리로 입력하지 않는다는 한계점이 있다. 이는 벤치마크를 통해 학습된 모델을 실제 세계에서 적용하는 데에 어려움으로 작용한다. 향후에는 짧은 텍스트 쿼리에 대해서도 일반화된 검색 결과를 제공할 수 있는 방법론과 함께 사용자들의 검색 의도와 선호도를 반영하여 실제 세계에서 적용 가능한 개인화된 검색 지원 프레임워크를 제안하는 연구를 수행할 계획이다.

[성과와 관련된 실적]
국제 학회 논문:

- Seungwan Jin, Hoyoung Choi, Taehyung Noh, Kyungsik Han (2024). Integration of Global and Local Representations for Fine-grained Cross-modal Alignment. The European Conference on Computer Vision (ECCV).

※ ECCV (The European Conference on Computer Vision)은 컴퓨터공학을 구성하는 분야 중 하나인 “컴퓨터 비전 (Computer Vision; CV)” 분야를 대표하는 세계 최고 수준의 국제 학회임.

Figure_01

그림 1. Fashion-FINE 개요. (a): 제안된 세 가지 모듈(i.e., MAA, HNM-F, C-CmA)을 통한 세밀한 크로스모달 정렬. (b): 각 모달리티에 대한 미니 배치에서의 하드 네거티브 샘플링. (c): 주어진 긍정 쌍과 두 개의 하드 네거티브 쌍을 위한 퓨전 인코더 기반 사전 학습 작업(i.e., image-text matching, prompt token prediction, token replacement prediction).

한양대학교 데이터사이언스학과

학부뉴스