[연구의 필요성]
최근 오디오로부터 이미지를 생성하는 연구는CLIP 기반의 간단한 클래스 템플릿(예: “A photo of a dog barking”)을 사용해 텍스트 조건을 구성하지만, 이는 두 가지 한계를 지닙니다. 첫째, 단어의 다의성(예: 눈, 사과)이 시각적으로 정확히 반영되지 못합니다. 둘째, 청각적 착각(auditory illusion)이나 맥락적 정보 손실로 오디오가 표현하는 실제 상황이 왜곡됩니다. 또한 오디오-텍스트 페어 데이터의 부족은 학습을 어렵게 만듭니다. 이러한 문제를 해결하기 위해 오디오 의미를 더 풍부하고 정교하게 표현할 수 있는 새로운 프롬프트 생성 및 선택 메커니즘이 요구됩니다.
[연구의 의미]
CatchPhrase는 이러한 한계를 극복하기 위해 Enriched Cross-modal Prompts(EXPrompts)개념을 제안합니다. 기존의 단순 라벨 대신, 대형 언어모델과 오디오 캡셔닝 모델을 이용해 청각적·시각적 단서를 통합한 서술형 프롬프트를 생성합니다. 이후 EXPrompt Selector모듈이 오디오-프롬프트 간 유사도를 기반으로 가장 적합한 설명을 필터링하고, 학습시에 검색을 통해 최종적으로 입력 오디오에 가장 적합한EXPrompt 하나를 선택하여서 클래스 및 인스턴스 수준의 의미 불일치를 최소화합니다. 최종적으로 선택된EXPrompt는 이미지 생성 모델의 조건으로 활용되며 학습 시EXPrompt는 infoNCE 손실함수에 활용되며, 이는 오디오 입력을 이미지 생성 과정에 효과적으로 연결합니다. 이 연구는 오디오로부터 이미지를 생성시 발생하는 언어적 불일치와 청각적 착각을 체계적으로 다룬 첫 사례로, 다중모달 생성의 새로운 가능성을 제시합니다.
[연구 결과의 진행 상태 및 향후 계획]
CatchPhrase는ESC-50, UrbanSound8K, VGGSound 등 다양한 오디오 데이터셋에서 기존 템플릿 기반 방식 대비 높은Audio-Image Similarity(AIS)와FID 개선을 달성했으며 생성된 이미지를 통해서도 제안하는 방법의 효과성을 보였습니다. 특히 “engine idling”, “gunshot” 등 맥락 의존적 사운드에서 더 사실적이고 일관된 이미지를 생성했습니다. 이는 단순 클래스 레이블 기반 접근을 넘어, 의미적으로 풍부한 프롬프트 설계로 언어적 불일치와 청각적 착각을 완화시킴으로써 오디오-이미지 정렬을 근본적으로 향상시킬 수 있음을 입증합니다.
[성과와 관련된 실적]
국제 학회 논문:
Hyunwoo Oh, SeungJu Cha, Kwanyoung Lee, Si-Woo Kim, Dong-Jin Kim, “CatchPhrase: EXPrompt-Guided Encoder Adaptation for Audio-to-Image Generation”, ACM International Conference on Multimedia (ACM MM), 2025.
그림 1. CatchPhrase 전체 구조도
그림 2. CatchPhrase 결과