[연구의
필요성] 텍스트로부터 이미지를 생성하는 확산 모델(text-to-image
diffusion model) 연구는 대규모 사전학습을 통해 사실적이고 의미가 풍부한 이미지를 만들어내는 방향으로 빠르게 발전해왔습니다. 그러나 이러한 모델은 학습 데이터에 드물게 등장하는 희귀한 개념(예: "털 달린 개구리", "종이접기 고양이")이나 복잡한 편집 지시를 입력받았을 때, 의미가 어긋나거나
구조가 무너지는 문제를 자주 보입니다. 이는 텍스트-이미지
학습 데이터가 자주 등장하는 흔한 개념에 치우쳐 있는 반면, 희귀한 개념은 충분히 학습되지 못하여, 생성 결과가 자주 등장하는 익숙한 개념 쪽으로 치우치기 때문입니다. 이를
보완하기 위해 기존 연구들은 보조 프롬프트를 안내자(anchor)로 활용해왔으나, 보조 프롬프트와 목표 프롬프트 사이의 영향력을 직관과 경험에 의존하여 조절하는 한계가 있었습니다. 따라서 희귀한 개념도 충실하게 생성할 수 있도록, 두 프롬프트의
균형을 원리적으로 결정하는 새로운 프레임워크가 필요합니다.
[연구의 의미] AAPB(Adaptive Auxiliary Prompt Blending)는
이러한 문제를 해결하기 위해 제안된 추가 학습이 필요 없는 통합 프레임워크입니다. 기존 방식처럼 고정된
비율이나 사람이 정한 일정에 따라 두 프롬프트를 섞는 대신, 매 생성 단계마다 목표 프롬프트와 보조
프롬프트의 영향력을 자동으로 조절하는 적응적 계수를 수학적으로 직접 유도하여 사용합니다. 이를 위해 AAPB는 두 가지 핵심 전략을 사용합니다. 1) Tweedie 공식
기반 정렬: 두 프롬프트를 섞어 만든 결과가 목표 프롬프트만으로 만든 결과와 최대한 가까워지도록, 매 단계마다 최적의 혼합 비율을 닫힌 형태의 수식으로 계산합니다. 2) 태스크
통합: 동일한 원리를 희귀 개념 생성과 이미지 편집이라는 서로 다른 두 태스크에 모두 적용하여, 두 태스크가 공통적으로 가진 "데이터에 드물게 나타나는
영역을 다루어야 한다"는 어려움을 하나의 원리로 해결합니다.
또한 이상적인 가정 하에서, 제안한 적응적 방식이 어떠한 고정된 혼합 비율보다도 목표 분포에
더 가까운 결과를 만든다는 것을 이론적으로 증명하여, 방법론을 단순한 휴리스틱이 아닌 원리적 기반 위에
정립했습니다.
[연구 결과의 진행 상태 및 향후 계획] AAPB는 희귀 개념 생성을 평가하는 RareBench 벤치마크와 이미지 편집을 평가하는 FlowEdit 벤치마크
모두에서, 기존 방법 대비 일관되고 큰 폭의 성능 향상을 보였습니다.
RareBench에서는 평균 84.1점을 기록하여 직전 최고 성능 방법인 R2F를 8.4점 차이로 앞섰으며,
특히 속성(+7.5), 형태(+10.0), 다중
객체 관계(+6.8) 항목에서 큰 개선을 달성했습니다. 이미지
편집 실험에서도 의미 충실도와 구조 보존을 동시에 가장 잘 달성하여, 편집 지시는 충실히 따르면서도
원본 이미지의 구조를 잘 유지하는 결과를 보였습니다. 이는 AAPB가
데이터에 드물게 나타나는 영역에서도 목표에 충실한 이미지를 생성하는 데 매우 효과적인 전략임을 입증합니다. 향후
연구에서는 AAPB의 원리를 비디오 생성, 3D 생성 등
다른 생성 분야로 확장하고, 최신 생성 모델들에 적용하여 그 적용 범위를 넓힐 계획입니다.
[성과와 관련된 실적] 국제 학회 논문:
Kwanyoung Lee, SeungJu Cha, Yebin Ahn, Hyunwoo Oh, Sungho Koh, Dong-Jin Kim,
"Adaptive Auxiliary Prompt Blending for Target-Faithful Diffusion
Generation", IEEE/CVF Conference on Computer Vision and Pattern
Recognition (CVPR), 2026
1. 논문 개념도
2. RareBench 벤치마크 결과
3. FlowEdit 벤치마크 결과