학부뉴스

학부뉴스

[연구, 김동진 교수] VerbDiff: 상호작용 인식 능력을 강화한 텍스트 기반 확산 모델 새 글 수정됨
2025-06-04 14:04:45 조회수91

[연구의 필요성]

텍스트 기반 이미지 생성(Text-to-Image) 분야에서 Stable Diffusion의 등장은 고품질 이미지를 손쉽게 합성할 수 있는 계기가 되었습니다. 그러나 CLIP의 동사 이해 한계로 인해 사람사물 상호작용을 정확히 묘사하는 데 어려움이 남아 있습니다. 최근에는 바운딩 박스를 활용해 상호작용을 반영하려는 시도가 있었지만, 여전히 동사 의미 자체를 모델이 이해하지 못하고 박스 위치에만 의존하는 한계를 보입니다. 이에 본 연구는 오직 텍스트 입력만으로 동사 의미를 내재화시켜 상호작용을 생성할 수 있는 새로운 방식을 제안합니다.

 

[연구의 의미]

VerbDiff는 바운딩 박스 없이도 입력 동사에 걸맞은 사람사물 상호작용을 정확히 구현하는 텍스트 기반 생성 모델입니다. 생성모델은 동사의 의미적인 차이를 구분하지 못하고 사람과 사물의 가장 빈번한 상호작용을 기반으로 생성하는 경향이 있습니다. VerbDiff는 이러한 동사 편향(interaction bias)을 의미 단위로 분리하고, 이미지 전역상호작용 영역 양쪽에서 상호작용 특징을 반영함으로써, 다양한 동사 구문을 충실히 시각화합니다.

 

[연구 결과의 진행 상태 및 향후 계획]

VerbDiff는 기존 방식에 비해 다양한 평가지표(CLIP-score, HOI Accuracy, VQA score)에서 높은 성능을 보였으며, 단일 상호작용뿐 아니라 다중 상호작용 상황에서도 텍스트만으로 사실적인 이미지를 생성할 수 있음을 보였습니다.

향후 연구에서는 위치 정보를 결합하여 원하는 위치에서 정확한 상호작용을 생성토록 하는 방식으로 확장할 예정입니다.

 

[성과와 관련된 실적]

국제 학회 논문:

SeungJu Cha, Kwangyoung Lee, Ye-Chan Kim, Hyunwoo Oh, Dong-Jin Kim, “VerbDiff: Text-only Diffusion Models with Enhanced Interaction Awareness”, Conference on Computer Vision and Pattern Recognition (CVPR), 2025. (main conference)

CVPR (Conference on Computer Vision and Pattern Recognition)는 인공지능(AI) 분야를 대표하는 세계 최고 수준의 국제 학회 중 하나임.

 

teaser-1 

 

pipeline-1 

 
사이트맵 닫기