[연구의 필요성]
텍스트 기반 이미지 생성(Text-to-Image) 분야에서 Diffusion 모델은 고품질 이미지를 손쉽게 합성할 수 있는 계기가 되었습니다. 그러나 학습 해상도보다 더 큰 해상도로 확장해 생성할 경우, 품질 저하와 구조적 불안정이 쉽게 발생합니다. 최근에는 고해상도 재학습이나 다양한 보정 기법이 시도되고 있지만, 추가 데이터·연산 비용이 크거나 특정 모델 구조에만 제한되는 한계가 있습니다. 이에 추가 학습 없이 다양한 확산모델에서 고해상도 생성을 안정적으로 확장할 수 있는 새로운 접근이 필요합니다.
[연구의 의미]
ScaleDiff는 사전학습된 Diffusion 모델을 그대로 활용하면서도, 생성 과정의 비효율을 줄이고 전역 구조를 유지해 고해상도 이미지 합성 품질을 향상시키는 방법입니다. 기존 방식이 패치 기반 처리에서 계산 중복이 커지거나 모델 구조 의존성이 생기는 경향이 있었다면, ScaleDiff는 이를 완화해 효율성과 범용성을 동시에 확보합니다. 결과적으로 별도 학습 없이도 더 큰 해상도에서 안정적인 생성이 가능하도록 합니다.
[연구 결과의 진행 상태 및 향후 계획]
ScaleDiff는 여러 Diffusion 모델 환경에서 고해상도 확장 성능을 검증했으며, 기존 training-free 방식 대비 품질을 유지하면서 생성 효율을 개선함을 보였습니다. 향후 연구에서는 더 큰 해상도 및 다양한 조건 제어 상황에서도 원하는 구조와 디테일을 안정적으로 생성할 수 있도록 확장할 예정입니다.
[성과와 관련된 실적]
국제 학회 논문:
Sungho Koh, SeungJu Cha, Hyunwoo Oh, Kwanyoung Lee, Dong-Jin Kim, “ScaleDiff: Higher-Resolution Image Synthesis via Efficient and Model-Agnostic Diffusion”, The Thirty-Ninth Annual Conference on Neural Information Processing Systems, 2025.
그림 1. ScaleDiff 전체 구조도
그림 2. SclaeDiff 정성 비교 결과