[연구의 필요성]
거대언어모델(LLM) 같은 대규모 사전학습 모델을 다양한 다운스트림 작업에 맞게 미세 조정하면서 다수의 작업별 모델이 생성되고 있다. 이 모델들을 하나의 멀티태스크 모델로 병합하려는 시도가 활발하지만, 서로 다른 작업에서 미세 조정된 파라미터 간 간섭(parameter interference)으로 인해 병합 모델의 성능 저하가 발생하는 문제가 존재한다. 기존 연구는 병합 방식이나 학습 방식 일부만 조정하여 이 문제를 해결하려 했으나, 각 작업별 성능 저하를 초래하거나 일반화가 부족한 한계를 지닌다.
[연구의 의미]
본 연구는 모델 병합 시 파라미터 간 간섭을 완화하고 각 작업의 성능을 유지하기 위한 새로운 미세 조정 방식인 SAFT(Sharpness-Aware Fine-Tuning)를 제안한다. 이는 Sharpness-Aware Minimization(SAM) 기법에 기반해 평탄한 최소값 영역(flat minima)을 찾도록 유도함으로써 병합 시 발생할 수 있는 파라미터 변동에 덜 민감한 모델을 생성한다. 이로 인해 병합 모델의 성능 저하를 줄이고, 작업 간 파라미터 독립성(weight disentanglement)을 개선하여 멀티태스크 학습의 효율성과 확장성을 높인다.
[연구 결과의 진행 상태 및 향후 계획]
SAFT는 기존 SGD, 선형화 기반 미세 조정(FTTS), 선형 계층만 조정하는 FTLO 대비 병합 모델의 성능을 향상시켰으며, 다양한 병합 방식(가중 평균, 태스크 산술, TIES)과 결합해도 일관된 성능 향상을 보였다. 이 방법은 각 작업의 성능을 유지하면서도 병합된 모델의 일반화 성능을 개선하는 데 성공했다. 향후에는 SAFT를 다양한 아키텍처 및 자연어 처리와 같은 다른 도메인에도 확장 적용할 계획이다.
국제 학회 논문:
Yeoreum Lee, Jinwook Jung, Sungyong Baik, "Mitigating Parameter Interference in Model Merging via Sharpness-Aware Fine-Tuning," ICLR 2025.
※ ICLR (International Conference on Learning Representations)는 인공지능(AI), 기계학습(ML) 분야를 대표하는 세계 최고 수준의 국제 학회임. (2025년 7월 기준 Google Scholar “Engineering & Computer Science” 분야 기준 상위 4위 그리고 전 분야에서 10위)