한양대학교 데이터사이언스학과

[연구의 필요성]

Vision Transformer는 이미지 클래스 예측에 주로 [CLS] 토큰을 활용하도록 개발되어 왔으며, 설명 가능한 Vision Transformer의 시각화는 [CLS] 토큰과의 연관성 정보나 self-attention 과정의 attention score를 활용하는 방식으로 연구되어 왔다. 그러나 Transformer 구조의 skip connection 및 attention 연산자에 대한 의존성, 학습 과정에서의 비선형성으로 인한 불안정성, 그리고 attention score가 관련성을 충분히 반영하지 못하는 이슈 등은 Vision Transformer의 시각화를 어렵게 만드는 요인이다. 이러한 문제를 해결하기 위해, 모델 내부에서 판단 근거를 찾는 접근의 한계를 극복하고, 모델 외부의 근거를 활용하여 보다 정확하고 설명 가능한 시각화 방법을 모색할 필요가 있다.

[연구의 의미]

본 연구에서는 Vision Transformer의 각 입력 패치 토큰에 대한 출력 임베딩 벡터가 여전히 각 패치 위치의 이미지 특질을 보유하고 있으며, 이는 이미지 클래스를 예측하는 데 도움이 될 수 있음을 주목하였다. 이를 기반으로 [CLS] 토큰을 제외한 각 패치 토큰의 출력 임베딩 벡터를 활용하여 설명 가능한 시각화를 수행하는 새로운 방법론인 ICE (I Can visualize Everything), ICEv2(ICEv2: Interpretability, Comprehensiveness, and Explainability in Vision Transformer)를 제안한다. 제안된 방법론은 모든 패치가 배경인 것으로 가정하고 학습을 시작하며, 점진적으로 일부 이미지 패치에 대해 학습된 클래스를 예측하도록 학습한다. ICE와 ICEv2는 ImageNet-Segmentation 데이터셋에서 각각 픽셀 정확도 4.05%, 5.5% 및 평균 IoU 3.94%, 7.16%의 향상을 달성하였으며, 여러 객체가 존재하는 이미지에서도 효과적인 시각화 성능을 입증하였다.

[연구 결과의 진행 상태 및 향후 계획]

향후 연구에서는 ICE와 ICEv2를 활용하여 이미지 내 다양한 클래스와 크기의 여러 객체들이 존재하는 경우에도 이미지 분류 모델의 설명 가능한 시각화를 수행할 계획이다. 예를 들어 의료 이미지 분류, 결함 분류, 패션 스타일 분류와 같은 분야에서는 대상 이미지에 다양한 크기의 주요 객체들이 존재할 수 있다. 이러한 사례에서 분야 전문가 등 최종 사용자가 모델의 시각화된 설명 가능성을 확인해야 할 때, 이미지 클래스를 결정하는 영역을 최대한 정확하게 시각화하는 것이 필요하다. ICE와 ICEv2는 이미지 클래스의 특징을 가진 모든 이미지 패치의 설명 가능성을 시각화하기 때문에, 다양한 분야에서 유용하고 적용 가능할 것으로 기대할 수 있다.

- 발표 영상: https://www.youtube.com/watch?v=ZeZYWmrHqIw

[성과와 관련된 실적]
국제 학회 논문:

- Hoyoung Choi*, Seungwan Jin* and Kyungsik Han. (*equal contribution) “Adversarial Normalization: I Can visualize Everything (ICE)”, CVPR 2023.

- Hoyoung Choi, Seungwan Jin and Kyungsik Han. “ICEv2: Interpretability, Comprehensiveness, and Explainability in Vision Transformer”, International Journal of Computer Vision.

※ CVPR (IEEE/CVF Conference on Computer Vision and Pattern Recognition)은 컴퓨터공학을 구성하는 분야 중 하나인 “컴퓨터 비전 (Computer Vision)” 분야를 대표하는 세계 최고 수준의 국제 학회임.

※ IJCV (International Journal of Computer Vision)은 컴퓨터공학을 구성하는 분야 중 하나인 “컴퓨터 비전 (Computer Vision)” 분야를 대표하는 세계 최고 수준의 국제 저널임 (Impact Factor: 11.6).

그림1 그림 1. ICE의 구조

그림2

그림 2. ICEv2의 구조

그림3

그림 3. CVPR’23 학술대회 발표 사진.

한양대학교 데이터사이언스학과

학부뉴스