[연구의 필요성]
최신 인공지능 연구에서도 암시적인 혐오표현(Implicit
Hate Speech)을 탐지하는 것은 여전히 어려운 일이다. 명시적인 혐오표현(Explicit
Hate Speech)은 직접적으로 욕설이나 혐오적 의미가 내포된 표현을 사용하므로 모델이 이러한 패턴을 쉽게 탐지할 수 있으나, 우회적으로 혐오 의도를 전달하는 암시적인 혐오표현은 그렇지 않다. 최근 대조학습(Contrastive
Learning)을 사용하여 보다 효과적인 모델 학습을 장려하는 시도가 있었으나, 이는 교차 엔트로피 로스(Cross
Entropy loss) 기반의 학습에 비해 큰 성능적 이점이 없음이 확인되었다. 본 연구에서는 하드 네거티브 샘플 기반의 대조학습을 통해 모델이 세부적인 특성을 학습하도록 유도하는 LAHN (Label-aware Hard Negative Sampling Strategy)을 제안하였다.
[연구의 의미]
본 연구는 무작위로 샘플링 된 배치 데이터를 기반으로 하는 기존 대조학습을 개선하기 위하여, 보다 높은 학습 난이도를 가지는 하드 네거티브 샘플을 기반의 대조학습을 장려하는 프레임워크를 제안한다. 실험 결과, 본 논문의 프레임워크는 기존의 무작위 배치 데이터를 사용하는 대조학습에 비하여 다수의 암시적인 혐오표현 벤치마크 데이터세트에서 더 높은 성능을 달성하였다.
[연구결과의 진행 상태 및 향후 계획]
본 연구는 대조학습에서 모델의 학습 난이도를 더욱 높이기 위하여, 모멘텀 인코더 (Momentum Encoder)를 사용하여 이전에 학습된 데이터 중 앵커와 높은 유사도를 지닌 하드 네거티브 샘플을 음성 샘플로 사용하였다. 또한, 모델이 혼동할 확률이 높은 샘플의 우선순위를 높이기 위해 가중치 행렬
(Weighting Matrix)을 도입하였다. 본 결과는 더욱 다양한 도메인의 데이터셋으로 확장 될 필요성이 있으며, 최근 제안된 여러 LLM 모델에도 응용될 여지가 있다.
[성과와 관련된 실적]
국제 학회 논문:
- Jaehoon Kim, Seungwan Jin, Sohyun Park, Someen Park, Kyungsik Han. “Label-aware Hard Negative Sampling Strategies with Momentum Contrastive Learning for Implicit Hate Speech Detection,” Findings of the Association for Computational Linguistics (ACL) 2024.
※ ACL (The Annual Meeting of the Association for Computational Linguistics)은 컴퓨터공학을 구성하는 분야 중 하나인 “자연어처리 (Natural Language Processing; NLP)” 분야를 대표하는 세계 최고 수준의 국제 학회임.
그림 1. 프레임워크의 전체 개요. (a)는 메인 인코더를 기반으로 하여 EMA를 통해 업데이트 되는 모멘텀 인코더를 보여준다. (b)는 모멘텀 인코더에 의해 추출된 각 문장의 임베딩을 모멘텀 큐에 추가한다. (c)는 입력된 문장의 Prediction logits을 반환하는 메인 인코더와 모멘텀 인코더의 Prediction Head이다. (d)는 (c)에서 얻은 logits을 기반으로 모멘텀 큐의 네거티브 임베딩에 가중치를 부여하며, 이 중에서 하드 네거티브를 샘플링한다. (⊙: 원소 간 곱, θ: 코사인 유사도 함수).