학부뉴스

학부뉴스

[연구, 한경식 교수] LAHN: 암시적 혐오 표현 탐지를 위한 하드 네거티브 샘플링 기반의 모멘텀 대조 학습 전략
2024-08-20 14:01:48 조회수531

[연구의 필요성]
최신 인공지능 연구에서도 암시적인 혐오표현(Implicit Hate Speech) 탐지하는 것은 여전히 어려운 일이다. 명시적인 혐오표현(Explicit Hate Speech) 직접적으로 욕설이나 혐오적 의미가 내포된 표현을 사용하므로 모델이 이러한 패턴을 쉽게 탐지할 있으나, 우회적으로 혐오 의도를 전달하는 암시적인 혐오표현은 그렇지 않다. 최근 대조학습(Contrastive Learning) 사용하여 보다 효과적인 모델 학습을 장려하는 시도가 있었으나, 이는 교차 엔트로피 로스(Cross Entropy loss) 기반의 학습에 비해 성능적 이점이 없음이 확인되었다. 연구에서는 하드 네거티브 샘플 기반의 대조학습을 통해 모델이 세부적인 특성을 학습하도록 유도하는 LAHN (Label-aware Hard Negative Sampling Strategy) 제안하였다.

[연구의 의미]
연구는 무작위로 샘플링 배치 데이터를 기반으로 하는 기존 대조학습을 개선하기 위하여, 보다 높은 학습 난이도를 가지는 하드 네거티브 샘플을 기반의 대조학습을 장려하는 프레임워크를 제안한다. 실험 결과, 논문의 프레임워크는 기존의 무작위 배치 데이터를 사용하는 대조학습에 비하여 다수의 암시적인 혐오표현 벤치마크 데이터세트에서 높은 성능을 달성하였다.

 

[연구결과의 진행 상태 향후 계획]
연구는 대조학습에서 모델의 학습 난이도를 더욱 높이기 위하여, 모멘텀 인코더 (Momentum Encoder) 사용하여 이전에 학습된 데이터 앵커와 높은 유사도를 지닌 하드 네거티브 샘플을 음성 샘플로 사용하였다. 또한, 모델이 혼동할 확률이 높은 샘플의 우선순위를 높이기 위해 가중치 행렬 (Weighting Matrix) 도입하였다. 결과는 더욱 다양한 도메인의 데이터셋으로 확장 필요성이 있으며, 최근 제안된 여러 LLM 모델에도 응용될 여지가 있다.



[성과와 관련된 실적]
국제 학회 논문:

-         Jaehoon Kim, Seungwan Jin, Sohyun Park, Someen Park, Kyungsik Han. “Label-aware Hard Negative Sampling Strategies with Momentum Contrastive Learning for Implicit Hate Speech Detection,” Findings of the Association for Computational Linguistics (ACL) 2024.

 

ACL (The Annual Meeting of the Association for Computational Linguistics) 컴퓨터공학을 구성하는 분야 하나인자연어처리 (Natural Language Processing; NLP)” 분야를 대표하는 세계 최고 수준의 국제 학회임.

 연구,한경식

그림 1. 프레임워크의 전체 개요. (a) 메인 인코더를 기반으로 하여 EMA 통해 업데이트 되는 모멘텀 인코더를 보여준다. (b) 모멘텀 인코더에 의해 추출된 문장의 임베딩을 모멘텀 큐에 추가한다. (c) 입력된 문장의 Prediction logits 반환하는 메인 인코더와 모멘텀 인코더의 Prediction Head이다. (d) (c)에서 얻은 logits 기반으로 모멘텀 큐의 네거티브 임베딩에 가중치를 부여하며, 중에서 하드 네거티브를 샘플링한다. (: 원소 , θ: 코사인 유사도 함수).


 

 
사이트맵 닫기