[연구의 필요성]
혐오 표현 탐지 모델은 데이터셋 간 레이블링 기준의 불일치로 인해 일반화 성능이 저하되는 문제가 있다. 서로 다른 혐오 표현 데이터셋은 구축 목적, 레이블링 방식, 레이블 세분화 정도 등이 상이하여, 특정 데이터셋에서 학습된 모델이 다른 데이터셋에 적용될 때 성능 저하가 발생한다. 기존의 데이터 통합이나 증강 방식은 이러한 레이블링 불일치 문제를 근본적으로 해결하지 못하며, LLM 기반 설명 생성 방법 역시 단일 레이블링 기준에 의존하여 일반화에 한계를 보인다. 본 연구는 이러한 문제를 해결하기 위해 다중 에이전트 기반의 접근 방식을 제안하며, 다양한 데이터셋을 대표하는 에이전트들의 상호작용을 통해 데이터셋 간의 기준 차이를 최소화하고 탐지 성능을 극대화하는 방법론을 제시한다.
[연구의 의미]
본 연구는 다중 에이전트 기반 시뮬레이션을 활용하여 혐오 표현 탐지의 일반화 문제를 해결하는 새로운 프레임워크 PREDICT를 제안한다. PRE(Perspective-based REasoning) 단계에서는 각 데이터셋의 고유한 레이블링 기준을 독립적인 관점으로 정의하여 데이터셋을 대표하는 에이전트를 생성하고, DICT(Debate using InCongruenT references) 단계에서는 다중 에이전트 간 토론을 통해 최적의 합의점을 도출한다. 본 프레임워크는 5개의 벤치마크 데이터셋에 대한 교차 평가에서 기존의 단일 최적화 모델이나 다수결 방식 대비 평균 6.5%의 정확도 향상을 달성하였다. 이는 모델의 일반화 능력을 높이고, 다양한 레이블링 기준을 효과적으로 통합할 수 있음을 입증한다.
[연구결과의 진행 상태 및 향후 계획]
현재 다중 에이전트 토론 기반 혐오 표현 탐지 프레임워크를 구현하고, 5개의 공개 벤치마크 데이터셋을 대상으로 검증을 완료하였다. 2개의 라운드로 구성된 토론 구조의 효과성을 입증하였으며, 에이전트 기반 접근법이 일반화 성능 향상에 실질적인 기여를 한다는 점을 정량적으로 확인하였다. 향후 연구에서는 본 프레임워크를 복잡한 사회적 상호작용과 의사결정 과정을 모델링하는 사회과학 연구로 확장하여, 실제 인간의 행동 패턴과 의사결정 메커니즘을 더욱 정교하게 반영할 계획이다.
[성과와 관련된 실적]
국제 학회 논문:
Someen Park, Jaehoon Kim, Seungwan Jin, Sohyun Park, Kyungsik Han. “PREDICT: Multi-Agent-based Debate Simulation for Generalized Hate Speech Detection”, International Conference on Empirical Methods in Natural Language Processing (EMNLP), 2024.
※ EMNLP (Empirical Methods in Natural Language Processing)는 컴퓨터공학을 구성하는 분야 중 하나인 “자연어처리(Natural Language Processing; NLP)” 분야를 대표하는 세계 최고 수준의 국제 학회임.
그림 1. PREDICT 프레임워크 개요. (a) 다섯 개의 데이터셋의 고유한 특징에 따라 관점을 부여받은 에이전트들이 동일한 텍스트에 대한 각자의 입장과 이유를 도출하는 과정. 도출된 이유는 두 개의 상반된 진영으로 나뉘어 참고 자료로 저장. (b) 각 진영을 대표하는 토론자 에이전트들이 각 진영의 참고 자료를 사용하여 해당 텍스트가 혐오 표현인지 아닌지를 토론하는 과정. 토론이 끝난 후, 판사 에이전트는 해당 텍스트에 대한 최종 레이블과 이유를 결정.