학부뉴스

학부뉴스

논문실적 [연구, 김미숙 교수] HGCN: 저품질 문서를 탐지하기 위한 계층적 컨볼루션 그래프 모델
2024-06-03 08:53:55 조회수649

 

[연구의 필요성]

최근 다양한 매체에서 많은 양의 정보가 생성되고 있다. 생성된 정보 속에는 독자들의 피로감을 유발하거나 매체의 신뢰도를 떨어뜨리는 저품질 문서들이 포함되어 있다. 이러한 저품질 문서들은 거짓 정보 전달, 가짜 뉴스 등의 사회적 문제로 확대되고 있다. 기존의 저품질 문서를 탐지하기 위한 연구들은 하나의 종류의 저품질 문서 만을 탐지하고 있으며, 데이터셋 또한 제한적이다. 따라서 다양한 종류의 저품질 문서를 탐지하는 universal 한 모델과 도전적인 데이터셋 구축이 필요하다.

 

[연구의 의미]

본 연구는 메타 데이터를 포함하여 일관성이 없게 작성된 저품질 문서 탐지 데이터셋인 Inconsistency Dataset을 구축하였으며, 문서의 계층적 구조를 활용하여 제목과 본문이 다르거나, 일관성이 없게 작성된 저품질 문서를 탐지하는 계층적 컨볼루션 그래프 모델 (Hierarchical Graph Convolutional Network; HGCN)을 제안하였다. Inconsistency Dataset은 제목, 부제목, 본문, 이미지 캡션으로 구성되며, 탐지하기 어려운 저품질 문서 생성을 위해 동일 class code에 포함된 문서들 내에서 swap, 문서 길이 고려 등과 같은 도전적인 규칙들을 추가하였다. 우리의 연구는 저품질 문서 탐지를 위한 새로운 데이터셋과 두 종류의 저품질 문서 탐지가 가능한 새로운 모델을 공개하였다는 데 의미가 있다.

 

[연구 결과의 진행 상태 및 향후 계획]

본 연구는 일관성이 없게 작성된 저품질 문서 탐지 데이터셋인 Inconsistency Dataset과 기존 공개되어 있는 제목과 본문이 다른 저품질 문서 탐지 데이터셋인 Incongruent Dataset을 통해 HGCN 모델을 평가하였다. HGCN Inconsistency Dataset에서 기존 베이스라인보다 8.08% 높은 91.2%의 정확도를 기록하였으며, Incongruent Dataset에서 92.00%의 정확도를 기록하여 두 종류의 저품질 문서 탐지 성능을 검증하였다. 또한 메타 데이터를 활용한 계층적 구조에 대한 추가 실험을 진행하여, 메타 데이터를 활용하는 계층적 그래프 컨볼루션 모델인 HGCN 구조의 효과를 검증하였다.

향후 연구를 위해, 현재 자연어처리 분야에서 우수한 성능을 보여주는 LLM 과의 비교 샘플 실험을 진행하였다. 그 결과 HGCN LLM보다 좋은 성능을 기록하여, 적은 파라미터로 효율적인 성능을 보여줄 수 있음을 입증하였다. 우리는 우리의 방법론을 고도화하여 많은 종류의 저품질 문서를 탐지하는 universal 한 모델을 개발하여, 그 효과를 검증할 계획이다.

 

[성과와 관련된 실적]

국제 학회 논문:

- Jaeyoung Lee, Joonwon Jang and Misuk Kim. “Hierarchical Graph Convolutional Network Approach for Detecting Low-Quality Documents,” LREC-COLING 2024.

LREC-COLING (International Conference on Computational Linguistics, Language Resources and Evaluation)는 컴퓨터공학을 구성하는 분야 중 하나인자연어처리 (Natural Language Processing; NLP)” 분야를 대표하는 세계 최고 수준의 국제 학회임.


증빙자료_김미숙


 

 
사이트맵 닫기