Back to Publications

RAT-VAD: Role-Aware adaptive Text Fusion for Video Anomaly Detection

MyoungChul Kim,Youngbin Kim,Taeyeong Kim,MyeongAh Cho
Korea Computer Congress (KCC)2025

Abstract

본 연구는 시각적 정보 없이도 텍스트 임베딩만을 활용하여 영상 내 이상행동을 탐지하는 새로운 접근방식을 제안한다. 영상의 각 구간(segment)에 대해 행동(Action), 객체(Object), 환경(Environment) 정보를 반영한 역할별 텍스트를 구성하고, 이를 텍스트 인코더를 통해 임베딩하여 의미 표현을 생성하였다. 생성된 임베딩은 카테고리 적응형 융합 구조를 통해 역할별 중요도가 동적으로 조정되며, 이를 기반으로 의미적 단서를 효과적으로 포착할 수 있었다. 실험은 UCF-Crime 데이터셋을 활용하여 수행되었으며, 본 방법은 텍스트 정보만을 사용함에도 불구하고 AUC 87.76%의 성능을 기록하여 기존의 비전 기반 및 멀티모달 접근 방식과 비교해도 경쟁력 있는 성능을 보였다. 이러한 결과는 텍스트 중심 표현이 영상 이상 행동 탐지에서도 유의미한 정보를 제공할 수 있음을 시사하며, 시각 정보 없이도 수행 가능한 경량·비전 독립형 이상행동 탐지 모델의 가능성을 제시한다.

Keywords

Video Anomaly DetectionWeakly-supervised Learning

Citation