콘텐츠 분석을 위한 오디오 기반 상황인식 정보 분석 기술 개발 - 연구과정(2)
오디오 기반 상황인식Audio TaggingAudio CaptioningTransformerEmbeddingLLM
AI 요약
BetaSKT AI Fellowship 4기 Team AIDAT는 청각 장애인을 위한 방송 콘텐츠 접근성 향상 및 메타데이터 구축을 목표로 오디오 기반 상황인식 기술 개발 연구를 진행 중입니다. 이번 글은 지난 연구 계획에 이어 실제 실험 및 개발 내용을 다룹니다.
특히, 오디오로부터 태그와 캡션을 생성하는 Audio Tagging 및 Audio Captioning 모델 개발에 초점을 맞추고 있습니다. 최신 기술 동향으로 TRAKE 모델을 소개하며, 이는 Transformer 기반으로 오디오 스펙트로그램 임베딩과 텍스트 임베딩을 활용하고, Keyword Estimation을 위한 Linear-branch를 추가하여 DCASE2020 AAC 챌린지에서 우수한 성능을 보였습니다.
연구팀은 이 모델을 기반으로 Caption 생성 학습 과정에 Keyword Estimation Learning을 통합하는 것이 유의미함을 실험을 통해 확인했습니다.
이 글이 궁금하신가요?
원문 블로그에서 전체 내용을 확인해 보세요
원문 읽으러 가기

