devmoa

콘텐츠 분석을 위한 오디오 기반 상황인식 정보 분석 기술 개발 - 연구과정(2)

데보션·2022년 9월 15일·00
오디오 기반 상황인식Audio TaggingAudio CaptioningTransformerEmbeddingLLM

AI 요약

Beta

SKT AI Fellowship 4기 Team AIDAT는 청각 장애인을 위한 방송 콘텐츠 접근성 향상 및 메타데이터 구축을 목표로 오디오 기반 상황인식 기술 개발 연구를 진행 중입니다. 이번 글은 지난 연구 계획에 이어 실제 실험 및 개발 내용을 다룹니다.

특히, 오디오로부터 태그와 캡션을 생성하는 Audio Tagging 및 Audio Captioning 모델 개발에 초점을 맞추고 있습니다. 최신 기술 동향으로 TRAKE 모델을 소개하며, 이는 Transformer 기반으로 오디오 스펙트로그램 임베딩과 텍스트 임베딩을 활용하고, Keyword Estimation을 위한 Linear-branch를 추가하여 DCASE2020 AAC 챌린지에서 우수한 성능을 보였습니다.

연구팀은 이 모델을 기반으로 Caption 생성 학습 과정에 Keyword Estimation Learning을 통합하는 것이 유의미함을 실험을 통해 확인했습니다.

이 글이 궁금하신가요?

원문 블로그에서 전체 내용을 확인해 보세요

원문 읽으러 가기

AI 추천 연관 게시글

이 글과 관련된 다른 기술 블로그 글을 AI가 추천합니다