콘텐츠 분석을 위한 오디오 기반 상황인식 정보 분석 기술 개발 - 연구과정(2)

데보션·2022년 9월 15일·00

오디오 기반 상황인식Audio TaggingAudio CaptioningTransformerEmbeddingLLM

AI 요약

Beta

SKT AI Fellowship 4기 Team AIDAT는 청각 장애인을 위한 방송 콘텐츠 접근성 향상 및 메타데이터 구축을 목표로 오디오 기반 상황인식 기술 개발 연구를 진행 중입니다. 이번 글은 지난 연구 계획에 이어 실제 실험 및 개발 내용을 다룹니다.

특히, 오디오로부터 태그와 캡션을 생성하는 Audio Tagging 및 Audio Captioning 모델 개발에 초점을 맞추고 있습니다. 최신 기술 동향으로 TRAKE 모델을 소개하며, 이는 Transformer 기반으로 오디오 스펙트로그램 임베딩과 텍스트 임베딩을 활용하고, Keyword Estimation을 위한 Linear-branch를 추가하여 DCASE2020 AAC 챌린지에서 우수한 성능을 보였습니다.

연구팀은 이 모델을 기반으로 Caption 생성 학습 과정에 Keyword Estimation Learning을 통합하는 것이 유의미함을 실험을 통해 확인했습니다.

이 글이 궁금하신가요?

원문 블로그에서 전체 내용을 확인해 보세요

원문 읽으러 가기

콘텐츠 분석을 위한 오디오 기반 상황인식 정보 분석 기술 개발 - 연구과정(2)

AI 요약

AI 추천 연관 게시글

콘텐츠 분석을 위한 오디오 기반 상황인식 정보 분석 기술 개발 - 연구계획(1)

인공지능 음성 생성 연구 - 음성 분류 솔루션

인공지능 음성 생성 연구 - 음성 분류 솔루션

인공지능 음성 생성 연구: 음성 분류 솔루션

인공지능(AI) 아나운서 개발기