인공지능 음성 생성 연구 - 음성 분류 솔루션
음성 생성버추얼 휴먼인공지능 챌린지음성 신호 처리딥러닝이미지 분류
AI 요약
Beta이스트소프트의 AI PLUS Tech Blog에서 인공지능 생성 모델을 활용한 버추얼 휴먼 사업과 음성 생성 연구에 대해 소개합니다. 특히, 상황에 맞는 자연스러운 음성 생성을 위해 음성 신호 인식 및 처리 기술 고도화의 중요성을 강조합니다.
이스트소프트는 '2021 인공지능 그랜드 챌린지' 3차 대회 Task 2에서 재난 상황의 드론 영상 데이터로 구조 대상의 고립 위치, 인원수, 성별, 연령, 상태를 파악하는 문제에 참여하여 1위를 수상했습니다. 드론 프로펠러 소음으로 인한 음성 인식의 어려움을 극복하기 위해, 음성을 이미지로 변환하여 딥러닝 이미지 분류 문제로 접근하는 전략을 사용했습니다.
3초 구간 음성을 남성, 여성, 어린이, 배경음으로 분류하고, 1초 단위 슬라이딩 윈도우를 적용하여 각 구간을 분류하는 방식으로 높은 precision 값을 달성했습니다.
이 글이 궁금하신가요?
원문 블로그에서 전체 내용을 확인해 보세요
원문 읽으러 가기


