인공지능 음성 생성 연구 - 음성 분류 솔루션
음성 생성버추얼 휴먼인공지능 챌린지음성 신호 처리딥러닝이미지 분류
AI 요약
Beta이스트소프트는 인공지능 생성 모델을 활용한 버추얼 휴먼 사업을 진행하며, 특히 상황에 맞는 자연스러운 음성 생성 연구에 주력하고 있습니다. 버추얼 휴먼의 음성 생성을 위해서는 생성 연구뿐만 아니라 음성 신호에 대한 인식 및 처리 기술 고도화가 필수적입니다.
이를 위해 이스트소프트는 '2021 인공지능 그랜드 챌린지' 3차 대회에 참가하여 과학기술정보통신부 장관상을 수상하는 성과를 거두었습니다. 본 글에서는 해당 대회 Task 2에서 사용된 음성 신호 처리 솔루션을 소개합니다.
드론 촬영 영상의 잡음 환경에서 구조 대상의 고립 위치 파악, 구조자 수, 성별, 연령, 상태를 구분하는 문제에 대해, 음성을 이미지로 변환하여 딥러닝 기반 이미지 분류 문제로 접근하는 전략을 사용했습니다. 3초 구간 음성을 남성, 여성, 어린이, 배경음으로 분류하고, 1초 단위 슬라이딩 윈도우를 적용하여 각 구간을 분류하는 모델을 개발했습니다.
이 글이 궁금하신가요?
원문 블로그에서 전체 내용을 확인해 보세요
원문 읽으러 가기


