AI인공지능 음성 생성 연구: 음성 분류 솔루션
이스트소프트는 인공지능 생성 모델을 활용한 버추얼 휴먼 사업을 진행하며, 특히 상황에 맞는 자연스러운 음성 생성 연구에 주력하고 있습니다. 버추얼 휴먼의 음성 생성을 위해서는 생성 연구뿐만 아니라 음성 신호에 대한 인식 및 처리 기술 고도화가 필수적입니다. 이를 위해 이스트소프트는 '2021 인공지능 그랜드 챌린지' 3차 대회에 참여하여 과학기술정보통신부 주최 Task 2에서 1위를 수상했습니다. 해당 대회에서는 재난 상황 드론 영상 데이터에서 구조 대상의 고립 위치, 인원수, 성별, 연령, 상태를 파악하는 문제를 다루었습니다. 드론 프로펠러 소음으로 인해 음성 인식 모델이 제대로 작동하지 않는 환경에서, 음성을 이미지로 변환하여 딥러닝 이미지 분류 문제로 해결하는 전략을 채택했습니다. 3초 구간 음성을 남성, 여성, 어린이, 배경음으로 분류하고, 1초 단위 슬라이딩 윈도우를 적용하여 각 구간을 분류한 뒤, 클래스별 top1 예측 결과를 제출하는 방식으로 솔루션을 구현했습니다.






