devmoa

인공지능(AI) 아나운서 개발기

이스트소프트·2020년 12월 6일·00
AI 아나운서디지털 휴먼TTSSTF머신러닝

AI 요약

Beta

이스트소프트에서 개발한 AI 아나운서 기술의 개발 과정을 소개하는 글입니다. AI PLUS 2020 컨퍼런스에서 공개된 가상 축전 영상 제작에 활용된 이 기술은 디지털 휴먼 연구의 일환으로, 뉴스 전문 방송국과의 협력을 통해 3개월 만에 프로토타입을 완성했습니다.

국내외 벤치마킹 사례를 조사했으며, 특히 국내 유튜브 채널에서 선보인 AI 아나운서 영상들을 참고했습니다. AI 아나운서 구현을 위해 Text To Speech(TTS)와 Speech To Face(STF) 기술을 활용했으며, TTS로 텍스트를 음성으로 변환하고 이 음성 정보를 바탕으로 얼굴 영상을 생성하는 방식으로 설계되었습니다.

음성 신호만으로는 완전한 얼굴 영상 생성이 어렵기 때문에, 얼굴 생김새 정보도 함께 입력하여 실제와 유사한 영상을 만드는 데 집중했습니다.

이 글이 궁금하신가요?

원문 블로그에서 전체 내용을 확인해 보세요

원문 읽으러 가기

AI 추천 연관 게시글

이 글과 관련된 다른 기술 블로그 글을 AI가 추천합니다