음성합성 기술의 역사와 AI 더빙 서비스 소개 : FT. 타입캐스트, 네이버 클로바 보이스 (TypeCast, Naver CLOVA Voice)

하드웨어가 발달하고 각종 저작툴이 보편화되면서 이제는 홍보·마케팅 활동에 영상 콘텐츠를 이용하는 것이 당연하면서 제일 먼저 고려되는 소통 방법이 되었습니다.

또한 유튜브가 대표적인 검색 채널이 되었고, 새로운 광고수익원으로 자리 잡으면서 관련 산업이나 서비스가 더욱 활성화되고 있기도 합니다.

영상물을 제작하는 것에는 영상 외에 음악과 음성을 작업하는 것도 중요한 부분의 하나입니다. 음악의 경우 '오디오정글' 같은 음원 서비스나 유튜브에서 제공하는 음원을 사용할 수도 있지만 음성은 직접 녹음하는 것 말고는 방법이 없습니다.

이에 네이버 클로바와 같은 AI 성우 서비스들이 속속 등장하게 되는데, 그중 유튜버들이 많이 사용한다는 음성 더빙 서비스인 '타입캐스트'와 '네이버 CLOVA Voice'를 비교해 보았습니다. 더불어 음성합성 기술과 Text to Speech(TTS) 서비스의 역사, 그리고 음성합성 기술들에 대해서도 정리해 보겠습니다.

• 목 차 •

I. 음성합성과 Text to Speech Service의 역사

텍스트로 만들어진 대본을 성우를 쓰지 않고 기계장치를 이용해 음성을 합성해내는 Text to Speech(이하 TTS) 서비스가 우리 실생활에 선보인 것은 꽤 오래전부터입니다.

1990년대 말과 2000년대 초반의 컬러링이나 음성메시지 등에 텍스트를 이용한 음성합성을 활용한 서비스가 제공된 적도 있었습니다.

방식이 다르긴 하지만 TTS 서비스의 역사를 찾아보니, 최초의 TTS는 1968년 일본전기기술연구소에서 개발되었다고 합니다. 일본 연구소의 연구물이었지만 영어 텍스트를 음성으로 합성하는 시스템이었고, 보코더를 이용한 음성 합성으로 사람의 목소리가 아닌 80년대 댄스곡에 사용된 기계음과 같은 소리를 만들어 내는 장치였습니다.

그런데 위의 일본전기기술연구소 시스템은 컴퓨터 기반 음성 합성 시스템으로서 최초라는 것이고, 그 이전부터도 목소리를 만들어 내고자 하는 노력은 꽤 오래전부터 있어왔다고 전해집니다.

Brazen Head라고 불렸던 중세 후기의 학자들이 만들었던 전설적인 오토마톤이 있었습니다.

음성합성 기술의 역사 — Brazen Head

놋쇠나 청동으로 만들어진 남자 머리 형태의 이 장식물은 '예'와 '아니오'라는 두 가지 단어만 말할 수 있었지만, 어떠한 질문에도 정확하게 대답을 한다고 평판이 나 있었다고 합니다.

이 마법과 같은 기계장치에서 나오는 말소리가 전설처럼 전해오는 음성 합성의 기원이라 할 수 있겠습니다.

근대에 이르러 1779년 독일 과학자 'Christian Gottlieb Kratzenstein 크리스티안 고트리브 크라첸스타인'이 러시아 왕립 과학예술 아카데미의 콩쿠르에서 다섯 개의 장음절을 소리 낼 수 있는 모델로 1등을 하고, 1791년에는 헝가리의 볼프강 폰 켐펠렌이 자음까지 소리 낼 수 있는 장치를 만들었습니다.

현대로 넘어와서, 1930년대 벨 연구소가 보코더를 개발하면서 본격적으로 전자장치를 이용한 음성합성 기술이 발전하기 시작하였습니다.

벨 연구소의 보코더는 자동으로 음성을 기본 음색과 공명으로 분석하는 기술이었는데, 이를 기반으로 벨의 전자 음향 엔지니어인 'Homer W. Dudley 호머 더들리'는 1939년 뉴욕 세계 박람회에서 The Voder라고 불리는 키보드로 작동하는 음성 신서사이저를 개발하여 전시하게 됩니다. Voder라는 이름은 Voice Demonstrator의 줄임말입니다.

이후 1961년 물리학자 존 래리 켈리 주니어와 루이스 거스트만이 IBM 704를 이용해 음성을 합성해냈고, 앞서 소개드렸던 최초의 영어 TTS 시스템이 일본에서 만들어지기까지 음성 합성기, 음성의 부호화 등과 같은 다양한 분야에서 기술적 진보가 이루어졌습니다.

휴대기기에 음성합성 기술이 이용되기 시작한 것은 1976년 시각장애인을 위한 말하는 휴대용 계산기였습니다.

1978년에는 'Speak & Spell'이라는 키보드가 달린 장난감과 같은 휴대용 TTS 장치가 판매되었고, 1979년에는 피델리티에서 전자 체스 컴퓨터의 스피크 버전을 출시하는 등 장난감과 게임, 교육용 장치 등에 사용되었습니다.

음성합성 기술의 역사 제품들 — 왼쪽: IBM704 Computer / 가운데: Speek and Spell / 오른쪽: 전자 체스기 음성버전

II. 음성합성의 기술

위에 소개한 바와 같이 초기의 음성합성 기술은 누가 들어도 인간의 소리가 아닌 기계가 만들어낸 로봇과 같은 소리였습니다.

뜻을 전달하기엔 명확하지 않고 알아듣기도 힘든, 음성이라기보다는 소리라고 하는 것이 맞겠습니다.

기술의 발달로 이 합성된 음성의 질은 꾸준히 향상되었지만, 아직도 실제 인간의 음성과는 조금 차이가 있긴 합니다.

짧은 단문의 경우 거의 느끼지 못할 정도이긴 하지만, 감정이 실린다거나 특히 평문을 읽는 것이 아닌 대화체의 문장일 경우 그 차이는 더욱 명확하게 느껴집니다.

음성 합성 시스템에 있어 가장 필요한 것은 얼마나 자연스러운지, 그리고 얼마나 명확하게 전달되는지라 하겠습니다. 이를 위한 음성 합성의 기술들을 간략히 소개해보겠습니다.

1. Concatenation Synthesis 연결 합성

미리 녹음된 짧은소리들을 연결하여 음성을 합성해 내는 기술입니다. 일반적으로 가장 자연스러운 음성을 만들어내는 기술입니다.

성우가 각종 단어를 녹음하고 이것들을 조합하여 자연스러운 문장을 만들어 내는 기술이라고 생각하시면 편합니다.

아직까지는 우리 일상에서 가장 많이 쓰이는 음성 합성 기술이라고 하겠습니다.

단점으로는 자연스러운 소리를 합성하기 위해 엄청난 용량의 DB가 확보되어야 하고, 다양한 목소리를 만들기 위해서는 그만큼 많은 시간이 소요됩니다. 비용과 용량에 비해 단어와 단어 간의 자연스러운 연결에서 아직까지는 한계가 명확한 상태입니다.

2. Formant Synthesis 포만트 합성

음성 샘플을 사용하지 않고 주파수 변조나 Physical Modelling과 같은 기술을 이용하여 소리를 생성하는 기술입니다. 음성 DB를 이용하지 않기 때문에 자연스러운 사람의 목소리라기보다는 인공적이고 로봇처럼 들리는 소리를 만들어 냅니다. 이 기술은 자연스러움보다는 매우 빠른 속도로 음성을 합성하여 전달하는데 장점이 있습니다.

시각장애인이 스크린 리더를 사용하여 컴퓨터를 빠르게 탐색하고자 할 때 제공되는 고속 합성 음성 등에 사용될 수 있습니다.

3. Articulatory Synthesis, 조음 합성

1900년대 초반에 사용되었던, 초기의 음성합성이 여기에 속합니다.

현대에 이르러 조음 합성이란 인간의 조음기관과 그 작용을 바탕으로 음성을 합성하는 계산 기술을 말합니다. 1970년 최초의 조음 합성기가 개발되었으나, 이 기술은 최근까지도 상용 시스템으로 이용되진 않았습니다.

4. HMM-based synthesis, 통계 파라미터 합성

Hidden Markov Model (HMM) 기반 합성은, 통계 파라미터 합성이라고도 불립니다. 음성의 주파수 스펙트럼, 기본 주파수, 지속시간 등이 HMM에 의해 동시에 모델링 되어 '최대우도 추정법'에 의거해 음성을 생성해내는 기술이라고 합니다.

5. Deep Learning-based Synthesis, 딥 러닝 기반 합성

딥 러닝 기반의 합성은 연결 합성과 같이 대량의 녹음 DB를 사용하는 기술입니다. 인공지능으로 하여금 녹음된 음성을 사용하여 학습토록 하여, 가장 자연스러운 인간의 목소리를 합성해 내기 위한 기술입니다.

오늘 소개할 타입캐스트, 네이버 클로바 등의 AI 성우, 더빙 서비스가 바로 이 방식으로 만들어진 것입니다.

원래 이 방법은 보다 자연스럽고 명확한 문장을 만들어 내기 위해서는 충분한 데이터의 확보가 필수적입니다.

그러나 인공지능 기술이 급격하게 발달함에 따라 점점 적은 DB와 짧은 시간에 음성 DB를 구축하고 실제 합성에 적용할 수 있게 되었습니다.

6. Audio Deepfakes, 오디오 딥 페이크

오디오 딥 페이크는 특정인이 말하지 않은 것을 말한 것처럼 들리게 해주는 인공지능의 한 종류입니다.

기존의 음성 콘텐츠에 학습을 통하여 만들어진 연예인이나 정치인의 목소리를 덧씌워 만들어내는 것으로, 악의적인 사용에 대한 우려가 있습니다.

III. AI 음성 합성 서비스 소개 (typecast & Naver CLOVA)

1. typecast 타입캐스트

음성합성 기술의 역사와 AI 더빙 서비스 소개 : FT. 타입캐스트, 네이버 클로바 보이스

타입캐스트 | 인공지능 기반 TTS와 가상인간을 활용한 음성과 영상 제작 툴

400개 이상의 캐릭터가 있는 TTS 프로그램+가상인간이 출연한 영상 제작을 간단하게 할 수 있습니다. 유튜버 틱톡 크리에이터가 가장 많이 쓰는 TTS

타입캐스트는 2019년 베타 서비스를 시작하여 현재는 가상 인간 비디오, 프리미엄 성우 등 본격적인 유료 서비스로 발전한 AI 성우 서비스입니다.

한국의 스타트업인 '네오사피엔스'에서 개발하여 제공하는 서비스로, 적은 데이터로 음성 합성, 영어·일본어·스페인어 등 다국어 음성 합성이 가능한 서비스입니다.

유료 서비스의 경우 매월 다운로드 시간 등에 따라 월 8900원, 40500원 등 차이가 있습니다.

280개 이상의 목소리가 제공되고 감정 표현, 빠르기 조절, 피치 조절, 끊어 읽기 시간 조절 등의 기능으로 보다 자연스러운 감정표현을 할 수 작업할 수 있습니다.

유튜브 등 상업적으로 제대로 된 음성을 생성하기 위해서는 프로플랜 이상은 사용해야 할 듯합니다.

타입캐스트의 장점은 목소리의 종류가 상당히 다양하게 준비되어 있다는 것입니다. 성별과 연령, 국적 등이 다른 다양한 느낌의 목소리에 제어할 수 있는 기능도 다양한 편입니다.

상대적으로 네이버 클로바에 비해 문장 전체 입력 후 재생 시 단어와 단어 간의 연결이 조금 부자연스러운 부분이 있었습니다. 그리고 음성만 다운로드되므로 유튜브 영상 등에 더빙용으로 사용할 경우 별도의 편집이 필요합니다.

2. 네이버 CLOVA Voice

CLOVA Voice - 네이버 클로바

자연스럽고 깨끗한 합성음, CLOVA Voice를 체험해보세요.

'CLOVA 클로바'는 네이버의 인공지능 플랫폼과 서비스 브랜드입니다.

플랫폼을 이용하는 장치가 AI 스피커 시리즈, 클로바 데스크, 클로바 클락 등이 있고, AI 서비스로 클로바 음성인식, 안면인식, 음성 합성 그리고 클로바 노트가 있습니다.

이중에 'CLOVA Voice 클로바 보이스'는 음성합성 서비스입니다.

클로바 더빙의 경우 아래 작업화면처럼 동영상을 추가해 놓고 해당 위치에 더빙을 추가할 수 있습니다. 또한 영상에 맞는 효과음을 추가할 수 있도록 제공하고 있으며, 무료체험인 경우 1천 자 이내로 더빙한 영상을 20회까지 다운로드 가능하지만 다운로드를 하지 않은 상태에서 미리듣기 테스트는 얼마든지 자유롭게 할 수 있습니다.

멤버십의 경우 글자 수와 다운로드 수의 제한에 따라 Standard (19,900원/월), Premium(89,900원/월)로 구분됩니다.

기본요금 외 다운로드 횟수 초과나 글자 수 초과 시 추가 요금이 붙기도 합니다.

클로바 보이스는 타입캐스트에 비해 조금 더 자연스러운 연결이 돋보이는 서비스입니다.

네이버 클로바는 영상까지 제작 가능한 AI 더빙 서비스입니다. 동영상뿐만이 아니라 PDF 파일에 AI 음성을 더빙한 후 다운로드할 수 있어 PDF 문서만 있어도 영상을 만들 수 있습니다.