사월의눈의 DevBlog

컴공학부생이 읽어보는 논문감상 - Tacotron : Toward End-To-End Speech Synthesis (1) 본문

DeepLearning/Paper Review

컴공학부생이 읽어보는 논문감상 - Tacotron : Toward End-To-End Speech Synthesis (1)

Snowapril 2017. 10. 23. 21:30

Tacotron : Toward End-To-End Speech Synthesis 을 읽고 쓰는 리뷰아닌 감상문

※주의사항. 필자는 논문을 많이 읽어본 적이 없으며 전문지식 또한 그렇게 많지 않은 편인 1학년 학부생입니다. 흥미위주로 

읽고 그에 대한 감상문을 쓰는 정도임을 알아주었으면 합니다

중간고사 전에 Speech Generation에 대한 프로젝트를 구상중이었는데 그사이에 Facebook에서 제가 생각중이던 것과 아주 비슷한 내용의 게시물이 있어 읽어보았는데 김태훈님이 발표하신 "책 읽어주는 딥러닝"의 발표자료였습니다. 이 아이디어만큼은 내가 먼저다! 라고 생각하고 있었는데 약간 아쉽...지만 읽고 참고해보았습니다. 그 내용을 정리해보자면,


1. 데이터 전처리 :  Google Speech API + Text Similarity.

2. Google research의 Tacotron과 vaidu research의 Deep Voice 2 모델을 이용.


그래서 Tacotron 논문부터 읽어보기로 했습니다.  일단 도입부부터 보면 자연스러움의 관점에서 다른 모델들을 능가(Outperform)한다고 말하는데 저번에 PR 논문읽기 그룹에서 김성훈 교수님이 이러한 도입부에서의 다른모델들에 비해 Outperform 한다고 하는 부분에 대해서 인상깊다고 하신것이 기억나 더 흥미롭게 읽게 되었습니다.


기존의 모델들에 비해 End-To-End TTS system에는 많은 이점이 있는데

1. 어려운 기능설계의 필요성이 적다.

2. 더 쉽게 풍부한 Speaker, Language, Sentiment등의 옵션을 달수있는데, 이는 Input의 조정이 모델의 초반부에서 일어나기 때문이며 이로인해 새로운 데이터에 대한 적응이 더 쉽게 일어난다.


이점이 있는 만큼 주의점 또한 존재합니다.

1. 고도로 압축된 소스가 오디오로 분해되는데 이로 인해 같은 문장에 대해서도 다른 발음, 억양등이 생길 수 있다. 이는 신호 레벨에서 큰변화에 대처할수 있는 유연성을 학습시킴으로서 해결 가능하다.

2. 결과물이 연속적이며, 결과물의 길이가 Input보다 훨씬 길기 때문에 Error가 발생할 수 있다.


그리고 바로 모델 설계에 대한 설명으로 넘어가는데 모델 설계의 그림은 아래 논문에 나오는 그림을 이용하였습니다.

(Feature 1. Model Architecture of TTS.)


Sequence-To-Sequence모델을 기초로한 Architecture이며, 크게 CBHG Module, Encoder, Decoder, Postprocessing Net and Waveform Synthesis로 나뉩니다.


각각의 Network에 대한 설명은 다음 포스트에서 게시하겠습니다.



참고문헌.

1. Tacotron : Toward End-To-End Speech Synthesis 을 읽고 쓰는 리뷰아닌 감상문

2. 김태훈님이 발표하신 "책 읽어주는 딥러닝"의 발표자료

Comments