Paper: Development of Smartcall Vietnamese Text-to-Speech for VLSP 2020
Authors: Manh Cuong Nguyen, Khuong Duy Trieu, Ba Quyen Dam, Thu Phuong Nguyen, Quoc Bao Nguyen
Abstract: An end-to-end text-to-speech (TTS) system (e.g. consisting of Tacotron-2 and WaveGlow vocoder) can achieve the state-of-the art quality in the presence of a large, professionally-recorded training database. However, the drawbacks of using neural vocoders such as WaveGlow include 1) a time-consuming training process, 2) a slow inference speed, and 3) resource hunger when synthesizing waveform from spectral features. Moreover, the synthesized waveform from the neural vocoder can inherit the noise from an imperfect training data. This paper deals with the task of building Vietnamese TTS systems from moderate quality training data with noise. Our system utilizes an end-to-end TTS system that takes advantage of the Tacotron-2 acoustic model, and a custom vocoder combining WaveGlow and High Fidelity Generative Adversarial Networks (HiFiGAN). Specifically, we used the HiFiGAN vocoder to achieve a better performance in terms of inference efficiency, and speech quality. Unlike previous works, we used WaveGlow as an effective denoiser to address the noisy synthesized speech. Moreover, the provided training data was thoroughly preprocessed using voice activity detection, automatic speech recognition and prosodic punctuation insertion. Our experiment showed that the proposed TTS system (as a combination of Tacotron-2, HiFiGAN vocoder, and WaveGlow denoiser) trained on the preprocessed data achieved a mean opinion score (MOS) of 3.77 compared to 4.22 for natural speech.
Tacotron2 + Waveglow | Tacotron2 + HifiGAN | Tacotron2 + HifiGAN + Waveglow(Denoiser) | Ground Truth | Text |
---|---|---|---|---|
bề cao và bề ngang tương xứng với nhau , mặc một chiếc váy đen của nông dân , đôi chân to xù đi tất len dày , và giày đen đế bệnh thừng . | ||||
con bé nói với tôi , là người bạn anh cùng đánh tàu với chúng tôi hồi trước đã chết rồi . | ||||
chưa bao giờ tôi thấy một vụ nổ như thế . anh ta là một người có tài , tôi rất thích anh ta . | ||||
mặt trời chiều tà còn chiếu qua vài ngọn núi màu nâu , in rõ hình chiếc cầu đen xì lên khoảng trống của khe núi . | ||||
đặt nửa tá mìn nối liền với nhau để cùng nổ một lúc , thì có thể đạt được kết quả đó một cách ung dung khoa học và gọn ghẽ . |