[์ ํ์ฐ๊ตฌํ ์ ํฌ์กฐ]
TTS(text-to-speech)๋ ์์์ ํ ์คํธ๋ฅผ ๋ฃ์์ ๋ ํด๋น ํ ์คํธ๋ฅผ ํน์ ํ ๋ชฉ์๋ฆฌ์ ์์ฑ์ผ๋ก ๋ณํํ์ฌ ์ฐ์ถํ๋ ๊ธฐ์ ์ ๋๋ค. Google์ด Tacotron ์๋ฆฌ์ฆ๋ฅผ ๋ฐํํ ์ดํ HMM(hidden Markov model) ๊ธฐ๋ฐ์์ ๋ฅ๋ฌ๋ ๊ธฐ๋ฐ์ผ๋ก ๋น ๋ฅด๊ฒ ์ ํ๋์์ผ๋ฉฐ ํ์ฌ ์์ฉ ์๋น์ค๋๋ ๋ชจ๋ธ๋ค ๋ํ ๋ฅ๋ฌ๋ ๊ธฐ๋ฐ์ผ๋ก ๋์ํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง์ต๋๋ค. ์์ฉํ๊ฐ ๋ ๋งํผ ๊ฐ์ ๋ ๋ง์ด ์ด๋ฃจ์ด์ง๊ณ ์์ผ๋ฉฐ ๊ด๋ จ ์ฐ๊ตฌ ๋ํ ‘๋จ์ ๊ตฌํ’์์ ๋ฒ์ด๋ ์ ์ฐจ ‘์๋ก์ด ๊ธฐ๋ฅ’ ๊ณผ ‘์ต์ ํ’ ๋ฅผ ๊ณ ๋ คํ๋ ๋ฐฉํฅ์ผ๋ก ์งํ๋๊ณ ์์ต๋๋ค.
์ต๊ทผ ๋ค์ค์ฌํผ์์ค์์ ์ด๋ฆ ๊ทธ๋๋ก ๋ ธ๋๋ฅผ ๋ถ๋ฅด๋ ์๋ก์ด TTS ๋ชจ๋ธ์ธ MLP Singer๋ฅผ ๊ณต๊ฐํ์ต๋๋ค. ๊ธฐ์กด์ Non autoregressive Singing TTS๋ก ๊ณต๊ฐ๋ Microsoft์ HiFiSinger๊ฐ Transformer์ duration predictor๋ฅผ ์ฌ์ฉํ ๋ฐ ๋ฐํด, duration predictor๋ฅผ ๋ฐฐ์ ํ๊ณ Transformer ๋์ MLP mixer๋ฅผ ์ฌ์ฉํจ์ผ๋ก์จ ๊ฒฝ๋ํ ๋ฉด์์ ํฌ๊ฒ ํฅ์๋ ๋ชจ๋ธ์ ๋๋ค.
๋ฌผ๋ก ์ต๊ทผ ์์ฉํ๋๋ TTS์ MOS๊ฐ 4์ ๋๋ฅผ ๋์ด๊ฐ๋ฉฐ ๊ฑฐ์ ์ฌ๋๊ณผ ๊ตฌ๋ถ๋์ง ์๋ ์์ฑ์ ๋ง๋ค์ด๋ด๋๋ฐ ๋ฐํด์, ๋ฐํ๋ ๋ชจ๋ธ์ TTS๋ ์์ง 3์ ๋ ์ด๋ฐ์ผ๋ก ๊ฐ์ ์ ์ฌ์ง๊ฐ ๋ง์ ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค. ํ์ง๋ง ๊ธฐ์กด TTS๋ค์ด ๊ทธ๋ฌ๋ ๊ฒ ์ฒ๋ผ ๋ฐ์ดํฐ์ ์ถ์ ๊ณผ ๋ชจ๋ธ์ ์ ๊ตํ๋ก ๋น ๋ฅด๊ฒ ๋ฐ์ ํ ๊ฒ์ผ๋ก ๊ธฐ๋๋ฉ๋๋ค.
์นด์ด์คํธ ์ธก์์ ์๋ ์ ๋ฐํํ ํ/์ ๋ ธ๋ ๋ฐ์ดํฐ์ ๋ํ 5์์ ๊ณต๊ฐ๋์ด ํด๋น ๋ฐ์ดํฐ๋ก ํ์ต๋ ๋ฐ๋ชจ๋ฅผ ๊ณต๊ฐ๋์ด ์์ผ๋ ๋ค์ด๋ณด์ ๋ ์ข์ ๊ฒ ๊ฐ์ต๋๋ค. ์ข ๋ ์์ธํ ์ฌํญ์ ๋ ผ๋ฌธ์์ ๊ณต๊ฐ๋ ๋ฐ๋ชจ ์ฌ์ดํธ์ธ ๋ฐ์ ๋งํฌ๋ฅผ ์ฐธ์กฐํ์ธ์.
Demo link: https://mlpsinger.github.io/
Github link: https://github.com/neosapience/mlp-singer
Reference
Tae, J., Kim, H., & Lee, Y. (2021). MLP Singer: Towards Rapid Parallel Korean Singing Voice Synthesis. arXiv preprint arXiv:2106.07886.
Choi, S., Kim, W., Park, S., Yong, S., & Nam, J. (2020, October). Childrenโs Song Dataset for Singing Voice Research. In The 21th International Society for Music Information Retrieval Conference (ISMIR). International Society for Music Information Retrieval.
Chen, J., Tan, X., Luan, J., Qin, T., & Liu, T. Y. (2020). Hifisinger: Towards high-fidelity neural singing voice synthesis. arXiv preprint arXiv:2009.01776.