[์ ํ์ฐ๊ตฌํ ์ ํฌ์กฐ]
๋ฒ์ญ์ ๋ฅ๋ฌ๋ ๋ถ์ด ์ผ๋ ์ด๊ธฐ๋ถํฐ ์ฐ๊ตฌ๋๋ ์ฃผ์ ์ ๋๋ค. ์ง๊ธ์ ์ด๋ ๋ถ์ผ์์๋ ์ฌ์ฉ๋๋ attention ์ญ์ ์ต์ด๋ Seq2Seq ๊ตฌ์กฐ๊ฐ ๊ฐ๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ ์๋ ๋ฐฉ๋ฒ์ด์์ต๋๋ค. ๊ทผ 10์ฌ๋ ๊ฐ ๋ฅ๋ฌ๋ ๊ธฐ๋ฐ ๋ฒ์ญ๊ธฐ์ ์ฑ๋ฅ์ ๊พธ์คํ ๊ฐ์ ๋์ด ์๊ณ ์ด๋ฐ ๋ฒ์ญ๊ธฐ ์ฑ๋ฅ์ ๊ฐ์ ์ ์ธ์ด์ ์ํ ์ฅ๋ฒฝ์ ๋ง์ ๋ถ๋ถ ํด์์์ผ์ฃผ์์ต๋๋ค.
ํ์ฌ์ ๋ฒ์ญ ๊ธฐ์ ์ ๋๋ถ๋ถ text-to-text์ ํฌ์ปค์ค๋ฅผ ๋ง์ถ๊ณ ์์ต๋๋ค (text-to-text translation, T2TT). ๊ทธ๋ฆฌ๊ณ ํ ์คํธ์ ์ถ์์ฑ์ ๋ชจ๋ธ์ ์ผ์ ์์ค๊น์ง ๋์ด์ฌ๋ฆฌ๋๋ฐ๋ ํฐ ๋์์ด ๋์ง๋ง ๋ํ ๋ด์ ๋ค์ํ ๋น ์ธ์ด์ ์์๋ฅผ ์ฌ๋ผ์ง๊ฒ ํ๋ ๋ฌธ์ ๊ฐ ์์ต๋๋ค. ํนํ ๋ํ์์ ์ด๋ฐ ๋ฌธ์ ๋ ๋๋๋ฌ์ง๊ฒ ๋ํ๋๊ฒ ๋ฉ๋๋ค. ์ธ์ด๊ฐ ๋ค๋ฅธ ๋ ์ฌ๋์ด ๋ํํ ๋ ๋ฒ์ญ๊ธฐ๋ฅผ ์ด์ฉํ๋ค๋ฉด ์ฐ๋ฆฌ๋ ํต์ ‘L1 speech โ L1 recognition (L1 text) โ L1L2 translation (L2 text) โ L2 TTS (L2 speech)’์ ๊ฐ์ ๊ณผ์ ์ ๊ฑฐ์น๊ฒ ๋ฉ๋๋ค. ์ธ์๊ณผ ๋ฒ์ญ์ ๊ฑฐ์น๋ฉด์ ์ฌ๋ผ์ง๋ ๋น์ธ์ด์ ์ ๋ณด๋ค์ ํ์ฌ์ ๋ฒ์ญ๊ธฐ๋ก๋ ํด์๋๊ธฐ ์ด๋ ค์ด ์ฅ๋ฒฝ์ด ๋๊ณ ์์ต๋๋ค.
์ด์ ๊ฐ์ ๋ฌธ์ ์ ๋ํ ํด๊ฒฐ์ฑ ์ผ๋ก Google์ 2019๋ ์ Translatotron์, ๊ทธ๋ฆฌ๊ณ ์ด๋ฒ 7์์ Translatotron 2 ๋ฅผ ๊ณต๊ฐํ์ต๋๋ค. Translatotron๊ณผ ๊ธฐ์กด์ ๋ฒ์ญ ๋ชจ๋ธ๊ณผ ๊ฐ์ฅ ํฐ ์ฐจ์ด์ ์ speech-to-speech์ ํฌ์ปค์ค๋ฅผ ๋ง์ถ๊ณ ์๋ค๋ ์ ์ ๋๋ค (speech-to-speech translation, S2ST). ๋ชจ๋ธ์ ๋ฐํํ ๋ ผ๋ฌธ์ S2ST๊ฐ T2TT์ ๋นํด L1์ ๋น์ธ์ด์ ์ ๋ณด๋ฅผ ๊ทธ๋๋ก ์์ฑ ์ฐ์ถ์ ๋ฐ์ํ ์ ์๋ค๋ ์ , ๊ทธ๋ฆฌ๊ณ ์ฐ์ฐ ๊ณผ์ ๋ฑ์ ๊ฐ์๋ก ์ธํ ์๊ฐ ๋ฐ ์ค๋ฅ ๊ฐ์ ๋ฑ์ ์ฅ์ ์ ๊ฐ์ง๊ณ ์๋ค๊ณ ์ด์ผ๊ธฐํ๊ณ ์์ต๋๋ค.
Translatotron 2์ ๋๋ต์ ์ธ ๊ตฌ์กฐ๋ ASR๊ณผ TTS๋ฅผ ํผํฉํ ๋ชจ๋ธ์ ๊ฐ๊น์ต๋๋ค. L1์ ์์ฑ ์ ๋ณด(mel-spectrogram)๋ฅผ ์ ๋ ฅ๋ฐ์ L2 phoneme์ decoder๋ก ์์ธกํ๊ณ (ASR), ๋์์ L2 phoneme์ ์ฐ์ถํ๊ธฐ ์ ์ decoder ์ถ๋ ฅ๊ณผ attention์ ๊ฒฐํฉํ์ฌ synthesizer๋ฅผ ํตํด L2 mel-spectrogram์ ์์ธกํฉ๋๋ค (TTS). ๋ฐ๋ผ์ L1 phoneme์ ๋ชจ๋ธ์์ ๊ณ ๋ ค๋์ง ์์ต๋๋ค.
๋ฌผ๋ก ์ด์ ๊ฐ์ ๊ตฌ์กฐ๋ S2ST ๊ธฐ์ ์ด ์์ง์ ๋์ด์ผ ํ ์ฅ์ ๋ฌผ์ด ๋ง๋ค๋ ๊ฒ์ ๋ณด์ฌ์ฃผ๊ณ ์์ต๋๋ค. ์ ์๋ ๋ชจ๋ธ์ text ์ฐ์ถ์ ์ํ decoder๋ฅผ ๊ฑฐ์นจ์ผ๋ก์จ ๋ชฉํ๋ก ํ๋ speech-to-speech๋ณด๋ค๋ speech-to-text-to-speech์ ๊ตฌ์กฐ์ ๊ฐ๊น์์ก์ต๋๋ค. ๊ฑฐ๊ธฐ์ L1๊ณผ L2์ ์ฐจ์ด์ ์ ๋์ ๋ฐ๋ผ์ ๋ชจ๋ธ์ ํ๋ฆฌํฐ ๋ํ ๋ฌ๋ผ์ง ๊ฐ๋ฅ์ฑ์ด ๋์ต๋๋ค. ํนํ decoder๋ฅผ ์ํด ์ฌ์ฉ๋ attention์ ํ๊ตญ์ด์ ๊ฐ์ ์ด์์ด ๋ค๋ฅธ ์ธ์ด์์๋ ํจ์ฌ ๋ ๋ฎ์ ํผํฌ๋จผ์ค๋ฅผ ๋ณด์ผ๊ฒ๋๋ค. ํ์ง๋ง ๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ ์ด๋ฐ ๋ชจ๋ธ๋ค์ ‘๋ฅ๋ฌ๋์ด ์ธ์ ๊ฐ ์ฐ๋ฆฌ๊ฐ ๊ฒช๋ ์๋ง์ ์ธ์ด์ ์ฅ๋ฒฝ์ ์ธ์ ๊ฐ ๋ฐ์ด๋์ ์ ์๋๋ก ํด์ฃผ๋ ๊ฒ์ด ์๋๊น?’ ๋ผ๋ ๊ธฐ๋ ๋ํ ๋ค๊ฒ ๋ง๋ญ๋๋ค.
Reference
Jia, Y., Ramanovich, M. T., Remez, T., & Pomerantz, R. (2021). Translatotron 2: Robust direct speech-to-speech translation.ย arXiv preprint arXiv:2107.08661.
Jia, Y., Weiss, R. J., Biadsy, F., Macherey, W., Johnson, M., Chen, Z., & Wu, Y. (2019). Direct speech-to-speech translation with a sequence-to-sequence model.ย arXiv preprint arXiv:1904.06037.