Visual Dialog task๋ ์ง์ ์๋ต์ผ๋ก ์ด๋ฃจ์ด์ง๋ Q&A task์ ์ด๋ฏธ์ง๋ฅผ ์ถ๊ฐํ ๋ฉํฐ๋ชจ๋ฌ task์ ๋๋ค. ์๋ฅผ ๋ค์ด ํฐ์ ๊ณ ์์ด์ ๊ฒ์์ ๊ฐ์์ง๊ฐ ํจ๊ป ์๋ ์ฌ์ง์ ์ฃผ๊ณ “๊ณ ์์ด ์ ๋๋ฌผ์ ๋ฌด์จ ์์ด์ผ?”๋ผ๊ณ ๋ฌผ์ด๋ณด๋ฉด “๊ฒ์์”ํ๊ณ ๋๋ตํ๋ ์์ด์ง์. ๊ตฌ์ฒด์ ์ผ๋ก, ์ด๋ฏธ์ง์ dialog history, question์ ์ฃผ๋ฉด answer๋ฅผ ์์ฑํ๋ task์ ๋๋ค. Visual Dialog ์ฌ์ดํธ์ ๊ฐ ๋ณด๋ฉด ๋ฐ์ดํฐ์ ์ด ๊ณต๊ฐ๋์ด ์๊ณ v1.0 ๊ธฐ์ค 12๋ง๊ฐ ์ด๋ฏธ์ง์ 120๋ง๊ฐ ํ ์คํธ ๋ฌธ์ฅ์ด ์์ต๋๋ค. (์ด๋ฏธ์ง 1๊ฐ๋น ๋ํ 1๊ฐ) ์๋ ๋งํฌ๋ Visual Dialog ์ฌ์ดํธ์ ๋ฐ์ดํฐ์ ํ์ด์ง์ ๋๋ค.
์ด ์ฌ์ดํธ์์๋ ๋งค๋ challenge๋ฅผ ๊ฐ์ตํ๋๋ฐ ์๋์ ์์์ MReaL-BDAI ๋ผ๊ณ ๋ถ๋ฅด๋ ์์คํ ์ผ๋ก 1์๋ฅผ ์ฐจ์งํ ํ์ ๊ธฐ์ ์๊ฐ ์์์ ๋๋ค. ํ๊ฐ ๋ฉํธ๋ฆญ ์ค ํ๋์ธ NDCG ๊ธฐ์ค, 2์๋ฅผ 10์ ๊ฐ๊น์ด ์ํํ๋ ๋๋ผ์ด ์ ์๋ฅผ ๋์ต๋๋ค. (74.57)
๊ทธ๋ฌ๋ ์ด ๊ธฐ์ ์ ๋ ผ๋ฌธ์ ์ฝ์ด๋ณด๋ฉด ์๋ก์ด ๋ชจ๋ธ ๊ตฌ์กฐ๊ฐ ์๋๋ฆฌ ๊ธฐ์กด NDCG 59์ ๋์ ๊ธฐ์ ์ ์ฌ๋ฌ ๊ฐ์ง (task ์์กด์ ) ์ง๊ด์ ์ํ ์ต์ ํ ๊ธฐ์ ๋ก 74์ ๊น์ง ๋์ด์ฌ๋ฆฝ๋๋ค. (2์คํ ํ์ต๋ฒ์ด๋ผ๊ณ ์๊ฐ๋ ๋ฐฉ๋ฒ ๋ง์ผ๋ก NDCG๋ฅผ 10์ ์ฌ๋ฆฝ๋๋ค) ๊ทธ๋ฆฌ๊ณ ํ์ ๋ ผ๋ฌธ์ ํตํด ํ์ฌ ์ ์๋ Visual Dialog Task์ ์ต์ ํ ์ํจ ๋ฐฉ๋ฒ๋ค์ ์์ธํ ์ค๋ช ํฉ๋๋ค. ์์ง ๊ทธ ๋ ผ๋ฌธ์ ๋ค ์ฝ์ด๋ณด์ง๋ ๋ชปํ์ง๋ง ํน์ Task ํน์ ํน์ metric์ ์ต์ ํ์ํจ ๊ฒฝํฅ์ด ์๋ค๊ณ ์๊ฐํ๊ณ ์์ต๋๋ค. (์๋ฅผ ๋ค์ด MRR์ ๊ฒฝ์ฐ 3์ ํ๋ณด๋ค 10์ ์ด์ ๋ค์ง๋๋ค) ๋ ผ๋ฌธ ๋งํฌ๋ ์ฒจ๋ถํฉ๋๋ค.
MReaL-BDAI, for Visual Dialog Challenge 2019: two causal principles for
improving Visual Dialog (VisDial). By โimprovingโ, we mean that they can
promote almost every existing VisDial model to the state-of-the-art performance
on tโฆ
Visual Dialog Task๊ฐ ์ผ์ ๋ถ๋ถ ๋ฌธ์ ๊ฐ ์๊ณ ํ๊ฐ ๋ฉํธ๋ฆญ ๋ํ ์ค์ ์ฑ๋ฅ๊ณผ๋ ๊ดด๋ฆฌ๊ฐ ์์ง๋ง ๋ฉํฐ๋ชจ๋ฌ ๋ํ๋ ํฅํ ์ฑ๋ด์ ๋ฐฉํฅ ์ค ํ๋๊ฐ ๋ ์ ์๋ ์ค์ํ ๋ถ์ผ๋ผ๊ณ ์๊ฐํฉ๋๋ค. ์ฌ๋๋ผ๋ฆฌ ์ด์ผ๊ธฐ ํ ๋๋ ์ธ์ด์ ์ ๋ณด์๋ง ์์กดํ๋ ๊ฒ์ด ์๋๋ผ ์๊ฐ์ ์ ๋ณด, ์ฒญ๊ฐ์ ์ ๋ณด, ํ๊ฐ์ ์ ๋ณด ๋ฑ ๋ค์ํ ์ ๋ณด์ ์์กดํฉ๋๋ค. ์ฑ๋ด์ด ์ฐ๋ฆฌ์ ํ์ ์ ์ฝ๊ณ ๋ํ๋ฅผ ๊ฑธ์ด์ฌ ์๋ ์๊ณ ์ฐ๋ฆฌ๊ฐ ๋ณด๋ ๊ฒ๊ณผ ๊ฐ์ ๊ฒ์ ‘๋ณด๊ณ ’ ๋ฃ๋ ๊ฒ์ ‘๋ฃ๊ณ ’ ํ๋ฉด ๋ํ์ ํญ์ด ํจ์ฌ ๋์ด์ง ๊ฑฐ๋ผ๊ณ ๋ด ๋๋ค. ํจ๊ป BTS ๊ณต์ฐ์ ๋ณด๊ณ ๋ค์ผ๋ฉฐ ์ฐ๋ฆฌ์ ๋ํํ๋ ์ฑ๋ด์ ๊ธฐ๋ํด ๋ด ๋๋ค.