[์ ํ์ฐ๊ตฌํ ์ด์ ์ฐ]
์ต๊ทผ์ ๊ฐํํ์ต์ ๋ค์ํ ๊ณผ์ ์์ AI agent๊ฐ ์ธ๊ฐ์ ์ฑ๋ฅ์ ์๋ํ ์ ์์์ ๋ณด์ฌ์คฌ์ต๋๋ค. ํ์ง๋ง, ํ์ต๋์ง ์์ AI agent๋ ์ฌ๋๊ณผ ๋น๊ตํ์ ๋, ๋ง์ ์๊ฐ์ ํ์ต์ ์๊ตฌํ๋ฉฐ ๋ค์ํ ๊ณผ์ ๋ค์ ๋ํ ์ผ๋ฐํ ์ฑ๋ฅ์ด ์ข์ง ๋ชปํ๋ค๋ ๋จ์ ์ ๊ฐ์ง๊ณ ์์ต๋๋ค. ๋ฐ๋ฉด ์ฌ๋์ AI agent์ ๋ค๋ฅด๊ฒ, ์๋ก์ด ์ํฉ์ ์ ์ ์ํ๋ฉฐ, ์๋ก์ด ์ง์์ ๊ณ์ํด์ ํ์ตํด ๋์๊ฐ ์ ์๋ ๋ฅ๋ ฅ์ ๊ฐ์ง๊ณ ์์ต๋๋ค. ์ด๋ฐ ์ฌ๋์ ๋ฅ๋ ฅ์ ์ฐธ๊ณ ํด Continual Learning์ด ํ์ํ๊ฒ ๋์์ต๋๋ค. ์ด๋ฒ ๊ธ์์๋ Towards Continual Reinforcement Learning: A Review and Perspectives (Khetarpal et al., 2020)์ ํตํด ํ์ค ์ธ๊ณ์ ์ํฉ๊ณผ ์ ๋ง๋ Continual Reinforcement Learning์ ๋ํด ์๊ฐํ๊ณ ์ ํฉ๋๋ค.
- Reinforcement Learning
์ ๊ทธ๋ฆผ์ ๊ธฐ๋ณธ์ ์ธ ๊ฐํํ์ต์ ํํ๋ฅผ ๋ํ๋ ๋๋ค. ๋ ผ๋ฌธ์ ์ ์๋ค์ ๊ฐํํ์ต์ state, action, reward๊ฐ ์๊ฐ์ ์์กด๋๋ ๋ถ๋ถ์ ์ด์ผ๊ธฐ ํฉ๋๋ค. ๋ง์ฝ environment๊ฐ ๋ค์๋ ๊ณผ๊ฑฐ๋ก ๋์๊ฐ ์ ์๋ infinite ์๋๋ฆฌ์ค๋ผ๋ฉด, ํ์ค ์ธ๊ณ์ ๊ธฐ์ค์ผ๋ก ๊ณผ๊ฑฐ์ ์ด๋ฏธ ์ง๋๊ฐ ์ํ๋ ๋ค์ ๋์๊ฐ ์ ์๊ธฐ ๋๋ฌธ์, non-stationary์ ๊ด์ ์ผ๋ก ๋ณผ ์ ์์ต๋๋ค. ์ด์ฒ๋ผ ์์ฐ์ค๋ฌ์ด ์๊ฐ์ ํ๋ฆ์ด ์๊ณ ๊ณผ๊ฑฐ์ ๋ฅ๋ ฅ์ ์ ์ง ์์ผ์ผ ํ๋ ์กฐ๊ฑด์ Continual Learning์ ์คํํ๊ณ ๊ฒ์ฆํ๊ธฐ์ ์ต๊ณ ์ ์กฐ๊ฑด์ ๋๋ค.
- Continual Learning
Continual Learning์ “์์ ์ฑ-๊ฐ์์ฑ ๋๋ ๋ง”๋ฅผ ํด๊ฒฐํ๋ ๊ฒ์ด ๋ชฉ์ ์ ๋๋ค. ์์ ์ฑ์ ์ํด ๊ฐ์์ฑ์ ํฌ์ ์ํค๋ฉด ๊ณผ๊ฑฐ์ ํ์ตํ ๋ถ๋ถ์ ์ ์งํ ์ ์์ง๋ง, ๊ทธ๋งํผ ์๋ก ํ์ตํ ์ง์์ ๋ํด ์ฝํ ์ ์์ต๋๋ค. ๋ฐ๋์ ๊ฒฝ์ฐ ์๋ก์ด ์ง์์ ์ง์ค๋๋ฉฐ, Catastrophic Forgetting ๋ฌธ์ ๊ฐ ๋ฐ์ํ ์ ์์ต๋๋ค. ์์ ์ฑ๊ณผ ๊ฐ์์ฑ ์ฌ์ด์์ ๊ณผ๊ฑฐ ํ์ต์ ๋ํ ๋ฅ๋ ฅ์ ์ ์งํ๋ฉฐ ์ง์์ ์ธ ์๋ก์ด ํ์ต์ด ๊ฐ๋ฅํ๊ฒ ๋ง๋๋ ๊ฒ์ด Continual Learning์ ํต์ฌ ์ ๋๋ค.
- Continual Reinforcement Learning
Continual RL์ ํฌ๊ฒ 3๊ฐ์ง ๋ชฉํ๋ฅผ ๊ฐ์ง๊ณ ์์ต๋๋ค.
- Explicit Knowledge Retention: ํ์ต์ ํ๋ฉด์ ๋ฐ์ํ๋ catastrophic forgetting ๋ฐฉ์ง๋ฅผ ํตํด ์ง์์ ์ ์งํ๋ฉฐ, ์์ ์ฑ์ ๋์ด๊ณ ์ต์ ์ ๊ฐ์์ฑ์ ์ป์ ์ ์๋๋ก ํฉ๋๋ค.
- Leverage Shared Structure: ๊ณ์ํด์ ํ์ตํ๋ AI agent์ ๊ฒฝ์ฐ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ๊ตฌ์กฐ์ ์ธ ์ธก๋ฉด๊ณผ ๊ณผ๊ฑฐ์ ํด๊ฒฐํ ํ์ ๋ฌธ์ ์์ ์ป์ ํด๊ฒฐ์ฑ ์ ์ฌ์ฌ์ฉ ํ๋ฉฐ, ์๋์ ์ผ๋ก ๊ณํ, ํ์ต ๋ฐ ์ถ๋ก ์ผ๋ก ํ์ฉ๋ฉ๋๋ค. ์ด์ฒ๋ผ ๊ณต์ ๊ตฌ์กฐ๋ฅผ ์ ์ฌ์ฉํ๋๋ก ํฉ๋๋ค.
- Learning to Learn: ๋ง์ง๋ง์ผ๋ก ํ์ตํ๋ ๋ฐฉ๋ฒ ์์ฒด๋ฅผ ๋ฐฐ์ฐ๋๋ก ํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค. ๊ธฐ๋ณธ์ ์ผ๋ก meta-learning๊ณผ ๊ฐ์ ๋ชฉํ๋ฅผ ๊ฐ์ง๋๋ค.
ํฌ๊ฒ 3๊ฐ์ง ๋ชฉํ๋ฅผ ํตํด ์ฌ๋๊ณผ ๊ฐ์ด ๊ณผ๊ฑฐ์ ์ง์์ ์ ์งํ๋ฉด์, ์ป์ด์ง ์ง์๋ค์ ๊ณต์ ๊ตฌ์กฐ๋ฅผ ํ์ ํด ์ฌํ์ฉํ๊ณ , ํ์ตํ๋ ๋ฐฉ๋ฒ ์์ฒด๋ฅผ ๋ฐฐ์ ๋ฐ์ ํ๋๋ก ํฉ๋๋ค.
- Evaluating Continual Reinforcement Learning
์์ ์ด์ผ๊ธฐํ Continual RL์ ๋ค์ํ ๋ถ๋ถ์ ํ๊ฐํ๊ธฐ ์ํด, ๋ ผ๋ฌธ์์๋ Continual RL agent ํ๊ฐ๋ฅผ ์ํ 7๊ฐ์ง ์งํ๋ฅผ ์ค๋ช ํฉ๋๋ค.
- Catastrophic Forgetting (Forward and Backward Transfer): AI agent๊ฐ ์๋ก์ด ๊ด๋ จ๋ ์ํฉ์์ ์ด์ ์ ์ต๋ํ ์ง์์ ํจ๊ณผ์ ์ผ๋ก ์ฌ์ฉํ๋ ๊ฐ๋ฅผ ํ๊ฐ ํฉ๋๋ค(Forward transfer) ํ์ฌ์ ์ํฉ์์ ์ด์ ์ ํ์ตํ ๋น์ทํ ๊ธฐ๋ฅ์ ์ฑ๋ฅ์ ํฅ์ ์ํฌ ์ ์๋ ์ง ํ๊ฐ ํฉ๋๋ค(Backward transfer).
- Skill Reusability: ์๋ก์ด ๊ฒฝํํ์ง ๋ชปํ ์ํฉ์ ๋ง๋ฌ์ ๋, ์ด์ ์ ๋ฐฐ์ด ๊ธฐ์ ์ ์ฌ์ฌ์ฉํ๊ณ ์๋ก์ด ๊ธฐ์ ์ ๋ง๋ค์ด ๋ผ ์ ์๋ ์ง ํ๊ฐํฉ๋๋ค.
- Interpretability: ํ์ต๋ representation, ์ป์ด์ง ํ๋, value function, policy๋ฅผ ์ ์ฑ์ ์ผ๋ก ํ๊ฐํด ํ์ต๋ฅ ๊ณผ ์ ์ ๋ฐ์ ์ ์ฌ์ฉํฉ๋๋ค.
- Skill Composition: Agent๊ฐ ๋ณธ ๋ฐ์ดํฐ๋ฅผ ํตํด ์ด์ ์ ๋ฐฐ์ด ๊ฒ์ ๋ ํจ๊ณผ์ ์ผ๋ก ํ์ฉํ๋ ์ง ํ๊ฐํฉ๋๋ค.
- Planning: ์ต๋ํ ์ง์์ ํ์ฉํด ๋ฏธ๋๋ฅผ ํจ๊ณผ์ ์ผ๋ก ๊ณํํ ์ ์๋ ์ง ํ๊ฐํฉ๋๋ค.
- Cause and Effect Reasoning: Agent๊ฐ ํ๊ฒฝ์์์ ๊ท์น๊ณผ ๊ฐ์ฒด๋ฅผ ์ค์ ๋ก ํ์ตํ๊ณ ์๋ ์ง ์ธ๊ณผ๋ถ์์ ํตํด ์ธก์ ํฉ๋๋ค.
- OOD (Out of Distribution) Generalization: zero-shot์ ํตํด Return์ ์์ธกํ๋ ๊ฒ๊ณผ ์ํ์ ๋ณต์ก์ฑ์ ํตํด agent์ ์ผ๋ฐํ ์ฑ๋ฅ์ ํ๊ฐ ํ ์ ์์ต๋๋ค.
์ฌ๋๊ณผ ๊ฐ์ ํ์ต ๊ณผ์ ์ ๋ง๋ค์ด ๋ด๊ธฐ ์ํด ์ด๋ฒ ๊ธ์์ ์๊ฐํ Continual RL๊ณผ ํจ๊ป lifelong learning, online learning, never-ending learning ๋ฑ ๋ค์ํ ๋ถ์ผ๋ค์ด ์กด์ฌํฉ๋๋ค. ์ต๊ทผ ๋ ์ค๋ฅด๊ณ ์๋ continual learning๊ณผ ์ผ๋ถ ๋ถ์ผ์์ ์ฌ๋์ ์ฑ๋ฅ์ ๋ฐ์ด๋๋ reinforcement learning์ ์กฐํฉ์ธ continual RL์ด ๋๋ค๋ฅธ ์ฑ์ฅ์ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ค์ง ์ง์ผ๋ณด๋ฉด ์ข์ ๊ฒ ๊ฐ์ต๋๋ค.
- Reference
https://arxiv.org/abs/2012.13490