[선행연구팀 이정우]
오랜 시간 동안 강화학습 알고리즘들의 성능을 검증하기 위해 게임 (바둑, 장기, 아타리 게임 등)을 사용해 왔습니다. 알고리즘의 발전에 따라, 강화학습 분야에서도 다른 이미지, 자연어 분야와 마찬가지로 현실에 존재하는 여러 문제들을 해결하고 서비스를 만들고 싶어하는 모습들이 많이 나타나고 있습니다.
이번 글에서는 최근 공개된 3가지 강화학습 환경들을 통해 어떤 분야들이 다뤄지고 있는지 알아보도록 하겠습니다.
1. DeepMind – AndroidEnv
AndroidEnv는 DeepMind에서 공개한 안드로이드에서 강화학습을 하기 위한 환경입니다. 안드로이드 환경에서 동작할 수 있는 기본 앱들에 접근이 가능하며, 스마트폰을 많이 사용하고 있는 현대에 사람과 같은 방식의 사용법을 터득할 수 있는 지 실험해 볼 수 있습니다. example task에는 몇 가지 게임들도 제공 하고 있어, 터치와 드래그 동작을 사용해 사람과 같은 행동을 하며, 게임 하는 방법을 학습 할 수 있습니다.
환경의 중요성은 현재 가장 사람이 많이 사용하는 플랫폼 기기에 강화학습을 적용하며, 어떤 현실 문제들을 풀고 적용해 나갈 수 있는 지 연구 해볼 수 있습니다. 또한, 서비스 관점에서도 알고리즘들이 발전 된다면, 안드로이드 플랫폼에서 다양한 강화학습 application들이 나올 수 있을 것으로 기대됩니다.
2. Facebook Research – CompilerGym
CompilerGym은 그동안 볼 수 없었던 새로운 종류의 강화학습 환경 입니다. 앞서 언급한대로 주로 게임 혹은 시뮬레이션 상황에서의 로봇 제어의 환경이 다수 였습니다. 페이스북 연구팀은 강화학습의 최적 정책 찾는 능력이 컴퓨터 분야에서 최적화가 필요한 분야에서도 잘 적용되기를 바라는 것 같습니다. Compiler는 언어 번역 프로그램으로 High level로 작성된 프로그래밍 언어를 컴퓨터 시스템에 맞는 low level의 언어로 변경해 주는 역할을 담당합니다. 이런 Compiler 또한 여러 api를 사용해 최적화 하는 과정이 있으며, 강화학습이 Compiler optimization의 항목에서 컴파일 시간을 단축할 수 있도록 정책을 찾아냅니다.
CompilerGym을 통해 강화학습이 도움 된다는 것이 증명 된다면, 많은 종류의 컴퓨터 시스템 효율을 높이는 데 사용 될 수 있을 것으로 기대 됩니다.
3. Facebook Research – Habitat Lab
Habitat Lab은 Embodied AI 분야의 실험을 하기 위한 환경 입니다. Embodied AI는 가상 세계 및 다른 가상 로봇과 함께 상호 작용하며, 가상 로봇의 AI 문제를 해결하는 분야입니다. 기존에 Habitat 1.0이 공개되어 있었지만, 이번에 Habitat 2.0으로 업데이트 되었습니다. 단순히 로봇의 이동 뿐 아니라, 질문, 명령을 자연 언어로 전달해 명령을 수행하거나, 정답을 찾기 위해 직접 정답의 근거가 될 수 있는 위치를 찾아 냅니다.
Habitat Lab 환경을 통해 현실 세계에서도 잘 소통하고 사람을 도와줄 수 있는 로봇 AI가 만들어 지길 기대 합니다.
이번 글에서는 최근에 공개된 3가지 강화학습을 위한 환경들을 소개 드렸습니다. 공개된 환경들을 이용한 강화학습 발전이 얼마나 우리의 삶에 직접적으로 다가 올지 지켜보면 좋을 것 같습니다.
- Reference
- https://github.com/deepmind/android_env
- https://github.com/facebookresearch/CompilerGym
- https://github.com/facebookresearch/habitat-lab