포커는 반이 심리전이라고 해도 과언이 아닐 만큼 바둑이나 체스와는 또 다른 게임입니다. 이번에 페이스북이 공개한 ReBeL은 이런 점에서 주목할 만하다고 생각합니다. 특히, 강화학습과 검색을 함께 사용한 것이 특징인데, RAG와 같이 대화 모델과 검색 엔진을 결합하는 시도 등, 페이스북이 최근 집중하는 부분이 어떤 것인지 잘 보여주는 것 같습니다.
재미있는 것은, 포커에서의 “허세”를 구현하기 위해서 플레이어별 “신념”을 설정하고 이를 활용했다는 것인데, 이를 활용하면 게임에 AI를 적용할 때 여러모로 의미가 있을 것 같습니다. 다음은 Facebook ReBel의 github 저장소와 AITimes의 기사 원문 링크입니다.
facebookresearch/rebel
An algorithm that generalizes the paradigm of self-play reinforcement learning and search to imperfect-information games. – facebookresearch/rebel