연합뉴스 본문 바로가기 메뉴 바로가기

연합뉴스 최신기사
뉴스 검색어 입력 양식

AI '딥스택', 무제한 베팅 포커게임서 인간고수들 '싹쓸이'

송고시간2017-03-03 04:00

이 뉴스 공유하기
URL이 복사되었습니다.
본문 글자 크기 조정

체코·미국 연구팀, 사이언스에 논문 발표

(서울=연합뉴스) 임화섭 기자 = 인간과 기계가 겨루는 무제한 베팅 포커 게임에서 인공지능(AI) 프로그램이 프로 도박사들을 모조리 눌렀다.

캐나다 앨버타대·체코 프라하 카렐대·체코 공과대 연구진은 무제한 베팅 포커 게임을 하는 AI 프로그램 '딥스택'(DeepStack)을 개발하고 무작위로 카드와 베팅금액을 설정해 1천만여건의 게임 상황을 만들어 입력하는 방식으로 이를 훈련시켰다.

연구진은 이어 국제포커연맹(IFP)과 각국 포커연맹의 도움을 받아 딥스택과 겨룰 프로 도박사들을 모집했다. 참여하는 도박사들에게는 딥스택과 4주간 온라인으로 각자 3천판씩 게임을 하면 그 중 성적이 가장 좋은 3명에게 각각 5천·2천500·1천250 캐나다달러(430만·210만·110만 원)를 상금으로 주겠다는 조건을 내걸었다.

처음에는 17개국 33명이 참가 신청을 했으나 이 중 상당수가 3천 게임을 채우지 못했으며 11명만 조건을 충족시켰다.

인공지능 vs 인간 (체스, 포커, 탁구, 골프, 퀴즈)(CG)
인공지능 vs 인간 (체스, 포커, 탁구, 골프, 퀴즈)(CG)

[연합뉴스TV 제공]

포커 규칙은 포커 대회에서 가장 널리 쓰이는 '헤즈업 무제한 텍사스 홀덤'(Heads-Up No-Limit Texas Hold'em·HUNL)을 사용했으며, 칩은 게임당 2만개, 게임 중 기준 베팅 금액(빅 블라인드·big blind)은 칩 100개였다. 플레이어는 각 게임에서 전체 칩 갯수 범위 내에서 무제한으로 베팅을 할 수 있었다.

반복되는 포커 게임에서 거둔 플레이어의 성적은 이 분야 연구자들의 관행에 따라 'mbb/g'(milli-big-blind per game)로 따졌다. 이는 플레이어가 평균적으로 게임당 따는 돈이 빅 블라인드의 몇 배인지 천분율로 계산한 것이다. 포커는 확률 게임이므로 개별 게임의 결과로만 플레이어의 역량을 가늠할 수 없으며, 매우 많은 횟수의 게임을 했을 때 얼마나 많은 돈을 따느냐를 봐야 한다.

처음에 항상 포기하는 플레이어는 750 mbb/g 차로 지게 되어 있으며, 프로 도박사들은 대개 고객을 상대로 50 mbb/g 차이로 돈을 따는 것을 최소 목표로 삼는다. 2015년에는 당시 최고로 꼽히던 포커 컴퓨터 프로그램 '클라우디코'가 인간 프로 도박사 팀에 91mbb/g의 '상당한 격차'로 패배한 적이 있다.

딥스택은 작년 11월 초부터 12월 초까지 33명의 도박사들과 4만4천852 게임을 했으며, 여기서 492mbb/g의 성적을 거뒀다. 이는 표준편차의 4배가 넘는 격차로, 통계적으로 유의도(有意度)가 매우 높다. 대개 통계학적으로 표준편차의 2배·3배 격차가 있으면 신뢰도가 각각 95%·99% 이상인 것으로 평가된다.

중도에 포기하지 않고 개인당 3천 게임 조건을 채운 11명의 도박사들과 한 게임들만 따져도 딥스택은 이들 모두를 꽤 큰 격차로 눌렀다.

이들을 상대로 한 딥스택의 평균 성적은 394 mbb/g였으며, 인간 11명 중 가장 성적이 좋은 도박사를 70 mbb/g의 격차로 꺾었다.

또 신뢰수준 95%로 따졌을 때 인간 1위를 제외한 도박사 10명은 딥스택과의 실력 격차가 '통계학적으로 유의한' 수준으로 평가됐다. 간단히 말해 딥스택이 이들보다 훨씬 고수이며 돈을 딴 것이 우연이 아니라는 얘기다.

무제한베팅 포커의 경우의 수 설명 그림
무제한베팅 포커의 경우의 수 설명 그림

[AAAS 제공=연합뉴스]

연구진은 HUNL 규칙에 따른 포커 게임에서는 경우의 수가 10^160(10의 160 거듭제곱)으로 바둑과 비견할만한 수준이라며, 딥스택이 상황에 관한 '직관'을 갖도록 훈련시키는 방식으로 선택의 수를 10^17(10의 17 거듭제곱 = 10경(京)) 수준으로 줄였다고 설명했다.

연구진은 이런 내용이 담긴 논문을 미국과학진흥협회(AAAS)가 발간하는 과학 학술지 '사이언스' 3일자에 게재했다.

이에 앞서 HUNL과 규칙이 비슷하지만 베팅 액수가 일정해야 한다는 제한이 있는 '헤즈업 제한 텍사스 홀덤'(Heads-Up Limit Texas Hold'em) 방식 포커는 컴퓨터를 이용해 통계학적 최적 전략이 발견돼 수학적으로 엄밀하게 해결됐다는 논문이 2015년 1월 '사이언스'에 실린 바 있다.

당시 논문 제1저자 겸 교신저자였던 앨버타대 마이클 볼링 교수는 이번 새 논문의 교신저자를 맡았다.

solatido@yna.co.kr

댓글쓰기
에디터스 픽Editor's Picks

영상

뉴스