Info Poker Online

Facebook Kembangkan Poker AI ReBel Baru Yang Dapat Mengalahkan Poker Pro

Facebook telah mengembangkan AI bermain poker lainnya, kali ini menggunakan kerangka kerja umum yang tidak terlalu bergantung pada pengetahuan domain. Pembelajaran Berbasis Keyakinan Rekursif (ReBel) berputar di sekitar konsep “keadaan permainan”, yang beroperasi melalui dua model AI yang memungkinkannya untuk menciptakan “keadaan kepercayaan publik”, yang pada gilirannya memberinya kemampuan untuk mengungguli pemain manusia.

Seperti banyak sistem AI lainnya, ReBel juga menggunakan pembelajaran penguatan untuk mempelajari game secepat mungkin. Namun tidak seperti pendahulunya, ReBel menerapkan konsep baru yang membantunya melampaui apa yang terlihat dan diketahui. Ini melatih dua model AI – satu untuk nilai, yang lain untuk kebijakan – dan kemudian menghasilkan pernyataan kepercayaan publik, sangat mirip dengan bagaimana pemain manusia menguraikan apa yang ada di dalam pikiran lawan mereka.

Dengan demikian, ReBel tidak hanya mempertimbangkan data yang tersedia, seperti kartu, ukuran taruhan, atau jangkauan tangan, ia menggali lebih dalam informasi tersembunyi selama bermain sendiri, dan kemudian membuat subgame untuk melihat probabilitas dan semua kemungkinan tindakan dari lawan. serta hasil potensial dari masing-masing tangan. ReBel kemudian membuat keputusan seputar aspek-aspek ini.

ReBel berbeda dari DeepMind’s AlphaZero karena tidak mendasarkan keputusannya pada asumsi belaka; sebaliknya, ini juga memperhitungkan pot, chip, serta keyakinan dan kebijakan agen yang membantunya mencapai ambang akurasi tertentu saat membuat keputusan.

Untuk menguji kemampuan ReBel, itu dibuat untuk bermain melawan salah satu pemain top head-up no-limit hold’em, Dong Kim, bersama dengan tiga pemain berkemampuan tinggi lainnya.

Eksperimen tersebut menunjukkan bahwa ReBel bermain lebih cepat daripada lawan manusianya, dan mengalahkan spesialis head-up Kim dengan skor agregat 165 ribu blind besar, dengan deviasi rata-rata 69. ReBel juga mengungguli AI Libratus yang bermain poker di Facebook sebelumnya yang mencapai skor rata-rata 147 ketika diadu dengan pemain manusia terbaik pada tahun 2017.

Yang juga perlu diperhatikan adalah fakta bahwa Libratus hanya mengalahkan Kim dengan 29 ribu blind besar selama pertandingan uji coba mereka. ReBel diujicobakan dalam versi dua pemain dari hold’em – dadu pembohong, dan turn endgame hold’em, dan hasilnya sama-sama mengesankan.

Pendekatan yang digunakan oleh ReBel telah memungkinkannya untuk menguasai permainan informasi yang tidak sempurna, menjadikannya referensi yang layak untuk mengembangkan kerangka kerja universal masa depan yang melibatkan interaksi multi-agen dalam pengaturan besar, seperti di bidang negosiasi, lelang, keamanan siber, dan mengemudi sendiri truk dan mobil.

Karena tidak banyak bergantung pada pengetahuan domain, algoritmanya lebih diarahkan pada penggunaan umum dalam kasus dengan faktor yang kurang ditentukan sebelumnya. Satu-satunya masalah saat ini adalah potensi untuk digunakan oleh pemain sebagai cara canggih untuk curang saat berkompetisi di meja. Facebook dengan cepat mengatasi hal ini dengan mengatakan tidak akan merilis basis kode ReBel untuk poker.

Sebagai gantinya, para peneliti memilih untuk membuat kode open source mereka untuk Liar’s Dice yang fleksibel dan mudah dipahami, dan yang juga dapat digunakan dalam penelitian di masa mendatang.

Selama beberapa tahun terakhir, sistem AI telah berkontribusi besar dalam memecahkan berbagai game kompleks. Pada tahun 2017, Libratus dikembangkan di Universitas Carnegie Mellon pada awalnya untuk belajar poker, tetapi para pengembangnya memiliki tujuan agar Libratus digunakan di area utama lain yang tidak terkait dengan poker, seperti perencanaan medis, keamanan siber, dan negosiasi bisnis. AI menghadapi empat pro poker teratas dan mengalahkan semuanya.

Pada tahun 2019, Lab AI Facebook mengembangkan AI poker lain yang disebut “Pluribus”, bekerja sama dengan CMU. Saat diujicobakan, ia mampu mengungguli enam pemain manusia dalam permainan tradisional tanpa batas, menjadikannya bot pertama yang mengungguli manusia dalam pengaturan multi-pemain. Itu juga dikembangkan menggunakan algoritma self-play. Di antara lawan manusianya tidak lain adalah pemenang gelang World Series of Poker enam kali Chris Ferguson.

Tagged , , ,