Çok oyunculu pokerde profesyonelleri yenebilecek dünyanın ilk botu geliştirildi

MIT araştırmacıları, oyuncu rollerinin ve motivasyonlarının gizli tutulduğu zorlu çevrimiçi çok oyunculu oyunlarda insan oyuncuları yenebilecek yapay zekaya sahip bir bot geliştirdi.

İnsan oyunculara yetişmek için birçok oyun botu inşa edildi. Bu yılın başlarında, Carnegie Mellon Üniversitesi’nden bir ekip, çok oyunculu pokerde profesyonelleri yenebilecek dünyanın ilk botunu geliştirdi. DeepMind’s AlphaGo, profesyonel bir Go oyuncusunu en iyi şekilde kullanmak için 2016 yılında manşetlere girdi. Profesyonel satranç oyuncularını yenmek veya çevrimiçi bayrağı yakalamak gibi kooperatif oyunlarında güç birliği yapmak için birkaç bot yapıldı. Ancak bu oyunlarda bot rakiplerini ve takım arkadaşlarını en baştan biliyor.

Gelecek ay Nöral Bilgi İşleme Sistemleri Konferansında, araştırmacılar, katılımcıların takım bağlılıklarının başlangıçta belirsiz olduğu çevrimiçi çok oyunculu oyunları kazanabilen ilk oyun botu DeepRole’yi sunacak. Bot, poker oynamak için yaygın olarak kullanılan bir AI algoritmasına eklenen yeni “tümdengelimli akıl yürütme” ile tasarlanmıştır. Bu, belirli bir oyuncunun bir takım arkadaşı veya rakip olma olasılığını belirlemek için, kısmen gözlemlenebilir eylemlerle ilgili nedenlere yardımcı olur. Bunu yaparken, takımının kazancını sağlamak için kiminle bir araya geleceğini ve hangi eylemlerin gerçekleştirileceğini çabucak öğrenir.

Araştırmacılar, DeepRole’u 4.000’den fazla çevrimiçi “The Resistance: Avalon” turunda insan oyunculara karşı çekti. Bu oyunda, oyuncular oyun ilerledikçe eşlerinin gizli rollerini anlamaya çalışırken, aynı zamanda kendi rollerini de gizlemeye çalışırlar. Hem takım arkadaşı hem de rakip olarak DeepRole sürekli olarak oyuncuları geride bıraktı.

MIT’de elektrik mühendisliği ve bilgisayar bilimi alan ve çevrimiçi “Avalon” oyuncusu Jack Serrino “Bir insan takım arkadaşını bir botla değiştirirseniz, takımınız için daha yüksek bir kazanma oranı bekleyebilirsiniz. Botlar daha iyi ortaklardır” diyor. .

Çalışma, insanların sosyal olarak bilgilendirilmiş kararlar almasını daha iyi modellemek için daha geniş bir projenin parçası. Bunu yapmak, insanları daha iyi anlayan, ondan öğrenen ve onlarla çalışan robotlar oluşturmaya yardımcı olabilir.

Tümdengelimli bot

“Avalon” da üç oyuncu rastgele ve gizlice bir “direniş” takımına ve iki oyuncu da bir “casus” takıma atanır. Her iki casus oyuncu da tüm oyuncuların rollerini bilir. Her turda, bir oyuncu bir görevi yerine getirmek için iki veya üç oyuncunun bir alt kümesini önerir. Tüm oyuncular aynı anda ve genel olarak alt grubu onaylamak veya onaylamamak için oy kullanırlar. Bir çoğunluk onaylarsa, alt küme gizlice görevin başarılı ya da başarısız olacağını belirler. İki “başarılı” seçilirse, görev başarılı olur; bir “başarısız” seçilirse, görev başarısız olur. Direniş oyuncuları her zaman başarılı olmayı seçmelidir, ancak casus oyuncular her iki sonucu da seçebilir. Direniş ekibi üç başarılı görevden sonra kazanır; casus ekip üç başarısız görevin ardından kazanır.

Oyunu kazanmak, temel olarak kimin direniş veya casus olduğunu saptamaktan ve ortak çalışanlarınıza oy vermekten kaynaklanıyor. Fakat bu aslında satranç ve poker oynamaktan daha karmaşık bir işlemdir. Kleiman-Weiner, “Bu, kusurlu bilgi oyunu.” Diyor. “Başladığınızda kime karşı olduğunuzu bile bilmiyorsunuz, bu nedenle kiminle işbirliği yapabileceğinizi bulmanın ek bir keşif aşaması var.”

DeepRole, “karşıt-pişmanlık azaltma” (CFR) adı verilen bir oyun planlama algoritması kullanır – ki bu, tümdengelimli bir mantıkla güçlendirilmiş olarak, kendi başına defalarca oynayarak bir oyun oynamayı öğrenir. Bir oyunda her noktada, CFR her oyuncunun gelecekteki olası eylemlerini açıklayan çizgiler ve düğümlerden oluşan bir “oyun ağacı” kararı vermek için ileriye bakar. Oyun ağaçları, her oyuncunun gelecekteki her karar noktasında yapabilecekleri tüm olası eylemleri (hatları) temsil eder. Potansiyel olarak milyarlarca oyun simülasyonu oynarken, CFR hangi eylemlerin kazanma şansını arttırdığını veya azalttığını ve daha iyi kararlar alma stratejisini yinelemeli olarak revize ettiğine dikkat çekiyor. Sonunda, en kötüsü, herhangi bir rakibe bağlanan en uygun stratejiyi planlar.

CFR, poker gibi oyunlar için, para kazanmak ve bir eli katlamak gibi, halka açık eylemlerle iyi çalışır, ancak eylemler gizli olduğunda mücadele eder. Araştırmacıların CFR’si, oyuncuların direniş veya casus olup olmadığını belirlemek için kamu eylemlerini ve özel eylemlerin sonuçlarını birleştirir.

Bot, hem direnç hem de casus olarak kendine karşı oynayarak eğitiliyor. Online oyun oynarken, her oyuncunun ne yapacağını tahmin etmek için oyun ağacını kullanır. Oyun ağacı, her oyuncuya verilen bir rol olarak kazanma olasılığını en yüksek veren bir stratejidir. Ağacın düğümleri, verilen stratejiyi oynarlarsa oyuncunun alacağı bir kazancı tahmin eden “karşı-değer değerleri” içerir.

Her görevde, bot her bir kişinin oyun ağacına kıyasla nasıl oynadığını görüyor. Oyun boyunca, bir oyuncu botun beklentilerine uygun olmayan bir karar alırsa, oyuncu muhtemelen diğer rol olarak oynuyordur. Sonunda, bot her oyuncunun rolü için yüksek bir olasılık atar. Bu olasılıklar, botun zafer şansını arttırma stratejisini güncellemek için kullanılır.

Aynı zamanda, üçüncü bir gözlemcinin kendi eylemlerini nasıl yorumlayabileceğini tahmin etmek için aynı tekniği kullanır. Bu, diğer oyuncuların nasıl tepki gösterebileceğini tahmin etmesine yardımcı olur ve daha akıllı kararlar almasına yardımcı olur. Serrino, “Başarısız olan iki oyunculu bir görevdeyse, diğer oyuncular bir oyuncunun casus olduğunu biliyor. Bot, muhtemelen diğer oyuncuların kötü olduğunu düşündüğünü bildiği için gelecekteki görevlerde aynı takımı önermeyecek” dedi.

Dil: Bir sonraki sınır

İlginçtir ki, botun genellikle oyunun kilit bir bileşeni olan diğer oyuncularla iletişim kurmasına gerek yoktu. “Avalon”, oyuncuların oyun sırasında bir metin modülünde sohbet etmelerini sağlar. Kleiman-Weiner, “Ancak botumuz diğer insanlardan oluşan bir ekiple iyi çalışabildi ve sadece oyuncuların davranışlarını gözlemledi.” Diyor. “Bu ilginç, çünkü bunun gibi oyunların karmaşık iletişim stratejileri gerektirdiğini düşünebilirsiniz.”

Daha sonra, araştırmacılar botun oyunlar sırasında bir oyuncunun iyi veya kötü olduğunu söylemek gibi basit metinlerle iletişim kurmasını sağlayabilir. Bu, oyuncunun zaten kararlarını almak için kullandığı bir direniş veya casus olma olasılığına metnin atanmasını içerir. Bunun ötesinde, gelecekteki bir bot daha karmaşık iletişim yetenekleri ile donatılabilir; bu, popüler bir oyun olan “Kurt Adam” gibi ağır dilli sosyal kesinti oyunlarını oynamasına izin verebilir; bu, birkaç dakika süren diğer oyuncuları tartışmak ve ikna etmek için kullanılır.

Serrino, “Dil kesinlikle bir sonraki sınırdır” diyor. “Ancak iletişimin çok önemli olduğu oyunlarda saldırılara uğramak için birçok zorluk var.”

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir