Table Of Content All In! 我學會了用強化學習打PP88德州撲克6結論1. 行使PP88德州撲克應用程式All In! 我學會了用強化學習打德州撲克6無折現型:大多數 RL 問題從始至終蘊含不少(可以或許無限多)狀態。當然,在這種情況下,agent 希望最大化所有未來獎勵的總和,而不是最大化即刻獎勵。在這種情況下,假設相對於將來的某個時間獲失獎勵,agent 對於當下獲失獎勵的偏賴較小。PP88德撲遊戲的一局腳牌時間總是很短,所以我們不需要擔心。 線性函數切近親近器:本例中學習的是一個線性函數,它將(狀態-動作)對的表徵映射到數值。別的替代要發包括簡單的表(它將每個狀態的每個動作的估計數值單獨存儲),和許多別的類型的函數切近親近器。特別地,這種要發在神經網絡中異常成功。在某種程度上,這是因為它們不需要不少特徵工程來獲失賴的結果。神經網絡每每可以學習一組賴的特徵,和學習到如何行使它們!但本文暫不探討這個話題。 參考文獻 • Sutton 和 Barto 的教科書( • David Silver 講座( 原文地址: 因此,