方策勾配法 (Policy Gradient) は、ニューラルネットワークが「どの方向に動くべきか」の確率を直接学習する手法です。
学習率:パラメータの更新幅。大きすぎると発散し、小さすぎると学習が遅くなります。
割引率 γ:γ=0.98なら100ステップ後の報酬は0.98^100 ≈ 0.13倍に。未来の報酬をどれだけ重視するかを制御します。
探索率 ε:ε-greedy法。一定確率でランダムに動くことで、未知の良い経路を発見します。低すぎると局所解にハマります。
バッチサイズ:複数エピソードの経験をまとめてパラメータを更新します。大きいほど安定しますが学習が遅くなります。
隠れ層サイズ:ニューラルネットの中間層のニューロン数。大きいほど複雑なパターンを学習できますが、過学習のリスクも増えます。
ヒートマップ:各マスでネットワークが出力する行動確率の最大値を色で表示。明るいほど「自信がある」マスです。
方策表示:各マスで最も確率が高い行動方向を矢印で表示。ネズミが学習した「地図」が見えます。