🐭 ネズミ vs チーズ 🧀
📖 原理解説
エピソード
0
報酬
0.0
チーズ獲得
0
ステップ
0
🏆 プリセット
FAST
ターボ学習
高学習率+小バッチで爆速収束。不安定だが最速
STABLE
🏔
安定重視
低学習率+大バッチで安定学習。じっくり確実に
BEST
🧠
大脳モデル
隠れ層400+高γで複雑な経路を学習。最高スコア狙い
EXPLORE
🗺
冒険家
高探索率で未知の経路を開拓。序盤のスコアは低い
TINY
🐜
最小構成
隠れ層50の軽量ネット。限られた容量でどこまで学べるか
PRO
🎯
師範モード
チューニング済みの最適バランス。最も安定して高スコア
⚙ ハイパーパラメータ
学習率 Learning Rate 0.0025
大きいほど学習が速いが不安定になる
割引率 Gamma (γ) 0.980
未来の報酬をどれだけ重視するか(1に近い=長期的)
探索率 Epsilon (ε) 0.030
ランダムに行動する確率(探索と活用のバランス)
バッチサイズ Batch Size 4
何エピソード分の経験をまとめて学習するか
隠れ層サイズ Hidden Size 200
ニューラルネットの容量(リセット時に反映)
実行速度 Speed 10
1フレームあたりのステップ数
📊 行動確率分布
↓ 下
25%
↑ 上
25%
→ 右
25%
← 左
25%
📈 報酬推移
📖 学習のしくみ

方策勾配法 (Policy Gradient) は、ニューラルネットワークが「どの方向に動くべきか」の確率を直接学習する手法です。


学習率:パラメータの更新幅。大きすぎると発散し、小さすぎると学習が遅くなります。


割引率 γγ=0.98なら100ステップ後の報酬は0.98^100 ≈ 0.13倍に。未来の報酬をどれだけ重視するかを制御します。


探索率 ε:ε-greedy法。一定確率でランダムに動くことで、未知の良い経路を発見します。低すぎると局所解にハマります。


バッチサイズ:複数エピソードの経験をまとめてパラメータを更新します。大きいほど安定しますが学習が遅くなります。


隠れ層サイズ:ニューラルネットの中間層のニューロン数。大きいほど複雑なパターンを学習できますが、過学習のリスクも増えます。


ヒートマップ:各マスでネットワークが出力する行動確率の最大値を色で表示。明るいほど「自信がある」マスです。


方策表示:各マスで最も確率が高い行動方向を矢印で表示。ネズミが学習した「地図」が見えます。