🎰 K-armed Bandit

各アームに隠された当たり確率。探索 (explore) と活用 (exploit) のバランスをどう取るか — Thompson Sampling / UCB1 / ε-greedy を比べる古典問題。

(まだ引いてない)

進捗

残り pulls
50 / 50
累計報酬
0
最適報酬 (理論)
0.0
累積 regret
0.00
K-armed Bandit: 各アームには隠された当たり確率 p_i。 あなたが毎回どのアームを引くか選ぶ。
探索 (explore) = 情報集め (どれが良いか確かめる)、活用 (exploit) = 今のところベストっぽいのを引く。 このバランスをどう取るかがポイント。シミュレーションタブで ε-greedy / UCB1 / Thompson Sampling の比較が見られます。