2016年3月26日土曜日

遺伝的アルゴリズムの威力!繰り返しゲームにおける最強はこいつだ!!

遺伝的アルゴリズムの威力を思い知った。


繰り返し囚人ジレンマゲームの拡張(exit option)をさらに拡張した4×4のゲームで最強の反応戦略の組み合わせをみつけようと思った。


ここで反応戦略とは、(自分、相手)=(C,C)ならば C、みたいな今期の自分と相手の戦略に対する次期での戦略のこと。
その組み合わせとは、4×4=16の反応戦略の集合のこと。


さらに最強とは、ランダムに選ばれた1000の反応戦略(オポーネント)と総当たり戦をして合計利得が最も高いことを言う。


初手をいれて4^17(=17,179,869,184=170億)通りの反応戦略の組み合わせが考えられるため、しらみつぶしに最強を探すととんでもない時間がかかる。


3日間くらいアルゴリズムを考えて、良さげなアルゴリズムで20時間ほど計算させて、最強と思われるものを見出した。


その後で、ふと遺伝的アルゴリズムを思いだし、遺伝的アルゴリズムで解いてみたら、10分くらいの計算で上記と同じ答えを得た。


自分の頭で試行錯誤するのが好きなんだけど、先人の知恵を利用する癖をそろそろ身に付けようと思った。

0 件のコメント:

コメントを投稿