経済を学び研究するブログ: 遺伝的アルゴリズムの威力！繰り返しゲームにおける最強はこいつだ！！

遺伝的アルゴリズムの威力を思い知った。

繰り返し囚人ジレンマゲームの拡張（exit option）をさらに拡張した4×4のゲームで最強の反応戦略の組み合わせをみつけようと思った。

ここで反応戦略とは、（自分、相手）＝（C,C）ならば C、みたいな今期の自分と相手の戦略に対する次期での戦略のこと。
その組み合わせとは、4×4=16の反応戦略の集合のこと。

さらに最強とは、ランダムに選ばれた1000の反応戦略（オポーネント）と総当たり戦をして合計利得が最も高いことを言う。

初手をいれて4^17（=17,179,869,184=170億）通りの反応戦略の組み合わせが考えられるため、しらみつぶしに最強を探すととんでもない時間がかかる。

3日間くらいアルゴリズムを考えて、良さげなアルゴリズムで20時間ほど計算させて、最強と思われるものを見出した。

その後で、ふと遺伝的アルゴリズムを思いだし、遺伝的アルゴリズムで解いてみたら、10分くらいの計算で上記と同じ答えを得た。

自分の頭で試行錯誤するのが好きなんだけど、先人の知恵を利用する癖をそろそろ身に付けようと思った。

経済を学び研究するブログ

2016年3月26日土曜日

遺伝的アルゴリズムの威力！繰り返しゲームにおける最強はこいつだ！！

0 件のコメント:

コメントを投稿