囚徒困境VS自然選擇

30886 · 發(fā)表于 2013-8-24 09:34:51

囚徒困境的故事太出名了，應該不用詳細介紹吧……學院剛好有一道這樣的題： http://www.zpxdqs.cn/thread-34913-1-1.html
可能唯一值得說的是，如果令兩個囚徒都合作的收益為R (reward)，都背叛的收益為P (punishment)，一方合作一方背叛則合作方得到 S (sucker)、背叛方得到T (temptation)，那么一個經(jīng)典囚徒困境必須是T > R > P > S. 不滿足這個的就不是囚徒困境。

重復囚徒困境的故事這些年也慢慢出名了……如果是單次博弈，那么顯然背叛永遠優(yōu)于合作。但是如果這個博弈要重復多次，那么合作就有了出頭的機會。

Axelrod 做了一個名垂青史的實驗：向全世界同行征集重復囚徒困境的策略，然后在計算機里讓它們相互搏斗。第一次他征集到14個參賽者，最后獲勝的出乎所有人意料是最簡單的策略——Rapoport 提交的【“一報還一報” （TFT, tit for tat）】。它只有兩條規(guī)則：開場先合作，然后重復對方上一次的策略。它單獨出現(xiàn)時沒用，但一群TFT相遇時，它們相互之間會合作獲益、而對外則背叛不讓別人占便宜。

做出來之后 Axelrod 把結果寫成了一篇文章，附上了詳細的分析，并邀請人們在研究過第一輪的經(jīng)驗教訓后參加第二輪。第二輪他獲得了63個參賽者，只有一個人原樣提交了TFT策略——就是Rapoport本人。結果TFT又取得了勝利。

網(wǎng)上很多文章就講到這里為止了，但是故事其實沒有完。Axelrod 的實驗里每個策略都是定死的，而對方的行為也是明確無誤的，但自然界有突變、有噪音。如果把這些因素引入進來會如何？
所以 Nowak 做了一套新的實驗，不是邀請全世界專家提交策略了，而是設一個大小合理的策略空間，允許每個個體在里面隨機突變來選擇策略。此外每次行為有一定概率產生噪音，比如對方明明應該出合作，但實際打出來變成了背叛。

起始值的策略是隨機的。不出意外，這個一鍋粥很快被【ALLD （永遠背叛）】占據(jù)了。
但一段時間后會出現(xiàn)一小群抱團的個體，它們采用十分類似于TFT的策略，站住了腳跟。TFT永遠是合作出現(xiàn)最好的催化劑，如果這個TFT群體足夠大，那么合作會很快橫掃整個群體。

可是TFT不是最后的勝利者，因為它無法應付噪音——兩個本來合作得很好的TFT如果不小心遭遇一次誤判，就會陷入一連串的背叛當中而失去優(yōu)勢。事實證明在TFT占主體的基礎上，會產生一種新策略將TFT取代——也即【 GTFT（慷慨的一報還一報）】。它的特點是，即使對方出了背叛，下一輪也有一定的概率選擇合作，這樣就可以挽救陷入無窮背叛的可能。此所謂“自然選擇發(fā)現(xiàn)了寬恕”。

還沒完。在GTFT 一統(tǒng)天下之后，【ALLC （永遠合作）】就會出現(xiàn)。在一個所有人都是好人的社會里，反擊壞人的能力會變得失去意義。隨機漂變的作用使得ALLC比例上升。而且ALLC比GTFT更能應對噪音——GTFT還要等幾回合才會寬容，ALLC當即就能拉回合作的“正軌”。

前提是正軌必須存在。當GTFT讓位于ALLC之后，就為永遠背叛的 ALLD 入侵敞開了大門。ALLD 一旦出現(xiàn)就會掌握巨大的優(yōu)勢，憑借它的背叛將所有ALLC打趴下，迅速占據(jù)了主導地位。于是新一輪的循環(huán)開始。

這個ALLD - TFT - GTFT - ALLC - ALLD 的循環(huán)是極其普遍的，而且它的普遍不止存在于博弈論模型里——好人合作打敗了壞人，多年以后好人放松了警惕、壞人于是東山再起，這個敘事模型在各種故事傳說里都太普遍了（《魔戒》就是個好例子）。至于這能否作為現(xiàn)實人類歷史上戰(zhàn)爭和平循環(huán)的抽象表述，那就見仁見智了。
但是有一種辦法可以打破這個循環(huán)，那就是引入“反思”機制。在擴大了策略空間之后， Nowak 等人意外發(fā)現(xiàn)了一個新的策略可以長期穩(wěn)定存在——【“輸則改之，贏則加勉” ( WSLS, win-stay, lose-shift )】。這個策略也很簡單，如果我上一輪賺了便宜、獲得了T或者R的結果（不記得這兩個字母請回開頭復習），那么這一輪我繼續(xù)剛才的策略。如果我上一輪吃了虧、獲得了S或者P，那么這一輪我就換成另一種策略。

如果兩個 WSLS 相遇，它們大部分時間都合作。萬一遭遇了噪音，那么下一輪雙方都背叛；再下一輪雙方又合作了。糾錯延遲只有1回合。這一點比GTFT更強，只比ALLC 弱一點點。

但是WSLS有個王牌，使得它不怕ALLC。那就是在和ALLC交手一段時間后，它會發(fā)現(xiàn)ALLC完全不懂得背叛。WSLS只要發(fā)生一次偶然背叛，之后就是永久背叛，使得老好人 ALLC 遭受慘無人道的剝削。這樣一個WSLS不會隨著時間推移而“放松警惕”變成ALLC，當然也就不會遭受ALLD的后續(xù)必然入侵。

唯一略微糾結的是面對ALLD。如果R > (T+P) / 2 ，那么WSLS不怕ALLD。如果不滿足，那么實驗表明最后穩(wěn)定的是WSLS的一個變體——遭遇雙方背叛 P 的時候不必然改變策略，而只是以一定概率改變策略。無論如何，這個反思策略一旦出現(xiàn)，就很難會落入前面提到的那個惡性循環(huán)了。
雖然以上只是一個極其粗糙的模型，但說實話，面對現(xiàn)實社會中的現(xiàn)象，真的很難不聯(lián)想啊。

29947 · 發(fā)表于 2013-8-24 09:45:31

現(xiàn)在沒時間看。。。先收藏了。。。

19331 · 發(fā)表于 2013-8-24 10:21:31

好餓～先吃飯去了～收藏了～

30300 · 發(fā)表于 2013-8-24 10:37:42

有些英文看不懂啊，
所以我沒看完。
只看了點點。。

囚徒困境VS自然選擇
樓主: 30886 | 查看: 2062 | 回復: 3

[知識科普] 囚徒困境VS自然選擇

囚徒困境VS自然選擇 樓主: 30886 | 查看: 2062 | 回復: 3

[知識科普] 囚徒困境VS自然選擇

囚徒困境VS自然選擇
樓主: 30886 | 查看: 2062 | 回復: 3