<dfn id="siuuq"><code id="siuuq"></code></dfn>
<menu id="siuuq"><kbd id="siuuq"></kbd></menu>
  • <menu id="siuuq"><acronym id="siuuq"></acronym></menu>
  • <menu id="siuuq"></menu>
  • <tbody id="siuuq"><nav id="siuuq"></nav></tbody>
    <li id="siuuq"></li>
    <tr id="siuuq"></tr>
    <dd id="siuuq"></dd>
  • <menu id="siuuq"></menu>
    <dfn id="siuuq"><source id="siuuq"></source></dfn><dfn id="siuuq"><dl id="siuuq"></dl></dfn>
    回復

    囚徒困境VS自然選擇

    樓主: 30886 | 查看: 2062 | 回復: 3

    發(fā)表于 2013-8-24 09:34:51
    囚徒困境的故事太出名了,應該不用詳細介紹吧……學院剛好有一道這樣的題: http://www.zpxdqs.cn/thread-34913-1-1.html
    可能唯一值得說的是,如果令兩個囚徒都合作的收益為R (reward),都背叛的收益為P (punishment),一方合作一方背叛則合作方得到 S (sucker)、背叛方得到T (temptation),那么一個經(jīng)典囚徒困境必須是T > R > P > S. 不滿足這個的就不是囚徒困境。

    重復囚徒困境的故事這些年也慢慢出名了……如果是單次博弈,那么顯然背叛永遠優(yōu)于合作。但是如果這個博弈要重復多次,那么合作就有了出頭的機會。

    Axelrod 做了一個名垂青史的實驗:向全世界同行征集重復囚徒困境的策略,然后在計算機里讓它們相互搏斗。第一次他征集到14個參賽者,最后獲勝的出乎所有人意料是最簡單的策略——Rapoport 提交的【“一報還一報” (TFT, tit for tat)】。它只有兩條規(guī)則:開場先合作,然后重復對方上一次的策略。它單獨出現(xiàn)時沒用,但一群TFT相遇時,它們相互之間會合作獲益、而對外則背叛不讓別人占便宜。

    做出來之后 Axelrod 把結果寫成了一篇文章,附上了詳細的分析,并邀請人們在研究過第一輪的經(jīng)驗教訓后參加第二輪。第二輪他獲得了63個參賽者,只有一個人原樣提交了TFT策略——就是Rapoport本人。結果TFT又取得了勝利。

    網(wǎng)上很多文章就講到這里為止了,但是故事其實沒有完。Axelrod 的實驗里每個策略都是定死的,而對方的行為也是明確無誤的,但自然界有突變、有噪音。如果把這些因素引入進來會如何?
    所以 Nowak 做了一套新的實驗,不是邀請全世界專家提交策略了,而是設一個大小合理的策略空間,允許每個個體在里面隨機突變來選擇策略。此外每次行為有一定概率產生噪音,比如對方明明應該出合作,但實際打出來變成了背叛。

    起始值的策略是隨機的。不出意外,這個一鍋粥很快被【ALLD (永遠背叛)】占據(jù)了。
    但一段時間后會出現(xiàn)一小群抱團的個體,它們采用十分類似于TFT的策略,站住了腳跟。TFT永遠是合作出現(xiàn)最好的催化劑,如果這個TFT群體足夠大,那么合作會很快橫掃整個群體。

    可是TFT不是最后的勝利者,因為它無法應付噪音——兩個本來合作得很好的TFT如果不小心遭遇一次誤判,就會陷入一連串的背叛當中而失去優(yōu)勢。事實證明在TFT占主體的基礎上,會產生一種新策略將TFT取代——也即【 GTFT(慷慨的一報還一報)】。它的特點是,即使對方出了背叛,下一輪也有一定的概率選擇合作,這樣就可以挽救陷入無窮背叛的可能。此所謂“自然選擇發(fā)現(xiàn)了寬恕”。

    還沒完。在GTFT 一統(tǒng)天下之后,【ALLC (永遠合作)】就會出現(xiàn)。在一個所有人都是好人的社會里,反擊壞人的能力會變得失去意義。隨機漂變的作用使得ALLC比例上升。而且ALLC比GTFT更能應對噪音——GTFT還要等幾回合才會寬容,ALLC當即就能拉回合作的“正軌”。

    前提是正軌必須存在。當GTFT讓位于ALLC之后,就為永遠背叛的 ALLD 入侵敞開了大門。ALLD 一旦出現(xiàn)就會掌握巨大的優(yōu)勢,憑借它的背叛將所有ALLC打趴下,迅速占據(jù)了主導地位。于是新一輪的循環(huán)開始。

    這個ALLD - TFT - GTFT - ALLC - ALLD 的循環(huán)是極其普遍的,而且它的普遍不止存在于博弈論模型里——好人合作打敗了壞人,多年以后好人放松了警惕、壞人于是東山再起,這個敘事模型在各種故事傳說里都太普遍了(《魔戒》就是個好例子)。至于這能否作為現(xiàn)實人類歷史上戰(zhàn)爭和平循環(huán)的抽象表述,那就見仁見智了。
    但是有一種辦法可以打破這個循環(huán),那就是引入“反思”機制。在擴大了策略空間之后, Nowak 等人意外發(fā)現(xiàn)了一個新的策略可以長期穩(wěn)定存在——【“輸則改之,贏則加勉” ( WSLS, win-stay, lose-shift )】。這個策略也很簡單,如果我上一輪賺了便宜、獲得了T或者R的結果(不記得這兩個字母請回開頭復習) ,那么這一輪我繼續(xù)剛才的策略。如果我上一輪吃了虧、獲得了S或者P,那么這一輪我就換成另一種策略。

    如果兩個 WSLS 相遇,它們大部分時間都合作。萬一遭遇了噪音,那么下一輪雙方都背叛;再下一輪雙方又合作了。糾錯延遲只有1回合。這一點比GTFT更強,只比ALLC 弱一點點。

    但是WSLS有個王牌,使得它不怕ALLC。那就是在和ALLC交手一段時間后,它會發(fā)現(xiàn)ALLC完全不懂得背叛。WSLS只要發(fā)生一次偶然背叛,之后就是永久背叛,使得老好人 ALLC 遭受慘無人道的剝削。 這樣一個WSLS不會隨著時間推移而“放松警惕”變成ALLC,當然也就不會遭受ALLD的后續(xù)必然入侵。

    唯一略微糾結的是面對ALLD。如果R > (T+P) / 2 ,那么WSLS不怕ALLD。如果不滿足,那么實驗表明最后穩(wěn)定的是WSLS的一個變體——遭遇雙方背叛 P 的時候不必然改變策略,而只是以一定概率改變策略。無論如何,這個反思策略一旦出現(xiàn),就很難會落入前面提到的那個惡性循環(huán)了。
    雖然以上只是一個極其粗糙的模型,但說實話,面對現(xiàn)實社會中的現(xiàn)象,真的很難不聯(lián)想啊。

    0

    7

    分享

    | 發(fā)表于 2013-8-24 09:45:31
    現(xiàn)在沒時間看。。。先收藏了。。。
    | 發(fā)表于 2013-8-24 10:21:31
    好餓~先吃飯去了~收藏了~
    | 發(fā)表于 2013-8-24 10:37:42
    有些英文看不懂啊,
    所以我沒看完。
    只看了點點。。
    尚未登錄
    您需要登錄后才可以回帖 登錄 | 加入學院
    <dfn id="siuuq"><code id="siuuq"></code></dfn>
    <menu id="siuuq"><kbd id="siuuq"></kbd></menu>
  • <menu id="siuuq"><acronym id="siuuq"></acronym></menu>
  • <menu id="siuuq"></menu>
  • <tbody id="siuuq"><nav id="siuuq"></nav></tbody>
    <li id="siuuq"></li>
    <tr id="siuuq"></tr>
    <dd id="siuuq"></dd>
  • <menu id="siuuq"></menu>
    <dfn id="siuuq"><source id="siuuq"></source></dfn><dfn id="siuuq"><dl id="siuuq"></dl></dfn>
    99热网站 | 国产大屌 | 成 人 黄 色 免费 观 看下载 | 啪啪视频免费网站 | 我要看操逼片 |