victor1979十一度來稿：囚犯的兩難書摘與評論(作者要求鎖好友)－總幹事耕讀筆記- 日本ありがとうございました

囚犯的兩難—賽局理論與數學天才馮紐曼的故事

Prisoner’s Dilemma: John von Neumann, Game Theory, and the Puzzle of the Bomb

作者：龐士東
原文作者：William Poundstone
譯者：葉家興
出版社：左岸文化
出版日期：2007年03月29日

=================================================================
=================================================================

        約翰馮紐曼(John von Neumann),數學與物理領域的天才科學家。而電腦和原子彈都是馮紐曼的業餘項目，反映他對數學應用的興趣。

        這本書，談馮紐曼也談賽局理論，算是傳記與科普書合壁，但淺顯易懂，充滿知性與娛樂的價值。

        馮紐曼從數學證明了在雙人賽局中，只要彼此的利益完全對立，就永遠存在一個理性的行動方針。這一證明被稱為[大中取小定理](minimax theorem)。

        馮紐曼在中學就被發掘數學天才。1963年的諾貝爾物理獎得主，與馮紐曼就讀同一所中學，但高一屆的威格納。在成年後說過，他發覺與馮紐曼相比，自己只能成為二流的數學家，因此轉到物理學領域。馮紐曼在1921年上大學，1926年取得數學博士學位。在這段時間內他也取得布達佩斯大學的數學學位，柏林大學的化學學位與瑞士聯邦理工學院的化學工程學位。1933年，普林斯頓高等研究所成立的時候，馮紐曼被聘為教授，也是該出色團體中的最年輕學者。

        馮紐曼於1928年的論文證明了著名的"大中取小定理"，使得該篇論文-客廳遊戲的理論(Zur Theorie der Gesellschaftspiele)成為賽局理論的開山之作。
零和賽局是指加總報酬為固定的賽局。大中取小定理告訴我們，當兩個利益完全相反的人有定義精確的衝突，其中總存在一種理性的解。所謂理性的解，就是在既定的衝突本質下，雙方都確信他們不可能有更好的結果了。

        賽局的理論的解是保守的。當理性的一方面對的另一方也很理性，賽局理論提供的解是他所能期望的最佳結果。一般來說，理性的參賽者在面對非理性的對手時可以得到更佳結果。

        納許(Nash)則是在1940年代末開始擴展賽局理論,並且成功證明非零合的二人賽局也存在均衡解。他提出了一個論點：對於任何一個結果，如果參賽者被允許重來後願意改變策略，那麼此結果就是不穩定的，因此也不是理性的。我認為與其說納許證明了非零合的兩人
賽局存在均衡點，不如說他證明了非零合兩人賽局存在穩定點。
而納許的研究展轉衍伸出了一個極為知名的命題--囚犯的困境，或說囚犯的兩難。

        蘭德機構(美國官方所支持的智庫)的兩位研究人員設計了一個簡單的賽局，並請兩位朋友在不知道對方作何選擇的情況下選擇自己的策略。依納許的理論，兩人應該都會選擇背叛，但一百次的實驗中，相互合作卻是發生比例最高的結果。這個實驗被認為是對人類非理性的探討。也被認為是對納許理論的一種挑戰，但納許認為該實驗的參與者有過多的接觸，無法適切體現非零合賽局所描述的情形。

        1950年，史丹佛大學心理學系請數學家塔克(納許在普林斯頓的老師)做一次賽局理論的演講。他將這個實驗設計成一個故事，產生了廣為人知的兩難故事，囚犯的兩難。
簡述如下：

        以上為A，B兩個囚犯所面對的刑期對應表。兩個囚犯都被允許有一段時間思考，但在做出無可改變的決定之前，絕不可能知道對方的決定。

        在這樣的情況下，兩位理性的囚犯，將會選擇與警方合作，而害了他們自己。

        囚犯困境最令人感到興趣的部份在於透過合作可以獲得最大的共同利益，但兩個"有邏輯"的參與者卻會選擇背叛策略，反而害了他們自己。

        1980年代，生物學和社會學成了賽局理論最活躍的應用領域。

        演化穩定策略可能不只一種。一回合的囚犯困境中只有合作與背叛兩種策略；但在多回合的囚犯困境賽局中，可以有任一種策略，也可以根據對手過去的的行動來決定每一步該怎麼做。
自然界絕大多數的兩難賽局正是反覆進行的。同處一個生存環境的生物每天都必須面對背叛與合作的選擇。

        演化的結果不一定是"合理的"，"公平的"或"道德正確的"。它們只是穩定的，如此而已。

        1980年艾瑟羅德在電腦上進行多回合的囚犯困境賽局，讓多種策略相互競爭。每種策略得和其他所有策略較量，也要和自己較量。第一次比賽表現最好的是"一報還一報"(TIT FOR TAT)。該策略只有四行程式碼:第一輪合作，以後各輪都採取上一輪對方的策略。第二次比賽前公佈了第一次的結果，最後收集到了六十二個策略。大部分策略試圖打敗一報還一報，但它依然是贏家。顯然一報還一報很可能是最佳策略或接近最佳策略。
第三次比賽則是模擬天擇的環境。進行一系列競賽(重複進行多回合囚犯困境)，並且在每一次競賽之後依得分數決定複製的數目。而在模擬實驗中，"一報還一報"最終成為最普遍的策略。

        在實際運行的世界裡，類似一報還一報的策略也許是解決方案，但也可能是製造問題的根源。在很多實際衝突中，雙方都宣稱是對方挑起衝突，自己不過是一報還一報而已。衝突就這樣不斷升級。

        十九世紀末，英法兩國增加軍艦以保衛自己。之後德國發現自己落後而開始增加軍艦數目。英國警覺到德國的威脅，啟動一個計畫，生產更強大的軍艦，無畏艦。德國人很快的也開始建造自己的無畏艦。當雙方都有了無畏艦，便開始生產最多無畏艦的競賽。從許多角度來看，核子武器正是這個故事的下一章。原子彈花費大量金錢，但從長遠來看，卻沒有使任何人更安全。

        可以類比軍備競賽困境的，是另一個名為"美元拍賣"的賽局。

        1971年舒比克在論文中把美元拍賣描寫成"一個極為簡單，非常有娛樂和啟發性的客廳遊戲"。一張一美元紙幣要當眾拍賣，規則有兩條：
1.鈔票歸最高報價者得。新的報價必須高於上一次報價，在規定時限內沒有新的報價則拍賣結束。
2.報出第二高價者也要付出他最後一次報價的款項，但什麼也得不到。當然沒有人想成為第二高的出價者。

        由一美分開始喊價，所有人都希望以一美分得到一美元的鈔票。拍賣者接受了這個報價，而第二次報價兩美分被喊出後，第一次報價的人處於不利的地位，因為身為次高報價者。如果拍賣立刻結束，將要白白付出一美分。所以特別有理由喊出新的報價，三美分。一個惡性循環便啟動了。
舒比克寫到:"這個賽局的試驗證明，可以用遠遠多於一美元的價格賣出一張一美元的紙鈔，支付總額在三至五美元之間是常有的事。"

        事實上，"美元拍賣"讓參與者陷入困境的例子在現實生活上是很常見的。修理一部老汽車，留在一個很糟的工作，維持一段很糟的婚姻，都是美元拍賣。歷史上的某些事件，例如美國涉入越戰，蘇涉入阿富汗，也是美元拍賣。而近幾年陷入過度競爭的產業--DRAM以及LCD，也是在各方參與者大量投入資金之後彼此陷入無法縮手的困境。　

        有時候美元拍賣是一種更好的模型，來描述逐步升級而走向相互毀滅的軍備競賽。"勝者"是造出最強和最多核子武器的國家，安全程度提高了；然而"敗者"不但沒有提高安全程度，已經"浪費掉的國防經費"也得不到補償。結果次強的超級大國情願花更多的錢以"縮小差距"。美元拍賣也突顯出"一報還一報"策略的弱點。每個參與者都以背叛(提高報價)去回應別人的背叛，而停止背叛(放棄出價)等於允許自己被掠奪。

        也許你會認為問題出在第一個背叛者(出價的人)。可是，我們如何批判想要獲得利益的人？如果沒有人出價，99美分的獲利就會白白浪費掉阿。

        美蘇核武軍備競賽就是這樣開始的。當初美國製造原子彈是為了打敗希特勒，一個正在試製原子彈，而且擁有科技優勢的敵人。原子科學家相信他們是在和德國人競賽，其結果可能決定戰爭的勝負，即使是在最後幾個星期。但是，原子彈被造出來，就無法收回了。美國的原子彈迫使蘇聯和其他國家也開始製造自己的原子彈，反過來使美國去製造氫彈，然後蘇聯也造氫彈，然後雙方大量製造更多核武器。

        如果把美元拍賣賽局設定為競拍者都清楚雙方擁有多少資金，則"理性解"是存在的。勝負的關鍵在於雙方願意或有能力投入的資源有多少。而在現實世界中得推測對方的資源，很顯然不確定性永遠存在。更大的不幸在於，我們常常沒有發覺自己在進行美元拍賣賽局，直到已經報過幾次價以後才發現，但是為時已晚。

        在一回合的兩難賽局中，理性的參與者將會背叛，嘗試以其他形式的理性去取代都會失敗。這種賽局所要反映的就是個人利益可以毀滅共同利益。

        對於囚犯困境的策略，最好的解決方法就是避免陷入囚犯困境。