作者:J?rgen Veisdal 翻譯:Nuor 審校:xux
如果我們都對(duì)金發(fā)女士下手,,并且互相妨礙,,那么結(jié)果是誰(shuí)都無(wú)法得到她。接下來我們?cè)偃フ宜呐笥褌?,她們?huì)不屑一顧,,因?yàn)闆]有人愿意當(dāng)備胎。然而假如我們都不找金發(fā)女士呢,?我們不會(huì)相互影響,,也不會(huì)冒犯其他幾位女士。這就是我們成功的唯一方式,。 如果看過電影的話你會(huì)發(fā)現(xiàn),,這就是電影《美麗心靈》(2001)中的角色約翰·納什首次向他的朋友們解釋有關(guān)他天才般的有關(guān)“博弈論”(governing dynamics)的新發(fā)現(xiàn),。當(dāng)然,事實(shí)上,,這并不是真實(shí)的約翰·福布斯·納什想到的,,他也不是這樣描述“博弈論”概念的。這篇文章的目的是更加準(zhǔn)確和全面地描述納什均衡提出的過程和其價(jià)值,。 納什均衡是是非合作博弈的概念,,涉及兩個(gè)或兩個(gè)以上的博弈者,假設(shè)其中每個(gè)博弈者都知道其他博弈者的均衡策略,,單個(gè)博弈者都無(wú)法通過單方面改變自己的策略來獲取利益(Osborne et al, 1994),。 定理可以被非正式地描述為: 如果沒有一方博弈者能通過單方面改變自身策略來獲取更大收益,那么這個(gè)策略就是納什均衡,。 也就是說,,在一個(gè)二人游戲中,如果已知玩家B選擇的情況下,,玩家 A 的策略是最優(yōu)的,,同時(shí)已知玩家A策略的情況下,玩家 B 策略也是最優(yōu)的,,那么這一對(duì)策略構(gòu)成納什均衡,。沒有一個(gè)玩家可以通過單方面改變自己的策略獲得更優(yōu)的結(jié)果。關(guān)鍵的是,,玩家都不知道對(duì)方的策略,,僅根據(jù)自身的利益選擇最優(yōu)策略(也知曉其他玩家的利益)。 推廣到 n 個(gè)玩家的情況,,可定義為: 納什均衡的定義 用(S,,f)代表 u 個(gè)玩家的游戲,Si是 i 玩家的策略,,S=S1×S2×S3×…×Su 是所有策略的集合,,f(x)=(f1(x),…,fu(x)) 是 x∈S 情況下的收益函數(shù)。xi是玩家 i 的策略,,x-i是其他所有玩家(除了 i )的策略集合,。 當(dāng)每個(gè)玩家 i∈{1,…,u} 選擇策略 xi 后,策略配置為 x = (x?,...,x?),,玩家i則獲得收益 f?(x),。收益取決于所有人的策略,包括玩家 i 和其他玩家的,。 如果沒有任何一個(gè)玩家可通過單方面改變策略獲取更多收益,,則這個(gè)策略集x*∈S 就是納什均衡,即: ?i,x? ∈ S? : f?(x*?, x*??) ≥ f?(x?,x*??) 納什的論文證明(1950c)使用了布勞威爾定點(diǎn)定理,。由于戴維·蓋爾的功勞,,納什利用更簡(jiǎn)單的方式(角谷定點(diǎn)定理)給出了相同的證明,。 利用角谷定理證明納什均衡 為證明納什均衡(NE)的存在,假設(shè)r?(σ??)是玩家i在其他玩家的策略下的最優(yōu)策略,。 r?(σ??) = arg max u?(σ?, σ??) 在這里,,σ ∈ Σ 其中Σ? x Σ?? 是所有參與者的策略,u? 是玩家 i 的收益函數(shù),。定義一個(gè)值函數(shù) r: Σ → 2^Σ,,其中 r = (r?(σ??), r??(σ??))。證明納什均衡的存在等價(jià)于證明 r 有一個(gè)不動(dòng)點(diǎn),。 角谷不動(dòng)點(diǎn)定理表明,,如果滿足以下四點(diǎn),則有不動(dòng)點(diǎn)的存在: Σ 是緊湊,,凸且非空,; r(σ) 是非空的; r(σ) 是上半連續(xù)的,; r(σ) 是凸的,。
條件 1 的前提是Σ是單純形,因此其為緊湊的,?!巴埂痹从谕婕夷軌蚧旌喜呗浴M婕冶仨氝x擇策略因此Σ為非空的,。 條件 2 和 3 可通過Berge 最大值定理(Berge's maximum theorem)證明,。因?yàn)?u? 是連續(xù)且緊湊的,所以 r(σ) 是非空的且上半連續(xù)的,。 條件 4 也是由于混合策略的原因,。假設(shè) σ?, σ?' ∈ r(σ??),然后 λσ? + (1 - λ)σ?' ∈ r(σ??),。即如果兩個(gè)策略產(chǎn)生最大收益,,則兩個(gè)策略混合也會(huì)產(chǎn)生同等收益。 因此,,r 和納什均衡中存在一個(gè)不動(dòng)點(diǎn)。 正式的游戲通常包含三個(gè)元素:玩家,,策略和每個(gè)玩家的收益。收益函數(shù)代表每個(gè)玩家對(duì)于策略的偏好,,策略集是玩家在游戲中的策略列表,。可以在示意圖中解釋三種元素,,并稱其為收益矩陣,,來表明兩玩家的策略(兩個(gè)玩家各有兩種策略): 左:游戲1的收益矩陣,,為一個(gè)“協(xié)調(diào)博弈”。右:游戲2的收益矩陣,,“錢幣配對(duì)”游戲(猜拳)在每個(gè)游戲中,,兩個(gè)玩家都可以從A和B兩種策略中任選一種。 純策略的納什均衡指的是:沒有任何一個(gè)參與者可以通過單方面偏離和輪換策略來獲得更高的預(yù)期收益,。 在游戲1中,,如果他們選擇不同的策略(A,B)或(B,,A),,則兩者的收益均為0。如果他們都選擇策略A,,則兩者都會(huì)得到收益2,。如果他們都選擇策略B,則兩者都會(huì)得到收益1,。策略集(A,,A)和(B,B)因此產(chǎn)生納什均衡,,因?yàn)閱蝹€(gè)玩家策略的改變會(huì)導(dǎo)致該玩家的收益更低,。 在游戲2中,如果他們選擇不同的策略(A,,B)或(B,,A),則玩家1的回報(bào)為-1,,玩家2的回報(bào)為1,。如果他們都選擇A或B,則玩家1會(huì)得到 1的收益,,玩家2得到-1,。該游戲中沒有純粹的納什均衡策略,因?yàn)樵诿糠N策略集中,,其中一名玩家都會(huì)從策略的偏離中獲利,。 納什的結(jié)果表明,在所有有限對(duì)策中至少存在一個(gè)納什均衡點(diǎn),。由于游戲2不存在純策略的納什均衡,,所以在混合策略中必然存在納什均衡: 混合策略納什均衡是一種策略集,其特征是至少有一個(gè)參與者在玩隨機(jī)策略,,并且沒有一個(gè)參與者可以通過單方面改變和輪換策略來獲得更高的期望收益,。 在游戲2中,玩家不選擇單一的策略,而是按照一定的概率分布來選擇策略,。在均衡中,,每個(gè)參與者的概率分布選擇使得所有其他參與者對(duì)他們的純策略不感興趣。 例如,,作為玩家1,,我們可以一半時(shí)使用A,一半時(shí)間選擇B,,根據(jù)拋硬幣決定策略,。玩家2唯一的理性反應(yīng)就是做同樣的事情。比如,,在“硬幣配對(duì)”博弈中,,當(dāng)選擇A和B的策略概率相等時(shí),就是一種混合策略的納什均衡,。 納什在他的論文中提出了兩種關(guān)于均衡的想法:一種基于理性,,一種基于統(tǒng)計(jì)人群。 在理性解釋下,,玩家們被認(rèn)定為理性的,,而且知曉游戲的全部信息,包含其他玩家的選擇偏好,,而且這些消息都是眾所周知的,。由于所有的玩家都了解彼此的選擇策略和偏好,所以也能為所有的策略計(jì)算其收益,,得到最佳策略,。如果游戲只玩一次且所有的玩家都期望相同的納什均衡(高收益),那么沒有人會(huì)想要改變自己的策略,。 基于統(tǒng)計(jì)人群的假設(shè)中,,納什指出:不必假設(shè)玩家完全了解游戲的信息,或者有能力和意愿進(jìn)行復(fù)雜的推理過程,。這是由于“假設(shè)在游戲的每個(gè)位置都有一群玩家,,隨著時(shí)間變化,會(huì)有隨機(jī)玩家參與游戲,。如果有玩家用一個(gè)穩(wěn)定的平均頻率來選用純策略,,那么這個(gè)穩(wěn)定的平均頻率就是混合策略納什均衡?!保{什,,1950c)。 正如哈羅德·庫(kù)恩后來寫道: 顯然諾貝爾評(píng)獎(jiǎng)委員會(huì)認(rèn)真考慮了這兩種解釋,。古諾特可能會(huì)提出理性的解釋,但是對(duì)于生物學(xué)博弈來說很重要的統(tǒng)計(jì)解釋是完全原創(chuàng)的,。雖然這三篇論文都對(duì)非合作博弈進(jìn)行了解釋,,但只有這篇文章對(duì)這兩種解釋進(jìn)行了闡述,。當(dāng)在諾貝爾研討會(huì)上被問及為什么這些解釋沒有被收錄到年報(bào)中,納什回應(yīng)道:“我不知道是不是為了《數(shù)學(xué)年鑒》而特意剪掉的,?!?/span> ——摘自庫(kù)恩等人的《約翰·納什傳》(The Essential John Nash,2002) 不同于電影中的描述,,傳記作者西爾維亞·納薩爾寫道:納什在普林斯頓大學(xué)讀研究生時(shí)想到了這個(gè)想法,,并研究了游戲策略和經(jīng)濟(jì)學(xué)談判的數(shù)學(xué)模型。正如納薩爾所寫: “經(jīng)過與馮·諾伊曼會(huì)晤之后,,納什在與大衛(wèi)·蓋爾的談話中說道:‘我想我已經(jīng)找到了可以概括馮·諾伊曼的最小-最大定理的一種方法,,基本思想是在兩人的零和博弈中,最好的策略是…整個(gè)理論都基于此,。它適用于任何數(shù)量的人,,并不局限于零和博弈’?!?/span> ——引自西爾維亞·納薩爾的《美麗的心靈》(A Beautiful Mind)(1998年) 納什和大衛(wèi)·蓋爾的對(duì)話在1995年由蓋爾轉(zhuǎn)述給納薩爾,。納什當(dāng)時(shí)在研究所謂的“談判問題”(bargaining problem),其中兩個(gè)人都有機(jī)會(huì)互惠互利,,但是任何單方面(未經(jīng)同意)采取的行為都不會(huì)影響另一方的利益,。想想經(jīng)典的“切蛋糕和選擇協(xié)議”,一方切蛋糕,,另一方優(yōu)先選擇自己想要的部分,,這種模式提供了所謂的無(wú)嫉妒的切蛋糕模式。 就像納薩爾所寫的那樣,,相比于納什新結(jié)論的應(yīng)用價(jià)值,,蓋爾對(duì)更對(duì)其數(shù)學(xué)價(jià)值著迷,他在1995年寫道:“數(shù)學(xué)是如此之美,?!边@在數(shù)學(xué)上是正確的。 “蓋爾意識(shí)到,,相對(duì)于馮·諾依曼的零和博弈,,納什的想法更適用于更廣泛的現(xiàn)實(shí)世界?!彼幸粋€(gè)可以推廣到談判的概念,。 ——摘錄,西爾維亞·納薩爾的《美麗的心靈》(A Beautiful Mind,,1998) 蓋爾還起草給美國(guó)國(guó)家科學(xué)院,,幫助納什獲得其結(jié)果的榮譽(yù)。所羅門·萊夫謝茨代表他們提交了這份報(bào)告。1950年1月,,《美國(guó)國(guó)家科學(xué)院院刊》的第36卷刊登了這份不到一頁(yè)的內(nèi)容,,題為《N人博弈中的均衡點(diǎn)》(Equilibrium points in N-person games)。 納什(1950b),。N人博弈中的均衡點(diǎn),。美國(guó)國(guó)家科學(xué)院院刊36(1)。 納什的論文最終催生了三篇期刊論文和一項(xiàng)諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)(1994年)。 這三篇文章包含了納什均衡存在的三種不同證明,。第一個(gè)題為“N人博弈中的均衡點(diǎn)”(1950b)的是納什和蓋爾為美國(guó)國(guó)家科學(xué)院院刊編寫的筆記,。第二篇叫做《非合作博弈》(1951年),發(fā)表在《數(shù)學(xué)年鑒》 54卷第2期上,。在《計(jì)量經(jīng)濟(jì)學(xué)》第21期上發(fā)表的《兩人合作游戲》(1953年)中,,納什將其關(guān)于談判問題的工作(Nash, 1950a)擴(kuò)展到了“威脅”可以發(fā)揮作用的更廣泛的情況中(Kuhn et al, 2002)。 就在1994年諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)于10月11日公布的幾周前,,兩位數(shù)學(xué)家——哈羅德·W·庫(kù)恩和小約翰·福布斯·納什——在梅多湖附近的療養(yǎng)院看望了他們的老師——將近90歲,臥病不起的阿爾伯特·W·塔克,。納什先生已經(jīng)好幾年沒有和他的導(dǎo)師說過話了,。從庫(kù)恩離席的一個(gè)小時(shí)中,他們就數(shù)論展開了討論,。 當(dāng)納什先生走出房間后,庫(kù)恩先生回來告訴塔克先生一個(gè)驚人的秘密:納什先生不知道,,瑞典皇家科學(xué)院打算對(duì)納什在1949年于塔克先生門下做出的對(duì)經(jīng)濟(jì)學(xué)巨大的革命性貢獻(xiàn),,授予他諾貝爾獎(jiǎng),。這個(gè)獎(jiǎng)是個(gè)奇跡,。 ——納薩爾 1994 1994年10月11日,諾貝爾頒獎(jiǎng)委員會(huì)宣布,,將把1994年諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)授予約翰·福布斯·納什博士,,以表彰他在非合作博弈理論中對(duì)均衡的開創(chuàng)性分析: 約翰·福布斯·納什介紹了合作博弈(可以達(dá)成有約束力的協(xié)議)和非合作博弈(不可能達(dá)成有約束力的協(xié)議)之間的區(qū)別。納什提出了非合作博弈的均衡概念,,后來被稱為納什均衡,。 哈羅德·庫(kù)恩(左)和納什(右)
|