博弈論基礎(chǔ)

智者的聲音 2011-09-07

展開全文

博弈論基礎(chǔ)

第一節(jié) 博弈問題概述

一、博弈的基本概念

博弈論(gametheory)是研究決策主體的行為發(fā)生直接相互作用時(shí)候的決策以及這種決策的均衡問題的,。換句話說,，博弈論研究當(dāng)某一經(jīng)濟(jì)主體的決策既受到其它經(jīng)濟(jì)主體決策的影響，而且該經(jīng)濟(jì)主體的相應(yīng)決策又反過來影響到其它經(jīng)濟(jì)主體時(shí)的決策問題和均衡問題,。

在前面幾章中,，除了寡頭市場外，無論是消費(fèi)者的個(gè)人效用函數(shù),，還是廠商的利潤函數(shù),，都只依賴于他自己的選擇，而與其他人的選擇無關(guān),。在這里,，經(jīng)濟(jì)作為一個(gè)整體，各個(gè)經(jīng)濟(jì)主體的選擇是相互影響的,。但對于單個(gè)的消費(fèi)者或廠商來說,，所有其它經(jīng)濟(jì)主體的行為都被包括在一個(gè)參數(shù)里。這個(gè)參數(shù)就是價(jià)格,。除此以外,，經(jīng)濟(jì)主體在決策時(shí)，面臨的似乎是一個(gè)非人格化的東西,。經(jīng)濟(jì)主體既不需要考慮他人的選擇對自己選擇的影響,，也何必需要考慮自己的選擇對他人的影響。而在本章所介紹的博弈論中,，消費(fèi)者的個(gè)人效用函數(shù)或廠商的利潤函數(shù)不僅依賴于自己的選擇,，而且依賴于具體的某一個(gè)或某一些其它經(jīng)濟(jì)主體的選擇。某一消費(fèi)者或廠商的最優(yōu)選擇是其它某一些經(jīng)濟(jì)主體選擇的函數(shù),。

博弈論的基本概念包括：參與人,、行為、信息,、戰(zhàn)略,、支付函數(shù)、結(jié)果,、均衡,。

參與人是指博弈中選擇行動以最大化自身利益（效用、利潤等）的決策主體（如個(gè)人,、廠商,、國家）,。

行動是指參與人的決策變量。

戰(zhàn)略是指參與人選擇行動的規(guī)則,，它告訴參與人在什么時(shí)候選擇什么行動,。

例如，“人不犯我,、我不犯人,；人若犯我、我必犯人”是一種戰(zhàn)略,。這里,，“犯”與“不犯”是兩種不同的行動。戰(zhàn)略規(guī)定了什么時(shí)候選擇“犯”,，什么時(shí)候選擇“不犯”,。

信息是指參與人在博弈中的知識,，特別是有關(guān)其他參與人（對手）的特征和行動的知識,。

支付函數(shù)是參與人從博弈中獲得的效用水平,，它是所有參與人戰(zhàn)略或行動的函數(shù),，是每個(gè)參與人真正關(guān)心的東西。結(jié)果是指博弈者感興趣的要素的集合。

均衡是所有參與人的最優(yōu)戰(zhàn)略或行動的組合,。

上述概念中，參與人、行動,、結(jié)果統(tǒng)稱為博弈規(guī)則,。博弈分析的目的是使用博弈規(guī)則決定均衡,。

二、博弈的分類

可以從不同的角度對博弈進(jìn)行分類,。

根據(jù)博弈者選擇的戰(zhàn)略,，可以將博弈分成合作博弈(cooperative games)與非合作博弈(non-cooperative games).合作博弈與非合作博弈之間的區(qū)別,，主要在于博弈的當(dāng)事人之間能否達(dá)成一個(gè)有約束力的協(xié)議,。如果有,，就是合作博弈；反之,，就是非合作博弈。例如，如果幾家寡頭通過訂立并實(shí)行協(xié)議,，限制產(chǎn)量,，制定壟斷高價(jià),，則稱這種博弈為合作博弈。若寡頭們在市場競爭中沒有達(dá)成有約束里的協(xié)議,，每個(gè)企業(yè)僅僅是在考慮到競爭對手可能采取的行為的條件下,，獨(dú)立地進(jìn)行產(chǎn)量與價(jià)格的決定，則稱這種博弈為非合作博弈,。

根據(jù)參與人行動的先后順序,，可以將博弈分成靜態(tài)博弈(static game)與動態(tài)博弈(dynamic game)。靜態(tài)博弈是指,，博弈中參與人同時(shí)選擇行動,；或者雖非同時(shí)行動，但行動在后者并不知道行動在先者采取了什么具體行動,。動態(tài)博弈是指參與人的行動有先后順序,，而且行動在后者可以觀察到行動在先者的選擇，并據(jù)此作出相應(yīng)的選擇,。

根據(jù)參與人對其他參與人的了解程度,，可以將博弈分成完全信息博弈(games of complete information)和不完全信息博弈(games of incomplete information)。完全信息博弈是指：在每個(gè)參與人對所有其他參與人（對手）的特征、戰(zhàn)略和支付函數(shù)都有精確了解的情況下,，所進(jìn)行的博弈,。如果了解得不夠精確，或者不是對所有的參與人都有精確的了解,，在這種情況下進(jìn)行的博弈就是不完全信息博弈,。

在以下的幾節(jié)中，首先介紹非合作博弈,，然后介紹合作博弈,。而非合作博弈的介紹又分成四種情況分別介紹。這四種情況是：完全信息靜態(tài)博弈,、完全信息動態(tài)博弈,、不完全信息靜態(tài)博弈和不完全信息動態(tài)博弈。

第二節(jié) 完全信息靜態(tài)博弈

一,、占優(yōu)戰(zhàn)略均衡

一般來說,，由于每個(gè)參與人的效用（支付）是博弈中所有參與人的戰(zhàn)略的函數(shù)，因而每個(gè)參與人的最優(yōu)戰(zhàn)略選擇依賴于所有其他參與人的戰(zhàn)略選擇,。但在一些特殊的博弈中,，一個(gè)參與人的最優(yōu)戰(zhàn)略可能并不依賴于其他參與人的戰(zhàn)略選擇。換句話說,，不論其他參與人選擇什么戰(zhàn)略,，他的最優(yōu)戰(zhàn)略是唯一的，這樣的最優(yōu)戰(zhàn)略被稱為“占優(yōu)戰(zhàn)略”(dominant strategies),。

以博弈論中最著名的囚徒困境(prisoner’s dilemma)為例,。兩個(gè)合伙作案的犯罪嫌疑人被抓住了。警方懷疑他們作了許多的案子,，但除了其中的一小部分外,，警方手中并沒有他們作案的確切證據(jù)，因而對這兩個(gè)犯罪嫌疑人犯罪事實(shí)的認(rèn)定及相應(yīng)的量刑取決于他們自己的供認(rèn),。假定警方對兩名犯罪嫌疑人實(shí)行隔離審訊,，二者無法訂立攻守同盟。同時(shí)警方局明確地分別告訴這兩名犯罪嫌疑人,，他們面臨著來以下后果,。即

如果犯罪嫌疑人與其同伙都供認(rèn)其全部犯罪事實(shí)，那么,，由于其罪行的嚴(yán)重性,，兩人各判8年徒刑。

如果某一犯罪嫌疑人供認(rèn)其全部犯罪事實(shí),，而其同伙抵賴,，則供認(rèn)者坦白從寬，從輕判處1年徒刑，而不供認(rèn)者抗拒從嚴(yán),，從重判處10年徒刑,。

如果兩個(gè)犯罪嫌疑人都不供認(rèn)警方所不知道的犯罪事實(shí)。那么,，根據(jù)已經(jīng)掌握的證據(jù),，只能判處他們每人2年徒刑,。

表7-1 囚徒困境

囚徒B坦白抵賴

囚徒A 坦白 -8,-8 -1,-10

抵賴 -10,-1 -2,-2

這兩個(gè)犯罪嫌疑人所面臨的后果可以用表7-1來表示,。表中，正數(shù)值表示參與人有所得,，負(fù)數(shù)值表示參與人有所失,。

在表7-1中，每個(gè)犯罪嫌疑人都有兩種可供選擇的戰(zhàn)略：坦白或抵賴,。但不論同伙選擇什么戰(zhàn)略,，每個(gè)犯罪嫌疑人的最優(yōu)戰(zhàn)略是坦白。以犯罪嫌疑人A為例,。當(dāng)犯罪嫌疑人B選擇坦白時(shí),，A如也選擇坦白，則被判處8年徒刑,，A如選擇抵賴,，則將被判處10年徒刑。因而A選擇坦白比選擇抵賴好,。當(dāng)犯罪嫌疑人B選擇抵賴時(shí),，A如選擇坦白，則被判處1年徒刑,，A如選擇抵賴,，則將被判處2年徒刑。因而A選擇坦白還是比選擇抵賴好,。因此,，坦白是犯罪嫌疑人A的占優(yōu)戰(zhàn)略。對于犯罪嫌疑人B來說,，坦白同樣也是他的占優(yōu)戰(zhàn)略,。

在博弈中，如果所有的參與人都有占優(yōu)戰(zhàn)略存在,，因而博弈將在所有參與人的占優(yōu)戰(zhàn)略的基礎(chǔ)上達(dá)到均衡,，這種均衡稱為占優(yōu)戰(zhàn)略均衡。在表7-1中,，“A坦白,，B也坦白”就是占優(yōu)戰(zhàn)略均衡。

應(yīng)該指出的是，占優(yōu)戰(zhàn)略均衡只要求所有的參與人是理性的,，而并不要求每個(gè)參與人知道其他參與人也是理性的,。因?yàn)椋徽撈渌麉⑴c人是否理性,，占優(yōu)戰(zhàn)略總是一個(gè)理性參與人的最優(yōu)選擇,。

在表7-1中，如果每個(gè)犯罪嫌疑人都選擇抵賴,，則每人將被判處2年徒刑,。對于兩個(gè)犯罪嫌疑人來說，這顯然比每人判處8年徒刑要好,。但由于AB兩人均從個(gè)人角度出發(fā),，如果不存在某種約束，他們不可能在“A和B一起抵賴”的基礎(chǔ)上達(dá)到均衡,。

囚徒困境反映了一個(gè)深刻的問題,，這就是個(gè)人理性與團(tuán)體理性的沖突。微觀經(jīng)濟(jì)學(xué)的基本觀點(diǎn)之一,，是可以通過市場機(jī)制這只“看不見的手”,，在人人追求自身利益最大化的基礎(chǔ)上達(dá)到全社會資源的最優(yōu)配置。囚徒困境是對上述基本觀點(diǎn)的挑戰(zhàn),。

二,、重復(fù)剔除的占優(yōu)戰(zhàn)略均衡

在絕大多數(shù)博弈中，占優(yōu)戰(zhàn)略均衡是不存在的,。盡管如此,，在有些博弈中，我們?nèi)匀豢梢杂谜純?yōu)的邏輯找出均衡,。

表7-2 按按鈕對于吃食量的影響

按按鈕的豬吃到的豬食數(shù)量大豬小豬

大豬 4單位 4單位

小豬 7單位 1單位

兩豬同時(shí) 5單位 3單位

以博弈論中另一個(gè)著名的智豬博弈(boxed pigs)為例,。豬圈里有兩頭豬，大豬和小豬,。豬圈的一頭有一個(gè)豬食槽,，另一頭安裝著一個(gè)控制著豬食供應(yīng)的按鈕。按一下按鈕,，將有8個(gè)單位的豬食進(jìn)入豬食槽,，供兩頭豬食用?？晒┐筘i和小豬選擇的戰(zhàn)略有兩種,，自己去按按鈕，或者等待另一頭豬去按按鈕,。如果某一頭豬作出自己去按按鈕的選擇,，它必須付出下列代價(jià)：第一,，它需要支付相當(dāng)于2個(gè)單位豬食的成本；第二,，由于按鈕遠(yuǎn)離豬食槽,，它將成為豬食槽邊的后到者，從而減少能夠吃到的豬食數(shù)量,。具體情況如表7-2所示,。

表7-3 智豬博弈

小豬按按鈕等待

大豬按按鈕 3,1 2,4

等待 7,-1 0,0

智豬博弈的后果如表7-3所示。表中的數(shù)字表示不同情況下每頭豬所吃到的豬食數(shù)量減去按按鈕的成本之后的凈支付水平,。

表7-3表明,，在這個(gè)博弈中，無論大豬選擇什么戰(zhàn)略,，小豬的占優(yōu)戰(zhàn)略均為等待,。而對大豬來說,，其最優(yōu)戰(zhàn)略依賴于小豬的選擇,。如果小豬選擇等待，大豬的最優(yōu)戰(zhàn)略是按按鈕,；如果小豬選擇按按鈕,，則大豬的最優(yōu)戰(zhàn)略是等待。換句話說,，大豬沒有占優(yōu)戰(zhàn)略,。

什么是這一博弈的均衡解呢？假定小豬是理性的,，它肯定會選擇自己的占優(yōu)戰(zhàn)略——等待,。再假定大豬知道小豬是理性的，則大豬會正確地預(yù)測到小豬會選擇等待,，根據(jù)小豬的這一選擇,，大豬選擇了在此前提下自己的最優(yōu)戰(zhàn)略——按按鈕。在這種情況下大豬和小豬的支付水平分別是2單位和4單位,。這是一個(gè)多勞不多得,、少勞不少得的均衡。

在尋找智豬博弈的均衡解時(shí),，我們所使用的做法可以歸納如下：首先找出某一博弈參與人的嚴(yán)格劣戰(zhàn)略,，將它剔除掉，重新構(gòu)造一個(gè)不包括已剔除戰(zhàn)略的新的博弈,；然后繼續(xù)剔除這個(gè)新的博弈中某一參與人的嚴(yán)格劣戰(zhàn)略,；重復(fù)進(jìn)行這一過程，直到剩下唯一的參與人戰(zhàn)略組合為止,。這個(gè)唯一剩下的參與人戰(zhàn)略組合,，就是這個(gè)博弈的均衡解,，稱為“重復(fù)剔除的占優(yōu)戰(zhàn)略均衡”(iterated dominance equilibrium).這里所說的劣戰(zhàn)略(dominated strategies)，是指在其他博弈參與人戰(zhàn)略為既定的條件下,，某一參與人可能采取的戰(zhàn)略中,，對自己相對不利的戰(zhàn)略。嚴(yán)格劣戰(zhàn)略(strictly dominated strategies)則是指：無論其他博弈參與人采取什么戰(zhàn)略,，某一參與人可能采取的戰(zhàn)略中,，對自己相對不利的戰(zhàn)略。

在智豬博弈中,，我們首先剔除了小豬的嚴(yán)格劣戰(zhàn)略“按按鈕”,。在剔除掉小豬的這一選擇后的新的博弈中，小豬只有等待一個(gè)戰(zhàn)略,，而大豬有兩個(gè)戰(zhàn)略可供選擇,。我們再剔除新博弈中大豬的嚴(yán)格劣戰(zhàn)略“等待”，從而達(dá)到重復(fù)剔除的占優(yōu)戰(zhàn)略均衡,。

在現(xiàn)實(shí)生活中有許多智豬博弈的例子,。例如，在股份公司中,，股東承擔(dān)著監(jiān)督經(jīng)理的職能,。但不同的股東從監(jiān)督中得到的收益大小不一樣。在監(jiān)督成本相同的情況下,，大股東從監(jiān)督中得到的收益顯然多于小股東,。因此，股份公司中監(jiān)督經(jīng)理的責(zé)任往往由大股東承擔(dān),，小股東則搭大股東的便車,。

與前面討論的占優(yōu)戰(zhàn)略均衡相比，重復(fù)剔除的占優(yōu)戰(zhàn)略均衡不僅要求博弈的所有參與人都是理性的,，而且要求每個(gè)參與人都了解所有的其他參與人都是理性的,。在上例中，如果大豬不能排除小豬按按鈕的可能性,，按按鈕就不一定是大豬的最優(yōu)選擇,。

三、納什均衡

納什均衡(Nash equilibrium)是指這樣一種均衡,。在這一均衡中,，每個(gè)博弈參與人都確信，在給定其他參與人戰(zhàn)略策略決定的情況下,，他選擇了最優(yōu)戰(zhàn)略,。納什均衡是完全信息靜態(tài)博弈解的一般情況。構(gòu)成納什均衡的戰(zhàn)略組合一定是在重復(fù)剔除嚴(yán)格劣戰(zhàn)略過程中無法被剔除的戰(zhàn)略組合,。

在占優(yōu)戰(zhàn)略均衡中,，無論所有其他參與人選擇什么戰(zhàn)略,，一個(gè)參與人的占優(yōu)戰(zhàn)略都是他的最優(yōu)戰(zhàn)略。顯然,，這一占優(yōu)戰(zhàn)略也必定是所有其他參與人選擇某一特定戰(zhàn)略時(shí)該參與人的最優(yōu)戰(zhàn)略,。因此，占優(yōu)戰(zhàn)略均衡一定是納什均衡,。在重復(fù)剔除的占優(yōu)戰(zhàn)略均衡中,，最后剩下的唯一戰(zhàn)略組合，一定是在重復(fù)剔除嚴(yán)格劣戰(zhàn)略過程中無法被剔除的戰(zhàn)略組合,。因此,，重復(fù)剔除的占優(yōu)戰(zhàn)略均衡也一定是納什均衡。

表7-4 性別戰(zhàn)

女方看足球逛商店

男方看足球 3,1 0,0

逛商店 0,0 1,3

納什均衡所包括的情況遠(yuǎn)不止占優(yōu)戰(zhàn)略均衡和重復(fù)剔除的占優(yōu)戰(zhàn)略均衡,。以博弈論中經(jīng)常提到的性別戰(zhàn)(battle of the ***es)為例,。談戀愛中的男女通常是共渡周末而不愿意分開活動的。但對于周末干什么,，男女雙方各自有著自己的偏好,。男方喜歡看足球比賽，女方喜歡逛商店,。不同選擇下男女雙方的得失見表7-4,。

在這個(gè)博弈中，存在著兩個(gè)納什均衡,。男女雙方或者一起去看足球，或者一起去逛商店,。如果沒有進(jìn)一步的信息,，我們無法確定男女雙方在上述博弈中會作出什么選擇。

與重復(fù)剔除的占優(yōu)戰(zhàn)略均衡一樣,，納什均衡不僅要求博弈的所有參與人都是理性的,，而且要求每個(gè)參與人都了解所有的其他參與人都是理性的。

第三節(jié) 完全信息動態(tài)博弈

一,、子博弈精煉納什均衡

在動態(tài)博弈中,，參與人的行動有先后順序，而且后行動的參與人在自己行動之前可以觀測到先行動者的行動,，并選擇相應(yīng)的戰(zhàn)略,。由于先行動者擁有后行動者可能選擇戰(zhàn)略的完全信息，因而先行動者在選擇自己的戰(zhàn)略時(shí),，就可以預(yù)先考慮自己的選擇對后行動者選擇的影響,，并采取相應(yīng)的對策。

表7-5 房地產(chǎn)開發(fā)博弈

（靜態(tài)）

B開發(fā) 不開發(fā)

A 開發(fā) -3,-3 1,0

不開發(fā) 0,1 0,0

以某一房地產(chǎn)開發(fā)博弈為例,，表7-5顯示了靜態(tài)條件下雙方參與人的得失,。房地產(chǎn)開發(fā)商A是先行動者,。在行動之前，A對競爭者B的戰(zhàn)略進(jìn)行了預(yù)測,。

在行動開始前的A看來,，如果不計(jì)得失，B有四種戰(zhàn)略可選擇,。

第一,，無論A是否開發(fā)，B都要開發(fā),。

第二,，如果A開發(fā)，B也開發(fā),；如果A不開發(fā),，B也不開發(fā)。

表7-6 A對B的預(yù)測

B開發(fā),開發(fā)開發(fā),不開發(fā) 不開發(fā),開發(fā)不開發(fā),不開發(fā)

A 開發(fā) -3,-3 -3,-3 1,0 1,0

不開發(fā) 0,1 0,0 0,1 0,0

第三,，如果A開發(fā),，B就不開發(fā)；如果A不開發(fā),，B就開發(fā),。

第四，無論A是否開發(fā),，B必定不開發(fā),。

將B可能采取的選擇與表7-5中博弈雙方相應(yīng)選擇的得失結(jié)合起來，可以得出表7-6,。

在表7-5中,，存在著兩個(gè)納什均衡，即（A開發(fā),，B不開發(fā)）和（A不開發(fā),，B開發(fā)）。而在B可能選擇的戰(zhàn)略中,，戰(zhàn)略一雖然包括了上述后一種納什均衡,，但沒有包括前一種納什均衡；戰(zhàn)略四雖然包括了上述前一種納什均衡,，但沒有包括后一種納什均衡,；至于戰(zhàn)略二，則上述兩種納什均衡都沒有包括,；只有戰(zhàn)略三包括了上述兩種納什均衡,。換句話說，如果B選擇戰(zhàn)略三,，那么,，不論A作出什么選擇,，B的回應(yīng)都達(dá)到納什均衡。而在給定B會采取戰(zhàn)略三（即如果A開發(fā),，B就不開發(fā),；如果A不開發(fā)，B就開發(fā)）來回應(yīng)A的選擇的前提下,，開發(fā)是A的占優(yōu)戰(zhàn)略,。因而A選擇了開發(fā)。

以上的分析方法,，稱為子博弈精煉納什均衡(sub-game perfect Nash equilibrium),。

子博弈是原博弈的一部分，它本身可以作為一個(gè)獨(dú)立的博弈進(jìn)行分析,。例如,，在表7-5中，每一列或每一行都是一個(gè)子博弈,。任何博弈本身則被稱為自身的一個(gè)子博弈,。

只有當(dāng)某一戰(zhàn)略組合在每一個(gè)子博弈（包括原博弈）上都構(gòu)成一個(gè)納什均衡，這一戰(zhàn)略組合才是子博弈精煉納什均衡,。

仍然以前面提到的房地產(chǎn)開發(fā)博弈為例,，這里涉及到包括原博弈在內(nèi)的三個(gè)子博弈。由于A是先行動者,，那么,，在A選擇了開發(fā)之后，B的回應(yīng)構(gòu)成了子博弈甲,，如表7-5的第一行,，這里的納什均衡是A開發(fā)，B不開發(fā),。在A選擇了不開發(fā)之后，B的回應(yīng)也構(gòu)成了子博弈乙,，如表7-5的第二行,，這里的納什均衡是A不開發(fā)，B開發(fā),。而整個(gè)表7-5,，則表示A在有可能選擇開發(fā)或不開發(fā)的情況下，B的回應(yīng),。它既是原博弈,，又是自身的子博弈。這里存在著本段中提到的兩個(gè)納什均衡,。而前面提到的B的四種戰(zhàn)略中,，只有戰(zhàn)略三在子博弈甲,、乙中都構(gòu)成納什均衡，其它的戰(zhàn)略至少在子博弈甲,、乙之一中不構(gòu)成納什均衡,，因而這一博弈中唯一的子博弈精煉納什均衡，就是（開發(fā),，{不開發(fā),，開發(fā)}），即作為后行動者的B選擇戰(zhàn)略三,，而作為先行動者的A選擇開發(fā),。

就特定情況而言，除了（開發(fā),，{不開發(fā),，開發(fā)}）之外，參與人也可以選擇其它戰(zhàn)略,。在上述房地產(chǎn)開發(fā)博弈中,，在A選擇開發(fā)時(shí)，無論B選擇戰(zhàn)略三還是戰(zhàn)略四（即,，無論A是否開發(fā),，B必定不開發(fā)），其結(jié)果——A開發(fā),，B不開發(fā)——都是構(gòu)成納什均衡的,。而子博弈精煉納什均衡方法所要剔除的，正是這種只在特定情況下是合理的,，而在其它情況下不合理的戰(zhàn)略組合,。

二、重復(fù)博弈

以上討論的動態(tài)博弈有這樣一個(gè)特點(diǎn),。這就是,，參與人在前一個(gè)階段的選擇將決定隨后的子博弈的結(jié)構(gòu)。在上述房地產(chǎn)開發(fā)博弈中,，子博弈甲不同于子博弈乙,。當(dāng)A選擇了開發(fā)后，子博弈乙就被排除了,。這樣的動態(tài)博弈稱為序貫博弈(sequential games),。動態(tài)博弈中另外一類是所謂的重復(fù)博弈(repeated games)。顧名思義,，重復(fù)博弈是指同樣結(jié)構(gòu)的博弈重復(fù)許多次,，其中的每次博弈稱為階段博弈(stage game)。

影響重復(fù)博弈均衡結(jié)果的主要因素，是博弈重復(fù)的次數(shù)和信息的完備性,。重復(fù)次數(shù)的重要性來自參與人在短期利益和長期利益之間的權(quán)衡,。當(dāng)博弈只進(jìn)行一次時(shí)，每個(gè)參與人都只關(guān)心一次性的支付,；但如果博弈重復(fù)多次,，參與人可能會為了長遠(yuǎn)利益而犧牲眼前利益，從而選擇不同的均衡戰(zhàn)略,。就信息的完備性而論,，當(dāng)一個(gè)參與人的支付函數(shù)還不為其他參與人所知時(shí)，該參與人可能有積極性建立一個(gè)良好的聲譽(yù)以換取長遠(yuǎn)利益,。在這里,，我們只討論博弈重復(fù)的次數(shù)。

表7-7 產(chǎn)品定價(jià)博弈

B低價(jià) 高價(jià)

A 低價(jià) 24,24 40,8

高價(jià) 8,40 32,32

我們用一個(gè)產(chǎn)品定價(jià)博弈的例子來分析重復(fù)博弈,。表7-7顯示了這一博弈的有關(guān)情況,。該表表明，在一次性的完全信息靜態(tài)博弈中,，兩個(gè)參與人A與B均有占優(yōu)戰(zhàn)略,，占優(yōu)戰(zhàn)略均衡為雙方都定低價(jià)。而一次性博弈意味著沒有人能夠?qū)ζ渌麉⑴c人的行為進(jìn)行獎勵或報(bào)復(fù),。而在動態(tài)的重復(fù)博弈中,，所有參與人過去的行為都是觀測得到的，因而某一參與人可以通過自己在本階段博弈中的選擇,，來回應(yīng)其他參與人在以前的階段博弈中的行為,。以產(chǎn)品定價(jià)博弈為例。如果上一次階段博弈中,，B選擇了高價(jià),，使得也選擇了高價(jià)的A得到了好處，那么A可以在本階段博弈中繼續(xù)選擇高價(jià)作為對B的獎勵,。如果在上一次階段博弈中,，B選擇了低價(jià)，使得選擇了高價(jià)的A受到了損失,，那么A可以在本階段博弈中選擇低價(jià)作為對B的報(bào)復(fù),。

博弈重復(fù)的次數(shù)對參與人的選擇有什么樣的影響呢？我們分兩種情況來討論,。

先看博弈重復(fù)次數(shù)無限時(shí)的情況。

以表7-7所舉的產(chǎn)品定價(jià)博弈為例,。如果B選擇與A合作維持產(chǎn)品高價(jià),，則B各階段所得是(32,32,32,32...)；如果B選擇不與A合作，并在第一階段通過選擇低價(jià)使得選擇高價(jià)的A受到損失,，A則在以后各階段的博弈中選擇低價(jià)以報(bào)復(fù),，則B各階段所得為(40,24,24,24...)。換句話說,，B在第一高等博弈中因不與A合作而得到的額外好處,，將因?yàn)?span lang=EN-US>A在以后各階段所采取的報(bào)復(fù)性選擇而抵消。重復(fù)博弈若干次后,，B的不合作態(tài)度將導(dǎo)致得不償失的后果,。在這里，A所采取的戰(zhàn)略稱為冷酷戰(zhàn)略(grim strategies),。按照這種戰(zhàn)略,，A起初選擇合作；但如果B在某一階段博弈中選擇不合作的話,，A將永遠(yuǎn)選擇不合作,。A這樣做的理由是：選擇不合作（低價(jià)），他各階段的所得是24,；而選擇合作（高價(jià)）,，他各階段的所得少于24，因?yàn)?span lang=EN-US>B在某一階段博弈中的不合作排除了雙方合作獲得雙贏的可能,。因此,，A有堅(jiān)持冷酷戰(zhàn)略的積極性。而B為了減少損失,，也就只能一直不合作下去,。換句話說，冷酷戰(zhàn)略意味著任何一個(gè)參與人的一次性不合作將觸發(fā)永遠(yuǎn)的不合作,。在這種情況下,，重復(fù)博弈的所有參與人懾于冷酷戰(zhàn)略的嚴(yán)重后果，有積極性維持合作,。

再看博弈重復(fù)次數(shù)有限時(shí)的情況

博弈重復(fù)次數(shù)有限,，意味著存在所有參與人都可以預(yù)測到的“最后一次”。在最后的階段博弈中,，如果某一參與人選擇了自己的占優(yōu)戰(zhàn)略,，給其他參與人造成損失,，則其他參與人不可能報(bào)復(fù)。所有的參與人都明白這一點(diǎn)，因而在最后一次階段博弈中都會選擇占優(yōu)戰(zhàn)略——給自己的產(chǎn)品制定低價(jià),，從而構(gòu)成與完全信息靜態(tài)博弈相同的占優(yōu)戰(zhàn)略均衡。

所有參與人在最后階段博弈中都會不約而同地選擇低價(jià)戰(zhàn)略,，這意味著無論B在倒數(shù)第二階段——即最后階段以前的那個(gè)階段——博弈中采取什么戰(zhàn)略,，A在最后階段都將采取低價(jià)戰(zhàn)略。因此，在倒數(shù)第二階段中,，B就沒有必要因?yàn)閾?dān)心A的報(bào)復(fù)而采取高價(jià)戰(zhàn)略,。換句話說，在給定最后階段所有參與人都會選擇占優(yōu)戰(zhàn)略的前提下,，所有的參與人在倒數(shù)第二階段的博弈中也都會選擇占優(yōu)戰(zhàn)略,。

由此從最后的階段開始，逐個(gè)階段進(jìn)行推理,，可以得出以下結(jié)論：在階段博弈有唯一的納什均衡時(shí),，n次重復(fù)博弈的唯一子博弈精煉納什均衡結(jié)果，是階段博弈的納什均衡重復(fù)n次,。這就是說,，每個(gè)階段博弈出現(xiàn)的都是一次性博弈的均衡結(jié)果。

在這里,，階段博弈納什均衡的唯一性是一個(gè)重要條件,。如果納什均衡是唯一的，上述結(jié)論就不一定成立,。

三,、動態(tài)博弈戰(zhàn)略行動

在動態(tài)博弈中，參與人為了使得其他參與人的選擇對自己有利,，往往采取一些行動來影響其他參與人對于自己行為的預(yù)期,。這些行為稱為戰(zhàn)略行動(strategic move)。

以下是一些戰(zhàn)略行動的例子,。

1.首先行動優(yōu)勢

首先行動優(yōu)勢(first-mover advantage)是指,，在博弈中首先作出戰(zhàn)略選擇并采取相應(yīng)行動的參與人可以獲得較多的利益。例如,，在前面提到的性別戰(zhàn)中,，存在著兩個(gè)納什均衡，即兩人一起看足球比賽或逛商店,。男方偏好看足球比賽,，而女方偏好逛商店。在這種情況下,，男方僅僅提出要看足球比賽是不夠的,，他應(yīng)該采取行動，先買好足球票,。從而使女方因感到“男朋友十分想看這場比賽”或因感到“買球票不容易,，不看可惜”而接受兩人一起看足球比賽的選擇。

2.確實(shí)可信的威脅

表7-8 房地產(chǎn)開發(fā)博弈

（B承諾后）

B開發(fā) 不開發(fā)

A 開發(fā) -3,-3 1,-5

不開發(fā) 0,1 0,-5

確實(shí)可信的威脅(credible threat)是指,，博弈的參與人通過某種行動改變自己的支付函數(shù),，從而使得自己的威脅顯得可信,。參與人為改變博弈結(jié)果而采取的措施稱為承諾(commitment)。

表7-9 A對B的預(yù)測

（B承諾后）

B開發(fā),開發(fā)開發(fā),不開發(fā) 不開發(fā),開發(fā)不開發(fā),不開發(fā)

A 開發(fā) -3,-3 -3,-3 1,-5 1,-5

不開發(fā) 0,1 0,-5 0,1 0,-5

我們再來看前面提到過的房地產(chǎn)開發(fā)博弈,。在這一例子中，B所選擇的戰(zhàn)略一（無論A是否開發(fā),，B都要開發(fā)）之所以不是子博弈精煉納什均衡,，是因?yàn)榇嬖谥缤?span lang=EN-US>7-5和表7-6所表示的支付函數(shù)。如果A在作出選擇之前,，B與某一客戶簽訂合同,，規(guī)定B在一定期限內(nèi)向客戶交付一定面積的住房，如果B不能按時(shí)履約,，則賠償客戶5單位貨幣,。有了這樣一個(gè)承諾，表7-5就變成表7-8,，在完全信息靜態(tài)博弈下,，B就有了占優(yōu)戰(zhàn)略——開發(fā)。因而B的第一種戰(zhàn)略——無論A是否開發(fā),，我都要開發(fā)——就成為確實(shí)可信的威脅,。表7-6就變成表7-9，因而這一博弈的子博弈精煉納什均衡,，也就從原來的（開發(fā),，{不開發(fā)，開發(fā)}）變成現(xiàn)在的（不開發(fā),，{開發(fā),，開發(fā)}）。

第四節(jié) 不完全信息靜態(tài)博弈

前面介紹的博弈都包含一個(gè)基本假設(shè),，即完全信息假設(shè),。按照這一假設(shè)，每個(gè)參與人對所有其他參與人（對手）的類型,、戰(zhàn)略和支付函數(shù)都有精確的了解,。但是，在許多情況下,，參與人對對手的了解往往是不夠精確的,。這種情況下的博弈就是不完全信息博弈。

表7-10 市場進(jìn)入博弈

A高成本低成本默許阻撓默許阻撓

B 進(jìn)入 40,50 -10,0 30,100 -10,140

不進(jìn)入 0,300 0,300 0,400 0,400

舉例來說,，某一市場原來被A企業(yè)所壟斷?，F(xiàn)在B企業(yè)考慮是否進(jìn)入。B企業(yè)知道,，A企業(yè)是否允許它進(jìn)入,，取決于A企業(yè)阻撓B企業(yè)進(jìn)入所花費(fèi)的成本,。如果阻撓的成本低，那么,，正如表7-10后兩列所表示的,，A企業(yè)的占優(yōu)戰(zhàn)略是阻撓，博弈有重復(fù)剔除的占優(yōu)戰(zhàn)略均衡——A阻撓,，B不進(jìn)入,。如果阻撓的成本高，那么,，正如表7-10前兩列所表示的,，A企業(yè)的占優(yōu)戰(zhàn)略是默許B進(jìn)入，博弈有重復(fù)剔除的占優(yōu)戰(zhàn)略均衡——A默許,，B進(jìn)入,。B企業(yè)所不知道的，是A企業(yè)的阻撓成本是高是低,。這里,，某一參與人本人知道、其他參與人則不知道的信息稱為私人信息,。某一參與人所擁有的全部私人信息稱為他的類型,。在上述例子中，阻撓成本就是A的私人信息,。高阻撓成本和低阻撓成本則是兩種不同的類型,。

顯然，在這里,，B所遇到的,，是不確定性條件下的選擇問題。因?yàn)?span lang=EN-US>B不僅不知道A的類型（是高還是低）,，而且不知道不同類型的分布概率,。

解決這類問題的方法之一，就是把不確定性條件下的選擇轉(zhuǎn)換為風(fēng)險(xiǎn)條件下的選擇,。在風(fēng)險(xiǎn)條件下,，B雖然不知道A的類型，但可以知道不同類型的分布概率,。將不確定性條件下的選擇轉(zhuǎn)換為風(fēng)險(xiǎn)條件下的選擇,，稱為海薩尼轉(zhuǎn)換(the Harsanyi transformation)。

按照海薩尼的方法,，所有參與人的真實(shí)類型都是給定的,。其他參與人雖然不清楚某一參與人的真實(shí)類型，但知道這些可能出現(xiàn)的類型的分布概率,，而且這種概率是公共知識,。用上例來說,，公共知識不僅意味著B企業(yè)知道A企業(yè)高阻撓成本與低阻撓成本的分布概率，而且意味著A也清楚B知道這一概率,。

通過海薩尼轉(zhuǎn)換,，不完全信息博弈變成了完全但不完美信息博弈(games of complete but imperfect information)。這里的不完美信息,，就是指其他參與人只知道某一參與人某些方面類型的分布概率,，而不知道該參與人在這些方面的真實(shí)類型。

在上述轉(zhuǎn)換的基礎(chǔ)上,，海薩尼提出了貝葉斯納什均衡(Bayesian Nash equilibrium)。對此,，可以作如下解釋：在不完全信息靜態(tài)博弈中,，參與人同時(shí)行動，沒有機(jī)會觀察到別人的選擇,。給定其他參與人的戰(zhàn)略選擇,，每個(gè)參與人的最優(yōu)戰(zhàn)略依賴于自己的類型。由于每個(gè)參與人僅知道其他參與人有關(guān)類型的分布概率,，而不知道其真實(shí)類型,，因而，他不可能知道其他參與人實(shí)際上會選擇什么戰(zhàn)略,。但是,，他能夠正確地預(yù)測到其他參與人的選擇與其各自的有關(guān)類型之間的關(guān)系。因此,，該參與人的決策目標(biāo)就是：在給定自己的類型,，以及給定其他參與人的類型與戰(zhàn)略選擇之間關(guān)系的條件下，使得自己的期望效用最大化,。貝葉斯納什均衡是一種類型依賴型戰(zhàn)略組合,。在給定自己的類型和其他參與人類型的分布概率的條件下，這種戰(zhàn)略組合使得每個(gè)參與人的期望效用達(dá)到了最大化,。

回到上面提到的市場進(jìn)入的例子,。在這個(gè)例子里，對于挑戰(zhàn)者B來說,，原壟斷者A在阻撓成本方面,，存在著兩種可能性：高成本或低成本。B不知道A的阻撓成本究竟是高是低,，但他知道A在這兩種不同阻撓成本下會作出的選擇,，以及不同阻撓成本（類型）的分布概率。假定高成本的概率為x,，則低成本的概率為(1-x),。如果A的阻撓成本高,，A將默許B進(jìn)入市場；如果A的阻撓成本低,，A將阻撓B進(jìn)入市場,。在這兩種情況下，如表7-10所示,，B進(jìn)入的支付函數(shù)分別是得到40和失去10,。因此，B選擇進(jìn)入所得到的期望利潤為40x+(-10)(1-x),，選擇不進(jìn)入的期望利潤為0,。簡單的計(jì)算表明，當(dāng)A阻撓成本高的概率大于20%時(shí),，挑戰(zhàn)者B選擇進(jìn)入得到的期望利潤大于選擇不進(jìn)入的期望利潤,。此時(shí)，選擇進(jìn)入是B的最優(yōu)選擇,。此時(shí)的貝葉斯納什均衡為,，挑戰(zhàn)者B選擇進(jìn)入，高成本原壟斷者選擇默許,，低成本原壟斷者選擇阻撓,。

第五節(jié) 不完全信息動態(tài)博弈

在動態(tài)博弈中，行動有先后次序,，后行動者可以通過觀察先行動者的行為,，來獲得有關(guān)先行動者的信息，從而證實(shí)或修正自己對先行動者的判斷,。

如上所述,，在不完全信息條件下，博弈的參與人知道其他參與人可能有哪幾種類型,，也知道不同的類型與相應(yīng)戰(zhàn)略選擇之間的關(guān)系,。但他們并不知道其他參與人的真實(shí)類型。在不完全信息靜態(tài)博弈中,，我們是通過海薩尼轉(zhuǎn)換,，即通過假定其他參與人知道某一參與人的所屬類型的分布概率，來得出博弈的貝葉斯納什均衡結(jié)果的,。而在不完全信息動態(tài)博弈中,，問題變得更加簡單。博弈開始時(shí),，某一參與人既不知道其他參與人的真實(shí)類型,，也不知道其他參與人所屬類型的分布概率。他只是對這一概率分布有自己的主觀判斷,，即有自己的信念,。博弈開始后,，該參與人將根據(jù)他所觀察到的其他參與人的行為，來修正自己的信念,。并根據(jù)這種不斷變化的信念,，作出自己的戰(zhàn)略選擇。

對應(yīng)于不完全信息動態(tài)博弈的均衡概念是精煉貝葉斯均衡(perfect Bayesian equilibrium),。這個(gè)概念是完全信息動態(tài)博弈的子博弈精煉納什均衡與不完全信息靜態(tài)均衡的貝葉斯（納什）均衡的結(jié)合,。具體來說，精煉貝葉斯均衡是所有參與人戰(zhàn)略和信念的一種結(jié)合,。它滿足如下條件：第一,，在給定每個(gè)參與人有關(guān)其他參與人類型的信念的條件下，該參與人的戰(zhàn)略選擇是最優(yōu)的,。第二,，每個(gè)參與人關(guān)于其他參與人所屬類型的信念，但是使用貝葉斯法則從所觀察到的行為中獲得的,。

貝葉斯法則是概率統(tǒng)計(jì)中的應(yīng)用所觀察到的現(xiàn)象對有關(guān)概率分布的主觀判斷（即先驗(yàn)概率）進(jìn)行修正的標(biāo)準(zhǔn)方法。采用上一節(jié)的例子,，可以將貝葉斯規(guī)則的分析思路表達(dá)如下,。

挑戰(zhàn)者B不知道原壟斷者A是屬于高阻撓成本類型還是低阻撓成本類型，但B知道,，如果A屬于高阻撓成本類型,，B進(jìn)入市場時(shí)A進(jìn)行阻撓的概率是20%（此時(shí)A為了保持壟斷帶來的高利潤，不計(jì)成本地拼命阻撓）,；如果A屬于低阻撓成本類型,，B進(jìn)入市場時(shí)A進(jìn)行阻撓的概率是100%。

博弈開始時(shí),，B認(rèn)為A屬于高阻撓成本企業(yè)的概率為70%,，因此，B估計(jì)自己在進(jìn)入市場時(shí),，受到A阻撓的概率為：0.7×0.2+0.3×1=0.44

0.44是在B給定A所屬類型的先驗(yàn)概率下,，A可能采取阻撓行為的概率。

當(dāng)B進(jìn)入市場時(shí),，A確實(shí)進(jìn)行阻撓,。使用貝葉斯法則，根據(jù)阻撓這一可以觀察到的行為,，B認(rèn)為A屬于高阻撓成本企業(yè)的概率變成

A屬于高成本企業(yè)的概率=0.7（A屬于高成本企業(yè)的先驗(yàn)概率）×0.2（高成本企業(yè)對新進(jìn)入市場的企業(yè)進(jìn)行阻撓的概率）÷0.44=0.32

根據(jù)這一新的概率,，B估計(jì)自己在進(jìn)入市場時(shí)，受到A阻撓的概率為：

0.32×0.2+0.68×1=0.744

如果B再一次進(jìn)入市場時(shí),，A又進(jìn)行了阻撓,。使用貝葉斯法則,，根據(jù)再次阻撓這一可觀察到的行為，B認(rèn)為A屬于高阻撓成本企業(yè)的概率變成

A屬于高成本企業(yè)的概率=0.32（A屬于高成本企業(yè)的先驗(yàn)概率）×0.2（高成本企業(yè)對新進(jìn)入市場的企業(yè)進(jìn)行阻撓的概率）÷0.744=0.086

這樣,，根據(jù)A一次又一次的阻撓行為,，B對A所屬類型的判斷逐步發(fā)生變化，越來越傾向于將A判斷為低阻撓成本企業(yè)了,。

以上例子表明,，在不完全信息動態(tài)博弈中，參與人所采取的行為具有傳遞信息的作用,。盡管A企業(yè)有可能是高成本企業(yè),，但A企業(yè)連續(xù)進(jìn)行的市場進(jìn)入阻撓，給B企業(yè)以A企業(yè)是低阻撓成本企業(yè)的印象,，從而使得B企業(yè)停止了進(jìn)入地市場的行動,。

應(yīng)該指出的是，傳遞信息的行為是需要成本的,。假如這種行為沒有成本,，誰都可以效仿，那么,，這種行為就達(dá)不到傳遞信息的目的,。只有在行為需要相當(dāng)大的成本，因而別人不敢輕易效仿時(shí),，這種行為才能起到傳遞信息的作用,。

傳遞信息所支付的成本是由信息的不完全性造成的。但不能因此就說不完全信息就一定是壞事,。研究表明,，在重復(fù)次數(shù)有限的囚徒困境博弈中，不完全信息可以導(dǎo)致博弈雙方的合作,。理由是：當(dāng)信息不完全時(shí),，參與人為了獲得合作帶來的長期利益，不愿過早暴露自己的本性,。這就是說,，在一種長期的關(guān)系中，一個(gè)人干好事還是干壞事,，常常不取決于他的本性是好是壞,，而在很大程度上取決于其他人在多大程度上認(rèn)為他是好人。如果其他人不知道自己的真實(shí)面目,，一個(gè)壞人也會為了掩蓋自己而在相當(dāng)長的時(shí)期內(nèi)做好事

本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間,，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息,，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,，請點(diǎn)擊一鍵舉報(bào),。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：智者的聲音 > 《學(xué)術(shù)》

舉報(bào)/認(rèn)領(lǐng)