生活中我們常常出現(xiàn)的打牌、猜拳,、下棋,、踢球等行為主題選擇策略并相互影響的過程可以稱之為博弈,博弈論則是指研究決策主體的行為發(fā)生直接相互作用時(shí)候的決策,,以及這種決策的均衡問題,。 博弈論通常用來進(jìn)行決策、均衡等目的,。 值得注意的是,,博弈模型只適用于行為主體之間的行動(dòng)決策會(huì)相互影響的情況,若制定決策時(shí)不考慮其他行為主體的反應(yīng)或力量,,則博弈模型不成立,。
博弈有 6 大構(gòu)成要素:參與人 players、行動(dòng) actions,、信息 information,、策略 strategies、收益 payoffs,、均衡 equilibria,。接下來通過一個(gè)試驗(yàn)案例來形象地理解這些要素的定義。
1# 信息信息指參與人在博弈中的知識(shí),,特別是有關(guān)其他參與人(對(duì)手)的特征和行動(dòng)的知識(shí)。在上面的案例中所有人都知道的有兩個(gè)信息元素(完全信息),,生產(chǎn)方式 1 和生產(chǎn)方式 2 的內(nèi)容,。 信息在博弈中非常重要,最大程度影響著參與人策略的制定,,其余因素都是通過信息的方式輸入到參與者腦中,,并產(chǎn)生決策。 信息主要包括兩個(gè)方面:對(duì)博弈參與人的了解和對(duì)博弈過程的了解,,其中后者僅限于動(dòng)態(tài)博弈(下文會(huì)介紹分類),。根據(jù)這兩種類型的信息延伸出兩種特殊的概念:
2# 策略策略是博弈參與人選擇行動(dòng)的規(guī)則,,它決定參與人在什么時(shí)候選擇什么行動(dòng),。俗話說的「人不犯我,我不犯人,;人若犯我,,我必犯人」、「己所不欲,,勿施于人」,、「以眼還眼,以牙還牙」等都是指導(dǎo)行動(dòng)的規(guī)則,,即策略,。 3# 參與人參與人是指做決策的個(gè)體。每個(gè)參與人的目標(biāo)都是通過選擇行動(dòng)來最大化自身的效用,。 4# 行動(dòng)參與人 i 的行動(dòng)或活動(dòng),,以 ai表示所能做的某一個(gè)選擇,例如在上文的試驗(yàn)中,,每個(gè)人都可以選擇生產(chǎn)方式 1 和生產(chǎn)方式 2 這兩種行動(dòng),。其可以采用的所有行動(dòng)的集合稱為參與人 i 的行動(dòng)集,表示為: 5# 收益收益指參與人從博弈中獲得的效用水平,,它是所有參與人的戰(zhàn)略或行動(dòng)的函數(shù),,是每個(gè)參與人真正關(guān)心的東西。每個(gè)人的收益都依賴于所有人的行動(dòng)選擇,。 6# 均衡均衡是所有參與人的最優(yōu)戰(zhàn)略或者行動(dòng)的組合,,也就是博弈過程的解。 均衡是博弈論的核心,,它的發(fā)展代表了博弈論的發(fā)展,,均衡的定義與博弈的分類密切相關(guān)。 博弈主要有兩種表述方式,,戰(zhàn)略式與擴(kuò)展式,。 戰(zhàn)略式又稱策略式,一般用于參與人同時(shí)行動(dòng)的靜態(tài)博弈,,二人情況下就是常見的矩陣式表述,,如上文企業(yè)的高低價(jià)案例若兩個(gè)企業(yè)之間價(jià)格博弈用矩陣式可表達(dá)為: 擴(kuò)展式針對(duì)參與人行動(dòng)有先后順序的動(dòng)態(tài)博弈,,常見的是博弈樹表述(參與人個(gè)數(shù)不限)。仍然以第一個(gè)案例為原型,,假設(shè)兩個(gè)企業(yè)的產(chǎn)品要通過打折活動(dòng)促進(jìn)銷量,,企業(yè) B 根據(jù)企業(yè) A 的打折活動(dòng)情況決定是否打折,他們之間的博弈樹表述如下: 接下來通過博弈的分類深入了解它的概念,,如下表所示,,根據(jù)博弈的行動(dòng)順序與信息種類可以將它大致分為四類: 完全信息靜態(tài)博弈-納什均衡完全信息靜態(tài)博弈指每個(gè)參與者了解所有對(duì)手的特性,且博弈在一個(gè)階段完成,。 對(duì)于完全信息靜態(tài)博弈的解一般都是納什均衡,,納什均衡是由所有參與人的最優(yōu)戰(zhàn)略組成的戰(zhàn)略組合。即在給定別人戰(zhàn)略的情況下,,沒有單個(gè)人有積極性打破這種選擇,,從而沒有任何人有積極性打破這種均衡。 經(jīng)典案例有囚徒困境,、智豬博弈等,。
根據(jù)以上信息用矩陣式表述如下表: 根據(jù)占優(yōu)策略來看,,選擇「坦白」對(duì)雙方各自的收益都是最佳的。所謂占優(yōu)策略就是不論別人怎么選擇,,這個(gè)策略都會(huì)給你帶來較好的結(jié)果,,但顯然根據(jù)此策略就會(huì)陷入囚徒困境的得到(-8,-8)的結(jié)果,,只有彼此信任合作均衡才能達(dá)到兩個(gè)人都抵賴的最小損失結(jié)果(-1,,-1)。 在現(xiàn)實(shí)生活的商業(yè)競(jìng)爭(zhēng)中經(jīng)常會(huì)遇到囚徒困境,,例如壟斷企業(yè)的價(jià)格選擇,。
此博弈的表述如下: 首先從小豬的兩種選擇收益來看,若小豬選擇「按」則它屬于絕對(duì)劣勢(shì),,因此排除該選項(xiàng),,接著可以看出最佳策略就是大豬「按」小豬「等待」的小豬先到選項(xiàng)。 智豬博弈通常應(yīng)用在公共產(chǎn)品的供給,、新技術(shù)或新產(chǎn)品的研發(fā)等現(xiàn)實(shí)場(chǎng)景,。通俗來講,正常情況下體量較小的公司不會(huì)付出太多成本進(jìn)行新技術(shù)的研發(fā),。
此博弈的表述如下: 在情侶博弈的對(duì)局中,,雙方都沒有占優(yōu)策略,他們的最優(yōu)策略依賴于對(duì)方的選擇,。在這個(gè)對(duì)局中同時(shí)出現(xiàn)了兩個(gè)均衡,,這種均衡叫做納什均衡。 納什均衡是指在對(duì)手的策略是既定的情況下,,各個(gè)對(duì)局者所選擇的策略都是最好的,。納什均衡中有兩種特殊情況,分別為占優(yōu)戰(zhàn)略均衡與重復(fù)剔除的占優(yōu)均衡,。 占優(yōu)戰(zhàn)略均衡 在上文的囚徒困境中提到過,,「坦白」對(duì)于參與人雙方都是占優(yōu)戰(zhàn)略,因此(坦白,,坦白)是囚徒困境博弈中的占優(yōu)戰(zhàn)略均衡,。 從數(shù)學(xué)角度來看,定義 Si*為參與人 i 的嚴(yán)格占優(yōu)戰(zhàn)略,S-i為除了 i 外的參與者的策略選擇,。如果對(duì)所有的 S-i來說Si*是 i 的嚴(yán)格最優(yōu)選擇,,即 如果對(duì)所有的 i 來說 Si*是占優(yōu)戰(zhàn)略,那么 這種情況稱為占優(yōu)戰(zhàn)略均衡(dominant-strategy equilibrium),。 重復(fù)剔除的占優(yōu)均衡 在無法直接找出占優(yōu)戰(zhàn)略均衡的情況下,,我們可以找出某個(gè)參與人的劣戰(zhàn)略,把這個(gè)劣戰(zhàn)略剔除,,構(gòu)造一個(gè)新的博弈(不包含已剔除的戰(zhàn)略),;對(duì)新的博弈重復(fù)上述過程,直到只剩下唯一的一個(gè)戰(zhàn)略組合為止,,這個(gè)唯一剩下的戰(zhàn)略組合就是這個(gè)博弈的均衡解,,稱為「重復(fù)剔除的占優(yōu)均衡」。 如上文的智豬博弈案例,,它就是通過先排除小豬的絕對(duì)劣勢(shì)選項(xiàng),,進(jìn)而推斷出最終答案。 同樣用數(shù)學(xué)角度來看,,令Si'和 Si' 是參與人 i 可選擇的兩個(gè)戰(zhàn)略,,即 如果對(duì)任意的其他參與人的戰(zhàn)略組合 S-i,參與人 i 選擇 Si'得到的收益嚴(yán)格小于選擇 Si'得到的收益,,即 則我們說戰(zhàn)略 Si'嚴(yán)格劣于戰(zhàn)略 Si',。 納什均衡 從占優(yōu)戰(zhàn)略均衡到納什均衡是層層遞進(jìn)的,因此構(gòu)成納什均衡的戰(zhàn)略一定是重復(fù)剔除嚴(yán)格劣戰(zhàn)略過程中不能被剔除的戰(zhàn)略,。 設(shè)有 n 個(gè)參與人的戰(zhàn)略式表述博弈 為一個(gè)納什均衡,。如果對(duì)于每個(gè) i 來說 Si*是給定其他參與人選擇 的情況下的 i 個(gè)參與人的最優(yōu)戰(zhàn)略,即 純納什均衡可以通過劃線法得到,,通過以下例子感受一下: 首先假設(shè) A 選定 R1,,則 B 在該行選擇最優(yōu)的收益下劃線,同理分別選定 R2,、R3后假設(shè) B 選定 C1,,則 A 在該列選擇最優(yōu)的收益下劃線,再同理選定 C2,、C3,,最終可得出以下矩陣: 最終選擇下方有兩條線的為最優(yōu)策略,即表內(nèi)的(R1,C1)與(R1,C3),。 混合策略納什均衡 當(dāng)純納什均衡也無法得出時(shí),,不妨試試混合策略納什均衡:給各個(gè)策略加上概率!即反應(yīng)函數(shù)方法,。 以下列矩陣式為例,,假設(shè)策略 U 與策略 L 的選擇概率為 πu 與 πl(wèi)。 當(dāng) 時(shí)為最優(yōu)策略函數(shù),那么根據(jù)參與人 A 與參與人 B 的分別兩種假設(shè)情況帶入可以得出以下函數(shù): 結(jié)合兩個(gè)函數(shù)可得出: 即當(dāng) 時(shí)可得到納什均衡,。 據(jù)以上多個(gè)實(shí)例我們可以看出納什均衡是具有多重性的,,為了解決它的不唯一提出了許多均衡概念,如風(fēng)險(xiǎn)上策均衡,、焦點(diǎn)均衡,、防共謀均衡等(僅指靜態(tài)博弈)。 不完全信息靜態(tài)博弈—貝葉斯納什均衡不完全信息專指博弈中參與人對(duì)其他參與人與該博弈有關(guān)的事前信息了解不充分,,而不是博弈中產(chǎn)生的與局中人實(shí)際策略選擇有關(guān)的信息,。 *事前信息指關(guān)于在博弈實(shí)際開始之前局中人所處地位或者狀態(tài)的信息,這種地位與狀態(tài)對(duì)于博弈局勢(shì)會(huì)產(chǎn)生影響,。 博弈中的不完全信息具有多種形式,如參與人對(duì)其他參與人(或自己)所掌握的自然資源,、人力資源、商業(yè)經(jīng)驗(yàn),、決策能力的了解不充分,,對(duì)其他參與人偏好、品位,、可用策略的了解不完全,,對(duì)處于同一種博弈局勢(shì)的局中人的具體數(shù)目了解不完全等。 一個(gè)總結(jié):參與人對(duì)其他參與人的收益函數(shù)的不完全了解,。 了解完不完整信息接著看「不完全信息靜態(tài)博弈」,,它主要包含 5 個(gè)要素:
其中每個(gè)參與人都有一個(gè)類型空間及其在全體類型空間 上的概率分布、與其他參與人無關(guān)的策略集,、依賴于策略組合和自認(rèn)類型 的收益函數(shù),,只要滿足以上要素就是不完全信息靜態(tài)博弈(貝葉斯靜態(tài)博弈),表示為: 當(dāng)參與人 i 自身的類型為 時(shí),,他選擇策略 的期望收益為: 在不完全信息靜態(tài)博弈中,,若 是一個(gè)策略組合,且對(duì)每一個(gè) 和 都有: 則稱策略組合 是一個(gè)貝葉斯納什均衡,。
此博弈的收益表述如下: 顯然商人的類型有兩種: 其中前者為誠(chéng)實(shí),,后者為不誠(chéng)實(shí); 消費(fèi)者類型也有兩種: 其中前者為嗜酒,,后者為不嗜酒,。 并記商人的策略集為: 其中前者為高價(jià)賣酒,后者為低價(jià)賣酒,; 消費(fèi)者的策略集為: 其中前者為買酒,,后者為不買酒。 根據(jù)該城鎮(zhèn)歷年來的記載有如下的情況:
根據(jù)貝葉斯法則可得出: 設(shè)酒商在類型為 A1時(shí)混合策略為 類型為 A2 時(shí)混合策略為 消費(fèi)者在類型為 B1時(shí)的混合策略為 類型為B2時(shí)的混合策略為 根據(jù)收益表可得酒商在類型為 A1時(shí)兩種收益矩陣為: 根據(jù)上文所述公式可得出期望收益為: 并且需要滿足以下條件: 通過以上不等式可得出: 同理我們得出其它三種情況的不等式組分別為: 最后對(duì)這四個(gè)不等式組進(jìn)行聯(lián)合求解即可得出貝葉斯納什均衡,。其中引入依賴于策略組合和自認(rèn)類型ti的收益函數(shù)的方法被稱為海薩尼轉(zhuǎn)換。即在風(fēng)險(xiǎn)條件下,,參與人 B 雖然不知道參與人 A 的類型,,但可以知道不同類型的分布概率,將不確定性條件下的選擇轉(zhuǎn)換為風(fēng)險(xiǎn)條件下的選擇稱為海薩尼轉(zhuǎn)換,。 動(dòng)態(tài)博弈參與人的行動(dòng)有先后順序,,而且行動(dòng)在后者可以觀察到行動(dòng)在先者的選擇,并據(jù)此作出相應(yīng)的選擇的博弈稱為動(dòng)態(tài)博弈,,也叫「多階段博弈」,。 動(dòng)態(tài)博弈的困難在于,在前一刻最優(yōu)的決策在下一刻可能不再為最優(yōu),,因此在求解上發(fā)生很大的困難,,下棋就是經(jīng)典的動(dòng)態(tài)博弈案例。 動(dòng)態(tài)博弈根據(jù)信息是否完整分為完全信息動(dòng)態(tài)博弈與不完全信息動(dòng)態(tài)博弈,。 完全信息動(dòng)態(tài)博弈往往通過逆向歸納法求解得出子博弈精煉納什均衡,,逆向歸納法就是從動(dòng)態(tài)博弈的最后一個(gè)階段或最后一個(gè)子博弈開始,逐步向前倒推以求解動(dòng)態(tài)博弈均衡的方法,。對(duì)于擴(kuò)展式博弈的策略組合,,如果它是原博弈的納什均衡,并且在每一個(gè)子博弈上也都構(gòu)成納什均衡,,則它是一個(gè)子博弈精煉納什均衡,。 不完全信息動(dòng)態(tài)博弈得出的解稱為精煉貝葉斯均衡,,它是完全信息動(dòng)態(tài)博弈的精煉納什均衡與不完全信息靜態(tài)博弈的貝葉斯均衡的結(jié)合體。精煉貝葉斯均衡的要點(diǎn)在于參與人要根據(jù)所觀察到的其他參與人的行為來修正自己有關(guān)后者的「信念」,,即主觀概率,,并由此選擇自己的行動(dòng)策略。修正過程中使用的是貝葉斯規(guī)則,,即每個(gè)參與人都假定其他參與人選擇的是均衡戰(zhàn)略,。 |
|