久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

淺談博弈論

 yh18 2018-09-19

生活中我們常常出現(xiàn)的打牌、猜拳,、下棋,、踢球等行為主題選擇策略并相互影響的過程可以稱之為博弈,博弈論則是指研究決策主體的行為發(fā)生直接相互作用時(shí)候的決策,,以及這種決策的均衡問題,。

博弈論通常用來進(jìn)行決策、均衡等目的,。

淺談博弈論

值得注意的是,,博弈模型只適用于行為主體之間的行動(dòng)決策會(huì)相互影響的情況,若制定決策時(shí)不考慮其他行為主體的反應(yīng)或力量,,則博弈模型不成立,。

舉個(gè)例子

??家裝市場(chǎng)上裝修公司之間的競(jìng)爭(zhēng)

??美國(guó)與前蘇聯(lián)的軍備競(jìng)賽

??聯(lián)通招募新員工

??一家電力公司在估計(jì)了未來 10 年對(duì)電力的需求后決定是否購(gòu)買一套新的發(fā)電機(jī)組


博弈有 6 大構(gòu)成要素:參與人 players、行動(dòng) actions,、信息 information,、策略 strategies、收益 payoffs,、均衡 equilibria,。接下來通過一個(gè)試驗(yàn)案例來形象地理解這些要素的定義。

舉個(gè)例子

假設(shè)每個(gè)人都被賜予一個(gè)相同的企業(yè),,生產(chǎn)相同的產(chǎn)品,。你要為你的產(chǎn)品定價(jià),每個(gè)人都有兩個(gè)選擇:

選擇高價(jià),,期望以高價(jià)維持利潤(rùn),;

選擇低價(jià),以價(jià)格優(yōu)勢(shì)得到高利潤(rùn),。

*每個(gè)人只能選擇一種經(jīng)營(yíng)方式

可以想象,,如果別人選擇高價(jià),而你選擇低價(jià),,你會(huì)得到比其他人更高的利潤(rùn),。但如果你們同時(shí)選擇低價(jià)則都只能得到較低的利潤(rùn)。若同時(shí)選擇高價(jià)同時(shí)得到較高的利潤(rùn),。


1# 信息

信息指參與人在博弈中的知識(shí),,特別是有關(guān)其他參與人(對(duì)手)的特征和行動(dòng)的知識(shí)。在上面的案例中所有人都知道的有兩個(gè)信息元素(完全信息),,生產(chǎn)方式 1 和生產(chǎn)方式 2 的內(nèi)容,。

信息在博弈中非常重要,最大程度影響著參與人策略的制定,,其余因素都是通過信息的方式輸入到參與者腦中,,并產(chǎn)生決策。

信息主要包括兩個(gè)方面:對(duì)博弈參與人的了解和對(duì)博弈過程的了解,,其中后者僅限于動(dòng)態(tài)博弈(下文會(huì)介紹分類),。根據(jù)這兩種類型的信息延伸出兩種特殊的概念:

  • 完全信息,每個(gè)參與人都知道其他所有參與人的特征(收益函數(shù)等),;
  • 完美信息,,所有參與人都知道博弈樹的結(jié)構(gòu)。


2# 策略

策略是博弈參與人選擇行動(dòng)的規(guī)則,,它決定參與人在什么時(shí)候選擇什么行動(dòng),。俗話說的「人不犯我,我不犯人,;人若犯我,,我必犯人」、「己所不欲,,勿施于人」,、「以眼還眼,以牙還牙」等都是指導(dǎo)行動(dòng)的規(guī)則,,即策略,。


3# 參與人

參與人是指做決策的個(gè)體。每個(gè)參與人的目標(biāo)都是通過選擇行動(dòng)來最大化自身的效用,。


4# 行動(dòng)

參與人 i 的行動(dòng)或活動(dòng),,以 ai表示所能做的某一個(gè)選擇,例如在上文的試驗(yàn)中,,每個(gè)人都可以選擇生產(chǎn)方式 1 和生產(chǎn)方式 2 這兩種行動(dòng),。其可以采用的所有行動(dòng)的集合稱為參與人 i 的行動(dòng)集,表示為:

淺談博弈論

5# 收益

收益指參與人從博弈中獲得的效用水平,,它是所有參與人的戰(zhàn)略或行動(dòng)的函數(shù),,是每個(gè)參與人真正關(guān)心的東西。每個(gè)人的收益都依賴于所有人的行動(dòng)選擇,。


6# 均衡

均衡是所有參與人的最優(yōu)戰(zhàn)略或者行動(dòng)的組合,,也就是博弈過程的解。

均衡是博弈論的核心,,它的發(fā)展代表了博弈論的發(fā)展,,均衡的定義與博弈的分類密切相關(guān)。

博弈主要有兩種表述方式,,戰(zhàn)略式與擴(kuò)展式,。

戰(zhàn)略式又稱策略式,一般用于參與人同時(shí)行動(dòng)的靜態(tài)博弈,,二人情況下就是常見的矩陣式表述,,如上文企業(yè)的高低價(jià)案例若兩個(gè)企業(yè)之間價(jià)格博弈用矩陣式可表達(dá)為:

淺談博弈論

擴(kuò)展式針對(duì)參與人行動(dòng)有先后順序的動(dòng)態(tài)博弈,,常見的是博弈樹表述(參與人個(gè)數(shù)不限)。仍然以第一個(gè)案例為原型,,假設(shè)兩個(gè)企業(yè)的產(chǎn)品要通過打折活動(dòng)促進(jìn)銷量,,企業(yè) B 根據(jù)企業(yè) A 的打折活動(dòng)情況決定是否打折,他們之間的博弈樹表述如下:

淺談博弈論

接下來通過博弈的分類深入了解它的概念,,如下表所示,,根據(jù)博弈的行動(dòng)順序與信息種類可以將它大致分為四類:

淺談博弈論


完全信息靜態(tài)博弈-納什均衡

完全信息靜態(tài)博弈指每個(gè)參與者了解所有對(duì)手的特性,且博弈在一個(gè)階段完成,。

對(duì)于完全信息靜態(tài)博弈的解一般都是納什均衡,,納什均衡是由所有參與人的最優(yōu)戰(zhàn)略組成的戰(zhàn)略組合。即在給定別人戰(zhàn)略的情況下,,沒有單個(gè)人有積極性打破這種選擇,,從而沒有任何人有積極性打破這種均衡。

經(jīng)典案例有囚徒困境,、智豬博弈等,。

囚徒困境

有兩位參與人演奏家與 Tom 面臨被警官抓捕審訊的場(chǎng)景,他們分別有兩種行動(dòng)策略:坦白與抵賴,。根據(jù)他們不同的行動(dòng)策略其收益如下:

兩人都坦白—各判刑 8 年,;

演奏家坦白, Tom 抵賴—演奏家釋放,, Tom 被判刑 10 年,,反之亦然;

兩人都抵賴—各判刑 1 年,。

根據(jù)以上信息用矩陣式表述如下表:

淺談博弈論

根據(jù)占優(yōu)策略來看,,選擇「坦白」對(duì)雙方各自的收益都是最佳的。所謂占優(yōu)策略就是不論別人怎么選擇,,這個(gè)策略都會(huì)給你帶來較好的結(jié)果,,但顯然根據(jù)此策略就會(huì)陷入囚徒困境的得到(-8,-8)的結(jié)果,,只有彼此信任合作均衡才能達(dá)到兩個(gè)人都抵賴的最小損失結(jié)果(-1,,-1)。

在現(xiàn)實(shí)生活的商業(yè)競(jìng)爭(zhēng)中經(jīng)常會(huì)遇到囚徒困境,,例如壟斷企業(yè)的價(jià)格選擇,。


智豬博弈

食槽在一端,開關(guān)按鈕在另一端,。每按一次按鈕有 10 個(gè)單位豬食進(jìn)槽,,但按鈕者需要付 2 個(gè)單位成本。一頭大豬與一頭小豬都有兩種行動(dòng)策略:按按鈕與等待。根據(jù)他們的不同選擇有以下收益:

大豬先到—大豬吃 9 單位,,小豬 1 單位,;

同時(shí)到—大豬吃 7 單位,小豬吃 3 單位,;

小豬先到,,大豬吃 6 單位,小豬 4 單位,。


此博弈的表述如下:

淺談博弈論

首先從小豬的兩種選擇收益來看,若小豬選擇「按」則它屬于絕對(duì)劣勢(shì),,因此排除該選項(xiàng),,接著可以看出最佳策略就是大豬「按」小豬「等待」的小豬先到選項(xiàng)。

智豬博弈通常應(yīng)用在公共產(chǎn)品的供給,、新技術(shù)或新產(chǎn)品的研發(fā)等現(xiàn)實(shí)場(chǎng)景,。通俗來講,正常情況下體量較小的公司不會(huì)付出太多成本進(jìn)行新技術(shù)的研發(fā),。

情侶博弈

一對(duì)情侶安排周末的活動(dòng),,兩人的愛好不同,男孩喜歡看足球比賽,,女孩想去看芭蕾舞,。根據(jù)不同選擇得出收益如下:

兩人一起看足球賽—男孩效用 2,女孩 1,;

兩人一起看芭蕾舞—男孩效用 1,,女孩 2;

各自去做自己喜歡的事—效用都是 0,。

此博弈的表述如下:

淺談博弈論

在情侶博弈的對(duì)局中,,雙方都沒有占優(yōu)策略,他們的最優(yōu)策略依賴于對(duì)方的選擇,。在這個(gè)對(duì)局中同時(shí)出現(xiàn)了兩個(gè)均衡,,這種均衡叫做納什均衡。

納什均衡是指在對(duì)手的策略是既定的情況下,,各個(gè)對(duì)局者所選擇的策略都是最好的,。納什均衡中有兩種特殊情況,分別為占優(yōu)戰(zhàn)略均衡與重復(fù)剔除的占優(yōu)均衡,。


占優(yōu)戰(zhàn)略均衡

在上文的囚徒困境中提到過,,「坦白」對(duì)于參與人雙方都是占優(yōu)戰(zhàn)略,因此(坦白,,坦白)是囚徒困境博弈中的占優(yōu)戰(zhàn)略均衡,。

從數(shù)學(xué)角度來看,定義 Si*為參與人 i 的嚴(yán)格占優(yōu)戰(zhàn)略,S-i為除了 i 外的參與者的策略選擇,。如果對(duì)所有的 S-i來說Si*是 i 的嚴(yán)格最優(yōu)選擇,,即

淺談博弈論

如果對(duì)所有的 i 來說 Si*是占優(yōu)戰(zhàn)略,那么

淺談博弈論

這種情況稱為占優(yōu)戰(zhàn)略均衡(dominant-strategy equilibrium),。


重復(fù)剔除的占優(yōu)均衡

在無法直接找出占優(yōu)戰(zhàn)略均衡的情況下,,我們可以找出某個(gè)參與人的劣戰(zhàn)略,把這個(gè)劣戰(zhàn)略剔除,,構(gòu)造一個(gè)新的博弈(不包含已剔除的戰(zhàn)略),;對(duì)新的博弈重復(fù)上述過程,直到只剩下唯一的一個(gè)戰(zhàn)略組合為止,,這個(gè)唯一剩下的戰(zhàn)略組合就是這個(gè)博弈的均衡解,,稱為「重復(fù)剔除的占優(yōu)均衡」。

如上文的智豬博弈案例,,它就是通過先排除小豬的絕對(duì)劣勢(shì)選項(xiàng),,進(jìn)而推斷出最終答案。

同樣用數(shù)學(xué)角度來看,,令Si'Si' 是參與人 i 可選擇的兩個(gè)戰(zhàn)略,,即

淺談博弈論

如果對(duì)任意的其他參與人的戰(zhàn)略組合 S-i,參與人 i 選擇 Si'得到的收益嚴(yán)格小于選擇 Si'得到的收益,,即

淺談博弈論

則我們說戰(zhàn)略 Si'嚴(yán)格劣于戰(zhàn)略 Si',。


納什均衡

從占優(yōu)戰(zhàn)略均衡到納什均衡是層層遞進(jìn)的,因此構(gòu)成納什均衡的戰(zhàn)略一定是重復(fù)剔除嚴(yán)格劣戰(zhàn)略過程中不能被剔除的戰(zhàn)略,。

設(shè)有 n 個(gè)參與人的戰(zhàn)略式表述博弈

淺談博弈論

淺談博弈論

為一個(gè)納什均衡,。如果對(duì)于每個(gè) i 來說 Si*是給定其他參與人選擇

淺談博弈論

的情況下的 i 個(gè)參與人的最優(yōu)戰(zhàn)略,即


淺談博弈論


淺談博弈論


純納什均衡可以通過劃線法得到,,通過以下例子感受一下:

淺談博弈論


首先假設(shè) A 選定 R1,,則 B 在該行選擇最優(yōu)的收益下劃線,同理分別選定 R2,、R3后假設(shè) B 選定 C1,,則 A 在該列選擇最優(yōu)的收益下劃線,再同理選定 C2,、C3,,最終可得出以下矩陣:

淺談博弈論

最終選擇下方有兩條線的為最優(yōu)策略,即表內(nèi)的(R1,C1)與(R1,C3),。


混合策略納什均衡

當(dāng)純納什均衡也無法得出時(shí),,不妨試試混合策略納什均衡:給各個(gè)策略加上概率!即反應(yīng)函數(shù)方法,。

以下列矩陣式為例,,假設(shè)策略 U 與策略 L 的選擇概率為 πuπl(wèi)

淺談博弈論

當(dāng)

淺談博弈論

時(shí)為最優(yōu)策略函數(shù),那么根據(jù)參與人 A 與參與人 B 的分別兩種假設(shè)情況帶入可以得出以下函數(shù):

淺談博弈論


淺談博弈論


淺談博弈論


淺談博弈論


結(jié)合兩個(gè)函數(shù)可得出:

淺談博弈論

即當(dāng)

淺談博弈論


淺談博弈論

時(shí)可得到納什均衡,。

據(jù)以上多個(gè)實(shí)例我們可以看出納什均衡是具有多重性的,,為了解決它的不唯一提出了許多均衡概念,如風(fēng)險(xiǎn)上策均衡,、焦點(diǎn)均衡,、防共謀均衡等(僅指靜態(tài)博弈)。


不完全信息靜態(tài)博弈—貝葉斯納什均衡

不完全信息專指博弈中參與人對(duì)其他參與人與該博弈有關(guān)的事前信息了解不充分,,而不是博弈中產(chǎn)生的與局中人實(shí)際策略選擇有關(guān)的信息,。

*事前信息指關(guān)于在博弈實(shí)際開始之前局中人所處地位或者狀態(tài)的信息,這種地位與狀態(tài)對(duì)于博弈局勢(shì)會(huì)產(chǎn)生影響,。

博弈中的不完全信息具有多種形式,如參與人對(duì)其他參與人(或自己)所掌握的自然資源,、人力資源、商業(yè)經(jīng)驗(yàn),、決策能力的了解不充分,,對(duì)其他參與人偏好、品位,、可用策略的了解不完全,,對(duì)處于同一種博弈局勢(shì)的局中人的具體數(shù)目了解不完全等。

一個(gè)總結(jié):參與人對(duì)其他參與人的收益函數(shù)的不完全了解,。

了解完不完整信息接著看「不完全信息靜態(tài)博弈」,,它主要包含 5 個(gè)要素:

  • 參與人集合

淺談博弈論


  • 類型空間

淺談博弈論


  • 概率分布

淺談博弈論


  • 策略集

淺談博弈論


  • 收益函數(shù)

淺談博弈論


其中每個(gè)參與人都有一個(gè)類型空間及其在全體類型空間

淺談博弈論

上的概率分布、與其他參與人無關(guān)的策略集,、依賴于策略組合和自認(rèn)類型

淺談博弈論

的收益函數(shù),,只要滿足以上要素就是不完全信息靜態(tài)博弈(貝葉斯靜態(tài)博弈),表示為:


淺談博弈論


當(dāng)參與人 i 自身的類型為

淺談博弈論

時(shí),,他選擇策略

淺談博弈論

的期望收益為:


淺談博弈論


在不完全信息靜態(tài)博弈中,,若

淺談博弈論

是一個(gè)策略組合,且對(duì)每一個(gè)

淺談博弈論

淺談博弈論

都有:


淺談博弈論



則稱策略組合

淺談博弈論

是一個(gè)貝葉斯納什均衡,。

酒商與顧客的博弈

一商人到某城鎮(zhèn)去賣酒,,該商人可能是誠(chéng)實(shí)的,賣好酒,;也可能是不誠(chéng)實(shí)的,,賣假酒,酒商有加強(qiáng)宣傳賣高價(jià)和只賣低價(jià)兩個(gè)策略,。而該城鎮(zhèn)中的消費(fèi)者也有兩類,,有飲酒嗜好和無此嗜好的,他們有買酒和不買酒兩個(gè)策略,。

商人不知道來買酒的消費(fèi)者是否嗜酒,而消費(fèi)者也不知道商人是否誠(chéng)實(shí),。


此博弈的收益表述如下:

淺談博弈論


顯然商人的類型有兩種:

淺談博弈論

其中前者為誠(chéng)實(shí),,后者為不誠(chéng)實(shí);

消費(fèi)者類型也有兩種:

淺談博弈論

其中前者為嗜酒,,后者為不嗜酒,。

并記商人的策略集為:

淺談博弈論

其中前者為高價(jià)賣酒,后者為低價(jià)賣酒,;

消費(fèi)者的策略集為:

淺談博弈論

其中前者為買酒,,后者為不買酒。

根據(jù)該城鎮(zhèn)歷年來的記載有如下的情況:

  • 嗜酒者遇到誠(chéng)實(shí)商人的概率為 0.2,,

淺談博弈論

  • 嗜酒者遇到不誠(chéng)實(shí)商人的概率為 0.4,,

淺談博弈論

  • 不嗜酒者遇到誠(chéng)實(shí)商人的概率為 0.1,

淺談博弈論

  • 不嗜酒者遇到不誠(chéng)實(shí)商人的概率為 0.3,,

淺談博弈論

根據(jù)貝葉斯法則可得出:

淺談博弈論


淺談博弈論

設(shè)酒商在類型為 A1時(shí)混合策略為

淺談博弈論

類型為 A2 時(shí)混合策略為

淺談博弈論

消費(fèi)者在類型為 B1時(shí)的混合策略為

淺談博弈論

類型為B2時(shí)的混合策略為

淺談博弈論

根據(jù)收益表可得酒商在類型為 A1時(shí)兩種收益矩陣為:


淺談博弈論

根據(jù)上文所述公式可得出期望收益為:


淺談博弈論

并且需要滿足以下條件:

淺談博弈論

通過以上不等式可得出:


淺談博弈論

同理我們得出其它三種情況的不等式組分別為:

淺談博弈論


淺談博弈論


淺談博弈論


最后對(duì)這四個(gè)不等式組進(jìn)行聯(lián)合求解即可得出貝葉斯納什均衡,。其中引入依賴于策略組合和自認(rèn)類型ti的收益函數(shù)的方法被稱為海薩尼轉(zhuǎn)換。即在風(fēng)險(xiǎn)條件下,,參與人 B 雖然不知道參與人 A 的類型,,但可以知道不同類型的分布概率,將不確定性條件下的選擇轉(zhuǎn)換為風(fēng)險(xiǎn)條件下的選擇稱為海薩尼轉(zhuǎn)換,。


動(dòng)態(tài)博弈

參與人的行動(dòng)有先后順序,,而且行動(dòng)在后者可以觀察到行動(dòng)在先者的選擇,并據(jù)此作出相應(yīng)的選擇的博弈稱為動(dòng)態(tài)博弈,,也叫「多階段博弈」,。

動(dòng)態(tài)博弈的困難在于,在前一刻最優(yōu)的決策在下一刻可能不再為最優(yōu),,因此在求解上發(fā)生很大的困難,,下棋就是經(jīng)典的動(dòng)態(tài)博弈案例。

動(dòng)態(tài)博弈根據(jù)信息是否完整分為完全信息動(dòng)態(tài)博弈不完全信息動(dòng)態(tài)博弈,。

完全信息動(dòng)態(tài)博弈往往通過逆向歸納法求解得出子博弈精煉納什均衡,,逆向歸納法就是從動(dòng)態(tài)博弈的最后一個(gè)階段或最后一個(gè)子博弈開始,逐步向前倒推以求解動(dòng)態(tài)博弈均衡的方法,。對(duì)于擴(kuò)展式博弈的策略組合,,如果它是原博弈的納什均衡,并且在每一個(gè)子博弈上也都構(gòu)成納什均衡,,則它是一個(gè)子博弈精煉納什均衡,。

不完全信息動(dòng)態(tài)博弈得出的解稱為精煉貝葉斯均衡,,它是完全信息動(dòng)態(tài)博弈的精煉納什均衡與不完全信息靜態(tài)博弈的貝葉斯均衡的結(jié)合體。精煉貝葉斯均衡的要點(diǎn)在于參與人要根據(jù)所觀察到的其他參與人的行為來修正自己有關(guān)后者的「信念」,,即主觀概率,,并由此選擇自己的行動(dòng)策略。修正過程中使用的是貝葉斯規(guī)則,,即每個(gè)參與人都假定其他參與人選擇的是均衡戰(zhàn)略,。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào),。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多