新智元編譯 來源:J.P.Morgan 編譯:張易 弗格森 【新智元導(dǎo)讀】近日,微軟 AI 首席科學(xué)家鄧力加盟對沖基金公司 Citadel 再次引發(fā)了人們對于機(jī)器學(xué)習(xí)技術(shù)應(yīng)用于金融投資領(lǐng)域的關(guān)注,。J.P.摩根最新的280 頁研究報告《大數(shù)據(jù)和 AI 策略——面向投資的機(jī)器學(xué)習(xí)和另類數(shù)據(jù)方法》,,極為詳盡地梳理、評述,、預(yù)測了對沖基金和投資者使用機(jī)器學(xué)習(xí)技術(shù)利用,、分析另類數(shù)據(jù)的現(xiàn)狀與未來,對于一切關(guān)注這一新興大趨勢的人們,、一切投資者都有重要的借鑒意義,。我們節(jié)選介紹了這一長篇報告,,并提供了報告的下載。 在新智元微信公眾號回復(fù)“JP摩根”下載報告全文,。 大數(shù)據(jù),,特別是另類數(shù)據(jù)集的構(gòu)建和利用,已經(jīng)極大地改變了投資領(lǐng)域的面貌,。
對沖基金和其他經(jīng)驗豐富的投資者日益增加了對“另類數(shù)據(jù)”(alternative data)的消費,。只要可能影響投資決策但又不屬于市場統(tǒng)計數(shù)據(jù)和公司財報這類傳統(tǒng)信息的數(shù)據(jù)都稱為“另類數(shù)據(jù)”。
不過,,如果沒有內(nèi)行的數(shù)據(jù)科學(xué)家,,這類數(shù)據(jù)就難以使用,而且有時候并不可靠,。對沖基金只是在最近才能獲得衛(wèi)星圖像分析之類的數(shù)據(jù),,所以沒有多少歷史數(shù)據(jù)用來核實其價值。部分批評者認(rèn)為,,如此復(fù)雜的公司和經(jīng)濟(jì)分析方法的好處被夸大了,。
就在前不久,微軟AI首席科學(xué)家,、IEEE Fellow 鄧力離開微軟,,加盟對沖基金公司 Citadel,擔(dān)任首席人工智能官(Chief Artificial-Intelligence Officer),。這條消息再次引發(fā)了人們對于 AI 技術(shù),、尤其是機(jī)器學(xué)習(xí)技術(shù)在金融投資領(lǐng)域應(yīng)用的關(guān)注。
J.P.摩根最新的280 頁研究報告《大數(shù)據(jù)和 AI 策略——面向投資的機(jī)器學(xué)習(xí)和另類數(shù)據(jù)方法》,,極為詳盡地梳理,、評述、預(yù)測了對沖基金和投資者使用機(jī)器學(xué)習(xí)技術(shù)利用,、分析另類數(shù)據(jù)的現(xiàn)狀與未來,對于一切關(guān)注這一新興大趨勢的人們,、一切投資者都有重要的借鑒意義,。我們節(jié)選了這一長篇報告非常小的一部分介紹給讀者朋友們,并提供了報告的下載,。 大數(shù)據(jù)和機(jī)器學(xué)習(xí)“革命”:目前,聯(lián)網(wǎng)設(shè)備以電子方式獲得了大多數(shù)的記錄和觀察,。這原則上允許投資者實時訪問廣泛的市場相關(guān)數(shù)據(jù),。例如,可用于評估通貨膨脹數(shù)百萬項目的在線價格,,可以實時估計銷售量的商店訪問和交易的客戶數(shù)量,,可以評估石油鉆井平臺或農(nóng)業(yè)活動產(chǎn)量的衛(wèi)星圖像,。歷史上,類似的數(shù)據(jù)只能以低頻率(例如每月CPI,、每周鉆機(jī)數(shù)量,、美國農(nóng)業(yè)部作物報告、零售銷售報告和季度收入等)提供,。鑒于可用的數(shù)據(jù)量,,有經(jīng)驗的量化投資者在理論上可以接近獲得實時的某公司特定的數(shù)據(jù),而這些數(shù)據(jù)不能從傳統(tǒng)的數(shù)據(jù)源獲得,。在實踐中,,有用的數(shù)據(jù)不容易獲得,需要購買,,需要組織和分析另類數(shù)據(jù)集以提取可交易信號,。大型或非結(jié)構(gòu)化數(shù)據(jù)集的分析通常使用機(jī)器學(xué)習(xí)來完成。在設(shè)計定量策略方面,,成功應(yīng)用機(jī)器學(xué)習(xí)技術(shù)需要一定的理論知識和很多實踐經(jīng)驗,。
在苦苦追尋 Alpha (對于非金融領(lǐng)域的讀者,可以簡單地將 Alpha 理解為超額回報)的過程中,,基金經(jīng)理越來越多地采用量化策略,。另類數(shù)據(jù)的可用以及分析這些數(shù)據(jù)的新定量技術(shù)——機(jī)器學(xué)習(xí),正在成為競爭優(yōu)勢的新來源,。這種“數(shù)據(jù)的工業(yè)革命”旨在通過信息優(yōu)勢和發(fā)現(xiàn)新的不相關(guān)信號的能力來提供 Alpha,。大數(shù)據(jù)信息優(yōu)勢來自手機(jī)、衛(wèi)星,、社交媒體等新技術(shù)創(chuàng)造的數(shù)據(jù),。大數(shù)據(jù)的信息優(yōu)勢與專家、行業(yè)網(wǎng)絡(luò)甚至企業(yè)管理能力不直接相關(guān),,更多體現(xiàn)的是收集大量數(shù)據(jù)并實時分析數(shù)據(jù)的能力,。在這方面,大數(shù)據(jù)有能力深刻改變投資環(huán)境,,進(jìn)一步將投資行業(yè)趨勢從自由決定性轉(zhuǎn)變?yōu)榱炕顿Y風(fēng)格,。 有三個趨勢使大數(shù)據(jù)革命成為可能: 1)可用數(shù)據(jù)量的指數(shù)增加; 2)提高計算能力和數(shù)據(jù)存儲容量的成本降低,; 3)分析復(fù)雜數(shù)據(jù)集的機(jī)器學(xué)習(xí)方法取得了進(jìn)展,。
有許多經(jīng)常使用的概念可以用于描述大數(shù)據(jù),這里我們給出最簡明的用來描述大數(shù)據(jù)的維度: 大數(shù)據(jù)有三個重要的特征維度:
體量:通過記錄,、公報,、圖表、文件等等收集并存儲的數(shù)據(jù)的規(guī)模,大數(shù)據(jù)的“大”的下限正在持續(xù)升高,;
速度:數(shù)據(jù)的發(fā)送和接收速度經(jīng)常被作為大數(shù)據(jù)的顯著特征,。大數(shù)據(jù)能夠批量傳送;大數(shù)據(jù)的獲取是實時的,,或是接近實時的,。
多樣性:大數(shù)據(jù)經(jīng)常具有多樣性的形式——結(jié)構(gòu)化的(如SQL 表格或 CSV 文件),半結(jié)構(gòu)化的(如 JSON 或 HTML),,非結(jié)構(gòu)化的(如博客或視頻信息),。 在投資管理中,大數(shù)據(jù)革命的核心在于能夠提供具有信息優(yōu)勢的數(shù)據(jù)資源,。另類數(shù)據(jù)帶來的優(yōu)勢可能是在于發(fā)現(xiàn)傳統(tǒng)的信息源中沒有包含的新信息,,或者發(fā)現(xiàn)的是相同的信息,但是速度更快,,時間更早,。例如,礦井或者土地的衛(wèi)星圖片能夠在媒體或者官方報告前,,揭示供應(yīng)短缺,。
我們旨在提供大數(shù)據(jù)的框架或分類。首先,,我們根據(jù)數(shù)據(jù)的生成方式對數(shù)據(jù)進(jìn)行分類,。然后,我們考慮的是數(shù)據(jù)集的屬性,,也就是與投資專業(yè)直接相關(guān)的,,例如將數(shù)據(jù)集映射到資產(chǎn)類別或投資風(fēng)格,alpha內(nèi)容,,數(shù)據(jù)質(zhì)量,,技術(shù)規(guī)格等。
我們首先在高水平上對數(shù)據(jù)來源進(jìn)行分類,,指出它們到底是由個人(如社交媒體帖子)生成,,還是通過業(yè)務(wù)流程(如電子商務(wù)或信用卡交易數(shù)據(jù))生成,或由傳感器(比如衛(wèi)星圖片,、雷達(dá)等等)生成,。 上圖展示了這一分類。這種一方法擴(kuò)展了Kitchin(2015年)和聯(lián)合國報告(2015年)在非財務(wù)文本中早期的嘗試,。雖然這種分類法在某種程度上只是理論上的,,但是,,在分析這三個類型的數(shù)據(jù)時,,確實存在共同特征,分析方法和共同的挑戰(zhàn)。例如,,個人生成的數(shù)據(jù)通常是非結(jié)構(gòu)化的文本格式,,需要自然語言處理。傳感器生成的數(shù)據(jù)往往是非結(jié)構(gòu)化的,,并且可能需要分析技術(shù),,例如計數(shù)對象,或消除天氣/云從衛(wèi)星圖像的影響,。許多商業(yè)上生成的數(shù)據(jù)集,,如信用卡交易和公司的“廢棄”數(shù)據(jù)都面臨共同的法律和隱私問題。 在根據(jù)數(shù)據(jù)來源對數(shù)據(jù)進(jìn)行分類之后,,我們還要提供另一個投資人士可能更為感興趣的分類方法,。一個零售版塊的投資組合經(jīng)理可能更關(guān)心的是特定的銷售數(shù)據(jù),而無所謂它們是衛(wèi)星生成的還是消費者志愿填寫的,。高頻交易者關(guān)心每天產(chǎn)生的數(shù)據(jù),,比如推特、最新發(fā)布等等,,但不太關(guān)心有明顯延遲的信息,,比如信用卡數(shù)據(jù)。在下圖這個“投資分類”中,,我們?yōu)楦鞣N另類數(shù)據(jù)標(biāo)示了不同的屬性,,這些屬性和投資專業(yè)人士比如 CIO、投資組合經(jīng)理等高度相關(guān),。 大型和較少結(jié)構(gòu)化的數(shù)據(jù)集通常不能用簡單的電子表格工作和散點圖進(jìn)行分析,。我們需要新的方法來解決新數(shù)據(jù)集的復(fù)雜性和規(guī)模。例如,,使用金融分析師的標(biāo)準(zhǔn)工具不可能對非結(jié)構(gòu)化數(shù)據(jù)(如圖像,,社交媒體和新聞稿)進(jìn)行自動分析。即使在大型傳統(tǒng)數(shù)據(jù)集上,,使用簡單的線性回歸往往會導(dǎo)致過度擬合或不一致的結(jié)果,。機(jī)器學(xué)習(xí)方法可用于分析大數(shù)據(jù),以及更有效地分析傳統(tǒng)數(shù)據(jù)集,。
毫無疑問,,機(jī)器學(xué)習(xí)技術(shù)在應(yīng)用于圖像識別,模式識別,,自然語言處理以及自動駕駛汽車等復(fù)雜任務(wù)時,,產(chǎn)生了一些驚人的成果。那么,,機(jī)器學(xué)習(xí)在金融中的應(yīng)用是什么,,這些方法相互之間有何不同?
首先需要強(qiáng)調(diào),任務(wù)的自動化不是機(jī)器學(xué)習(xí),。我們可以指示計算機(jī)根據(jù)固定的規(guī)則執(zhí)行某些操作,。例如,如果資產(chǎn)價格下降了一定量(止損),,我們可以指示電腦出售資產(chǎn),。即使給機(jī)器(也稱為“符號人工智能”)大量復(fù)雜的規(guī)則,并不意味著就是機(jī)器學(xué)習(xí),,這只能說是任務(wù)的自動化,。使用這個“符號人工智能”,機(jī)器在遇到與此前預(yù)編程的規(guī)則不匹配的情況時,,只會選擇自我“凍結(jié)”,。
在機(jī)器學(xué)習(xí)中,給予計算機(jī)一個輸入(一組變量和數(shù)據(jù)集),,輸出是輸入變量的結(jié)果,。該機(jī)器然后發(fā)現(xiàn)或“學(xué)習(xí)”在輸入和輸出之間起到鏈接作用的規(guī)則。
最終,,這個學(xué)習(xí)任務(wù)的成功會被進(jìn)行“樣本外測試”,,也就是,在未知的情景下,,測試它所獲得的這種連接變量和可能的預(yù)測結(jié)果之間的關(guān)系能力,。 機(jī)器學(xué)習(xí)可以是監(jiān)督的或無監(jiān)督的。在監(jiān)督學(xué)習(xí)中,,我們試圖找到一個規(guī)則,,一個可以用來預(yù)測變量的“方程式”。例如,,我們可能想要尋找一種能夠預(yù)測未來市場表現(xiàn)的能力(趨勢跟蹤)信號,。這可以通過運行先進(jìn)的回歸模型來評估哪一個具有較高的預(yù)測能力,并且對于regime變化最為穩(wěn)定,。 在無監(jiān)督學(xué)習(xí)中,,我們發(fā)現(xiàn)了數(shù)據(jù)的結(jié)構(gòu)。例如,,我們可能獲得了市場回報,,現(xiàn)在嘗試確定回報的主要驅(qū)動力。例如,,一個成功的模式可能會揭示,,在某個時間點,市場受動量因素,、能源價格,、美元水平以及與流動性有關(guān)的新因素的驅(qū)動,。深度學(xué)習(xí)是一種機(jī)器學(xué)習(xí)方法,可以分析在多個層級上學(xué)習(xí)數(shù)據(jù)(因此“深度”),。 我們經(jīng)常說的自動化的目標(biāo)是執(zhí)行易于定義但執(zhí)行起來乏味的任務(wù),而深度學(xué)習(xí) AI 系統(tǒng)的目標(biāo)是執(zhí)行難以定義但易于執(zhí)行的任務(wù),。深度學(xué)習(xí)本質(zhì)上與人們學(xué)習(xí)的方式更相似,,因此是人為重建人類智慧的真正嘗試。
深度學(xué)習(xí)用于非結(jié)構(gòu)化大數(shù)據(jù)集的預(yù)處理(例如,,它用于計算衛(wèi)星圖像中的汽車,,識別新聞稿中的情緒等)。在假設(shè)的財務(wù)時間序列示例中,,深度學(xué)習(xí)預(yù)測(或估計)了市場修正的概率,。我們可以將大量的數(shù)據(jù)集輸入到深度學(xué)習(xí)模型中。該模型可能首先確定一些對市場產(chǎn)生負(fù)面影響的簡單特征,,例如動量崩潰,,波動性增加,流動性下降等,。這些因素單提出來可能不會導(dǎo)致市場糾正(market correction),。此外,算法可以識別這些簡單特征之間的模式和它們之間的非線性關(guān)系,。從這些模型中,,它可以構(gòu)建更復(fù)雜的特征,如EM 驅(qū)動災(zāi)難(EM driven crises),,財務(wù)壓力,,這些最終可能導(dǎo)致更為顯著的市場糾正(market correction)甚至衰退。 上圖顯示了交易策略中各種機(jī)器學(xué)習(xí)/人工智能及其潛在應(yīng)用,。最初,,先提供灰框中的步驟給算法(作為訓(xùn)練集的一部分),然后由機(jī)器學(xué)習(xí)算法生成綠色框中的步驟,。 鑒于風(fēng)險和不確定的回報,,許多投資者都在思考何時應(yīng)該采用更具量化性的、數(shù)據(jù)驅(qū)動型的投資方法,。首先我們簡要概述實施過程中的主要步驟(例如有多少需要外包,、內(nèi)部構(gòu)建大數(shù)據(jù)/機(jī)器學(xué)習(xí)所需的人才、典型的技術(shù)設(shè)置等等),。如下圖所示: 首先需要識別和獲取數(shù)據(jù),。數(shù)據(jù)采集團(tuán)隊可以直接通過數(shù)據(jù)所有者/供應(yīng)商或聚合第三方數(shù)據(jù)的專業(yè)公司(并與供應(yīng)商和最終用戶相匹配)來獲取新數(shù)據(jù)源的使用權(quán)。一旦許可協(xié)議到位,,數(shù)據(jù)需要存儲和預(yù)處理,。大數(shù)據(jù)很少呈現(xiàn)出干凈的形式,,一般都無法直接提供給機(jī)器學(xué)習(xí)算法使用。需要專門的團(tuán)隊預(yù)處理數(shù)據(jù)(例如檢測異常值,、缺失值等),。數(shù)據(jù)科學(xué)團(tuán)隊由量化研究人員組成,借助機(jī)器學(xué)習(xí),、反向測試策略和可視化技術(shù)分析數(shù)據(jù),,根據(jù)數(shù)據(jù)推導(dǎo)出可交易信號或見解。最后,,信號由投資組合經(jīng)理實施,,或者在某些情況下以自動化方式執(zhí)行(這將涉及到系統(tǒng)的另一層和將信號鏈接到執(zhí)行系統(tǒng)的軟件專家)。 我們認(rèn)為,,大數(shù)據(jù)與機(jī)器學(xué)習(xí)革命將深刻改變投資環(huán)境,。隨著越來越多的投資者采用大數(shù)據(jù),市場的反應(yīng)將更快,,并將越來越多地期待傳統(tǒng)或“舊”數(shù)據(jù)源,。這將為量化經(jīng)理和愿意采用和了解新數(shù)據(jù)集和分析方法的人們提供優(yōu)勢。那些不學(xué)習(xí),、拒絕進(jìn)化的人將面臨過時的風(fēng)險,。不管這些變化的時間表如何,我們認(rèn)為,,分析師,,投資組合經(jīng)理、交易者和首席信息官最終將不得不熟悉大數(shù)據(jù)和機(jī)器學(xué)習(xí)的發(fā)展和相關(guān)的交易策略,。
|
|