(本文根據(jù)作者在某咨詢公司的講座整理) 三個迷信在講具體的技術(shù)之前,我想先說說關(guān)于人工智能的三個迷信,。 第一個迷信,,因為AlphaGo 戰(zhàn)勝了圍棋冠軍,所以 AI 也可以做 XYZ(比如炒股),。可事實是,,AlphaGo 只是 AI 的極小的一個分支。AI 總體還是處于“有多少人工就有多少智能”的水平,。 第二個迷信,,因為機器效率高,所以效率低的人會被機器消滅掉,。我一開始也是這樣想的,,但是后來我發(fā)現(xiàn)并不是這樣的。比如說計算器,,計算器做加減乘除是比所有的人做得效率都高的,。但會計并沒有因為計算器而失業(yè)。恰恰相反,,現(xiàn)在這個時刻,,可能是人類歷史上會計最多的一個時刻,未來還有可能更多,。能被機器取代的,,是完全的機械工作,就像工廠里的機器人那種工作,,月工資2000塊錢以下的那種工作,。大多數(shù)的工作還是需要創(chuàng)造力的,至少需要有一部分的創(chuàng)造力,。當機器提高了工作效率之后,,實際上是使得擁有這種技能的人反而被增強了,而不是被替代了,。所以在我看來,,分析師肯定不會被機器替代掉,而是隨著機器能力的上升,,分析師的人數(shù)將來會越來越多,。 第三個迷信,即人工智能應(yīng)用就要搞深度學習,。我前兩天去拜訪一個客戶的時候,,他們問我人工智能是什么?怎么能夠應(yīng)用到金融分析,?我給他看了一堆列表,,他看完了之后,,覺得這不是人工智能,因為據(jù)他所知人工智能就是深度學習,。甚至很多人會把關(guān)系顛倒過來,,認為機器學習是深度學習的一個分支??赡茏罱鼉赡昀锩?,在媒體里到處都是這樣的報道,所以產(chǎn)生這樣的誤解,。但是在人工智能的幾個學派里面,,神經(jīng)網(wǎng)絡(luò)只是其中的一個學派,我們稱為連接主義學派,。深度學習又只是連接主義學派當中的一個細小的分支,。任何一個項目通常都不是一種算法能夠完成的,而是很多種算法集合在一起才能做成的,。人工智能有4個不同的主義,其中一個是連接主義的神經(jīng)網(wǎng)絡(luò),;再有一個是理性主義,,就是邏輯的那一套;還有經(jīng)驗主義,,是機器學習那一套,;但這些主義,都沒有最后一個主義厲害,,我管它叫媒體主義,,媒體說的AI其實是我們根本還做不到的。 金融報告是什么言歸正傳,,回到今天我們的主題——金融報告能不能自動化以及怎么自動化,。首先要確認有哪些東西可以稱為金融報告。 第一種是信息披露報告,,有股轉(zhuǎn)書,,有做債的報告,有貸款的報告,。新三板,、A股、美股都有招股說明書,、股轉(zhuǎn)書,,這是信息披露類型的報告。還有年報,、季報等等,,全球每年有幾百萬份,。 第二種就是研究報告,基于這些公開的材料,,我們再做一些加工,,有賣方的券商的報告,有買方的基金的報告,,還有中介機構(gòu),、咨詢公司的報告。 第三種報告,,我稱為摘要型的報告,。在各個大的券商,微信群里面,,每天都會發(fā),,比如說分行業(yè)、計算機行業(yè),、汽車行業(yè),,發(fā)生了很多事情,做一個每天的摘要這樣一個報告,。巨潮網(wǎng)每天也都會發(fā),,早上發(fā)、中午發(fā),、晚上發(fā),,重要公告列表,這是一種公告摘要,。還有一種是日常的跟蹤報告,,有按天的、有按小時的,,有按月的,、按周的,報盤的新聞,,在很多的財經(jīng)媒體上,,這種股票走勢、大盤走勢,,這種行為都是機器人寫的,。再有一種就是企業(yè)的信息圖、基本要素的分析,,很多剛?cè)胄械姆治鰩?、實習生,每天都在寫這種東西,把這個企業(yè)拿過來看一下,,基本亮點是什么,,股轉(zhuǎn)書里面弄一個PPT出來,寫這種東西,。 最后一種,,我把它稱為陳述性的文章。我把所有前面不能夠囊括的東西都歸在這個里面了,,各種各樣的新聞,,背景介紹、公司介紹,、行業(yè)介紹,,或者介紹一個新公司。比如,,做鋰電池的,,鋰電池是什么?等等信息,。然后深度進行觀點分析,,我認為這件事情是什么樣的,展開講述,。最后就是八卦,,比如“金融八卦女”。像八卦這個東西,,機器人肯定替代不了。 前面這些東西,,哪些是機器可以取代的,,這就是我們今天要討論的話題。 人 vs 機器分析師和記者會失業(yè)嗎,?如果要有一個簡短的回答就是:NO,。當然,實際情況并不是這么簡單,,因為分析師和記者,,他們做的事情可以分為很多維度,有些維度的的確確是機器可以去做的,。 分析師和記者到底在做什么事情,?我們把東西整個抽象起來就是三步,第一步信息獲取,,第二步信息加工,,第三步發(fā)布出去。舉一個例子,對一個企業(yè)做一個分析,,我們通過某種渠道來找到這個信息的發(fā)源地,,可能是股轉(zhuǎn)書,或者是公司的路演材料等等,,我們進行分析,,這是案頭的工作,還有一種是非案頭的工作,,打電話跟董事長聊,,去見他的董秘跟他聊,然后自己做分析達到一個結(jié)果,,這是一個一般的流程,。這里面肯定有一部分工作是機器目前還沒有辦法做的,比如說盡職調(diào)查這個過程,,打電話的過程,。機器能先在案頭工作這一部分提高我們的效率。但最關(guān)鍵的東西就是 Insights,,是機器人不能做的,。人為什么能夠做好這件事情?因為我們能夠有 Insights,,有洞察,,人能夠發(fā)現(xiàn)事情背后的一些聯(lián)系,這是之所以需要人類分析師的原因,。 我們對比來看,,人的報告和機器的報告。 第一點,,人的報告的優(yōu)點是語言流暢,。當然也不是絕對的,我看過一個股轉(zhuǎn)書里面有大量的語法錯誤,,所以被股轉(zhuǎn)中心給打回來了,。但總的來說,人的語言比機器的語言是要流暢很多的,。 第二點,,內(nèi)容相對來講比較豐富。因為機器能做的還很有限,,它輸入的是什么,,說出的就是什么。人可以發(fā)現(xiàn)很多種不同的相關(guān)的因素,。比如說像我們最近在看某咨詢機構(gòu)的報告,,假如只是從內(nèi)容的角度來看,,50頁紙的報告里,我們評估下來,,應(yīng)該是90%以上的內(nèi)容是機器沒有辦法生成的,,這可能讓大家(分析師們)更加放心一點。就是說如果僅僅只是從內(nèi)容本身以及公開材料的獲取的角度來說,,機器現(xiàn)在還沒有辦法替代人在內(nèi)容組織上的優(yōu)勢,。 第三個,人有豐富的Insights,。我們?nèi)瞬粌H可以發(fā)現(xiàn) Insights,,還可以關(guān)聯(lián) Insights。 機器的優(yōu)點在哪里,?快,,非常非常快,,一天24小時可以不間斷地工作,,一秒鐘就會做出一個報告,這是人做不到的事情,。內(nèi)容,,它也可以相對集中。人無法收集到太多信息,,但是機器可以幾萬份報告全部扒過來,,然后從里面挑東西。簡單的分析羅列,,在量上面,,機器可以做得更好。 背后的技術(shù)如果用機器來做,,涉及到哪些技術(shù),?我們把它大概分成三部分內(nèi)容。 輸入的時候是一些原始數(shù)據(jù),。這些原始數(shù)據(jù)有些是結(jié)構(gòu)化數(shù)據(jù),但我們現(xiàn)在面臨更大量的是非結(jié)構(gòu)化的數(shù)據(jù),,各種各樣的文本,。我們會進行自然語言理解(Nature Language Understanding),生成相對而言結(jié)構(gòu)化的數(shù)據(jù),。這個結(jié)構(gòu)化的數(shù)據(jù),,跟大家數(shù)據(jù)庫用到的結(jié)構(gòu)化數(shù)據(jù)不是完全一樣的。因為如果我們想把數(shù)據(jù)完全去歸約成結(jié)構(gòu)化的數(shù)據(jù),,比如把一個公司的財報全部變成數(shù)據(jù)庫的模式,,成本是非常高的。我們在每一步處理都會犯很多錯誤,為了糾正這些錯誤,,會需要大量的工程性投入,。通常我們?yōu)榱私档凸こ坛杀荆诮Y(jié)構(gòu)化的時候,,會滿足一定終止條件,,比如到某個力度不往下分了,比如說段落,,會停留在這里,,這個段落會打標簽,這些標簽又是結(jié)構(gòu)化的數(shù)據(jù),。通常這里的結(jié)構(gòu)化數(shù)據(jù)是根據(jù)我們在這個場景下面的預(yù)算來決定的,。 有了結(jié)構(gòu)化數(shù)據(jù)之后,我們重新把它變成人容易理解的語言,,這個過程叫自然語言生成(Nature Language Generation),。從數(shù)據(jù)變成文本,還有另外一種就是從數(shù)據(jù)變成圖像,,圖形可視化,。大家天天都在用 Excel,或者其他的東西來進行可視化,。把這些文字和這些圖表結(jié)合在一起,,就會形成一篇文章,這是一般的流程,。 我們先看第一步的非常簡化的一個示意,,我們輸入各種數(shù)據(jù),有PDF的,、XBRL的半結(jié)構(gòu)化金融報表,,EXCEL的、WORD的拿過來進行分析,。得到了相對而言干凈的數(shù)據(jù),。什么叫干凈?這個干凈與否,,主要是對機器而言,,那些機器很難處理的數(shù)據(jù),我們通常把它稱為臟數(shù)據(jù),,機器相對而言比較容易處理的數(shù)據(jù),,我們稱為干凈數(shù)據(jù)。我對股轉(zhuǎn)書比較熟悉,,對新三板的股轉(zhuǎn)書,,里面有7%的股轉(zhuǎn)書是掃描件,,這種掃描件,我們把它稱為臟數(shù)據(jù),。我們要花巨大的精力來做數(shù)據(jù)清洗工作,。還有大量的重復(fù),比如說券商的報告,。券商去年發(fā)布了18萬份報告,,其中大量是重復(fù)的東西,他們的晨報,,在每個平臺都發(fā)一遍,。所以我們要做去重工作。還有就是數(shù)據(jù)排序,,按照各種各樣數(shù)據(jù)的質(zhì)量,、重要性來探尋。 做完數(shù)據(jù)清洗,,這最難的一步,,可能80%的工作就做完了。下一步,,就是進一步去做結(jié)構(gòu)化的提升,。主要就是實體的發(fā)現(xiàn)和關(guān)系的發(fā)現(xiàn)。什么是實體,?公司,、人、產(chǎn)品,,每個東西都是一個實體(Entity),。實體和實體之間是有關(guān)系的,萬事萬物之間都有關(guān)系,,最后構(gòu)成了一個圖(Graph),。這是一個基本的過程。 自然語言生成有三種常見方法,。一種是基于模板的方法,,是非常簡單的方法??梢哉f它不需要太高深的技術(shù),,非常多的機構(gòu)都已經(jīng)在用了??赡艽蠹覜]有注意到,很多財經(jīng)媒體在好幾年之前,,就已經(jīng)在用模板,,做報盤數(shù)據(jù),、跟蹤的報告。這幾年基于模板的方法得到了長足的進步,,因為以前用人來寫模板,,只能寫幾十個模板、幾百個模板,,所以那個句子一眼就看得出來,,就那么幾種編寫。現(xiàn)在大家可以用機器學習來生成這些模板,,通過學習海量的已有文檔,,發(fā)現(xiàn)以前人是怎么描述這些事,機器生成成千上萬的模板,,所以現(xiàn)在的句子就寫得越來越好看,。 下一種方法是基于知識圖譜的方法,比上面一種稍微進步一點,。前面這種一般是填表,,基于知識圖譜相對而言要復(fù)雜一點,要做一個推理而不是直接的句子,、直接的詞和詞,,數(shù)字到數(shù)字的過程。下面給了個例子,,比如說這是從兩個不同的數(shù)據(jù)源來,,一個數(shù)據(jù)源說,這個公司的主營業(yè)務(wù)是汽車的涂料生產(chǎn),。第二個數(shù)據(jù)源說,,汽車的銷售量在下降。在這個過程中,,我們要做一個推理,,汽車銷量下降,意味著汽車涂料也可能會下降,,有可能這個公司的主營業(yè)務(wù)會下降,。但這個邏輯不是100%的,只是說存在這樣一個推理途徑,,我們可以推理出來,,這個事情還沒有發(fā)生。機器是可以寫出這樣的話,,是因為背后我們有推理機,。 第三種方法是機器學習。現(xiàn)在的方法,,不僅僅局限于學習模板,,很多時候是直接把句子拿過來用,,往大了說,現(xiàn)在有很多機器學習和深度學習的問答系統(tǒng),。輸出一個問題,,回答一個這樣的句子,這些句子并不是機器生成的,,而是機器從浩如煙海的人類文檔里面把它提取出來,。這種方法的前提是什么?是要有海量的數(shù)據(jù),。所以這種方法一般只適用于Web頭部的搜索,,一些細分的領(lǐng)域是沒有辦法去做的。 我們現(xiàn)在正在做公告摘要,,是報告的其中一個模塊,。之所以提出來,是因為它是兩種不同方法的混合,。我在一開始的時候也提到了,,人工智能方法不止一種。我們通常是用多種方法進行混合來解決問題的,。在這里,,我們綜合運用深度學習的方法和知識圖譜的方法。我們會在公告的處理上,,首先用深度學習來進行句子層面的解析,,全面訓練句子并打標簽,這是用深度學習的方法來做的,。有了這些句子層面的數(shù)據(jù)和所謂的元數(shù)據(jù)之后,,我們在知識圖譜上面進行一個標注,,因為所有的標簽背后都是有關(guān)系的,。這個關(guān)系就是知識圖譜,最終基于此我們來生成公告摘要,。之后我會給一些例子,。 知識圖譜接下來具體講一下知識圖譜。知識圖譜用一句話來說就是圖譜,,即圖(Graph),。在座每一位都學過如何畫畫,就知道知識圖譜是什么了,。困難在哪里,?人畫圖和讓機器來理解圖是不一樣的。讓機器去存儲幾張圖和讓機器去存儲幾萬張、幾千萬張圖,,也是不一樣的,。所以在工程上,我們僅僅為了解決圖的提取,、表達、存儲,、檢索這幾件事情,,就不得不發(fā)明一整套的方法來做。知識圖譜技術(shù),,并不是從天上掉下來的,,實際上它是基于過去二三十年時間,幾個不同的細分領(lǐng)域的發(fā)展,。后來,,大概在五年之前,它們交匯在一起,,所以我們給它一個新的名字叫知識圖譜,。它大概有4個不同的分支: 第一個分支是從傳統(tǒng)的自然語言處理發(fā)展來,叫做知識提取,。它主要研究如何從各種各樣的文本里,,把知識的結(jié)構(gòu)發(fā)現(xiàn)出來。 第二塊叫知識表現(xiàn),。研究怎么讓機器更好的表達圖譜,。我們有一個任務(wù)叫做推理。推理在數(shù)學上嚴格的表述,,實際上是當圖上面有一些邊之后,,如何發(fā)現(xiàn)新的邊,這個過程就是推理,。推理有非常多的變種,,但是你把它抽象了看,其實就是在講圖上推導邊,。怎么去做這種推理,,怎么去做這種圖在計算機里的表示,怎么樣的方法是最高效的,,最不容易犯錯誤的,,這個研究領(lǐng)域就稱為知識表現(xiàn)。在研究過程中,,我們產(chǎn)生了很多好東西,,把它稱為知識庫。比如說 Wikipedia 或者百度百科,,我們?nèi)タ吹臅r候,,在它的右邊有一個叫做 Infobox的邊欄,。比如說我們查北京,在 Wikipedia 上就會有北京的人口,、經(jīng)度,、緯度等等,實際上它是一個很簡單的表格,。這些表格以前是人來看的,。后來就有人說,為什么不把這個東西變成一個機器可以讀的格式呢,?于是就有好幾撥人來做 Wikipedia 知識圖譜的構(gòu)造,,后來在德國的一些大學里,他們做了一個項目叫 DBpedia,,后來在美國有個公司叫 Metaweb,,他們做了一套叫 Freebase,這些所有的系統(tǒng)都是在說我們怎么去方便用機器來進行知識的表示,,后來 Freebase 被谷歌給買了之后,,改成谷歌知識圖譜,這是2012年的事情,。 第三部分是知識存儲,。當我們有了海量的知識以后,如何放在計算機里面,,讓數(shù)據(jù)庫能夠更好地存儲和表達呢,?傳統(tǒng)的數(shù)據(jù)庫是關(guān)系型的數(shù)據(jù)庫,一張一張的表?,F(xiàn)在我們要面臨的不是一個簡單的關(guān)系,,表的兩列之間可能有關(guān)系,表的兩行之間可能還有關(guān)系,,表的每一個格子和每個格子都可以有關(guān)系,。所以說它很難用傳統(tǒng)的關(guān)系數(shù)據(jù)庫或EXCEL來表示,所以又興起了一系列的新數(shù)據(jù)庫,。比如圖數(shù)據(jù)庫,,還有像RDF數(shù)據(jù)庫,根據(jù)不同的應(yīng)用,,我們會選擇不同的數(shù)據(jù)庫,。 最后一塊叫知識檢索,從最低層面的大家常見的關(guān)鍵詞的檢索,,到最高層面的問答系統(tǒng)的檢索,,中間有很多不同的環(huán)節(jié)。這一塊就是在講,我現(xiàn)在有了一大堆的知識在我的數(shù)據(jù)庫里頭,,怎么發(fā)現(xiàn)它,,這一塊基本上是從搜索引擎的研究里邊分出來的。 大概在2012年前后,,這4個領(lǐng)域都都遇到了瓶頸,,都發(fā)現(xiàn)知識是如此的重要,發(fā)現(xiàn)解決方案就是知識的處理,,于是融合成新一個領(lǐng)域叫知識圖譜,。 數(shù)據(jù)的遞進數(shù)據(jù)的遞進可以大致分為六層。從原始的數(shù)據(jù),,比如說我們從巨潮網(wǎng)上看到的那些公告數(shù)據(jù),或者是我們從客戶那里拿到的原始的財務(wù)報表,,到最后我們能夠“變魔術(shù)”,,中間有一級一級、數(shù)據(jù)質(zhì)量不斷提升的過程,。這個魔術(shù)會根據(jù)不同的場景變化,。比如說并購,假如一個海外公司委托我們分析國內(nèi)哪家公司是最值得并購的,,我們就能告訴他這個公司的名字,,這是魔術(shù)。又比如說散戶,,他要投資,,希望你告訴他哪支股票買了可以漲,這也是魔術(shù),。但是不管是人還是機器,,現(xiàn)在都沒有辦法通過這些數(shù)據(jù)立即得出結(jié)論。我們需要一步一步分析,,每一步的分析背后還要有證據(jù),。我們需要一步一步地去發(fā)現(xiàn)數(shù)據(jù)背后的關(guān)系,提高數(shù)據(jù)背后的質(zhì)量,。 其實在沒有這些東西的時候,,比如說100年前,那時候也是要做投資的,,所有這些數(shù)據(jù)全都沒有,,大家怎么做?當時也有辦法,。人是有直覺的,,人是有經(jīng)驗的,人是有人脈的。我聽說李四說這個股票會漲,,這個股票肯定會漲,。這是當時的方法。100年前的股市,,就是投機分析,。后來大家慢慢地變得更加理性了,慢慢地發(fā)現(xiàn)我們需要信息披露,,慢慢地需要進行審計了,,包括這些年隨著信息化的成熟,大數(shù)據(jù)技術(shù),,各種信息的自動化,,一級級地把數(shù)據(jù)質(zhì)量提升上去,每提升一級數(shù)據(jù)質(zhì)量之后,,人做判斷的時候,,就沒有必要完全依靠非數(shù)字的物理世界的經(jīng)驗和人脈來做。我們每多一些數(shù)據(jù),,都可以加快我們的分析的速度,、效率。 分析的遞進分析技術(shù)也分為六層來討論,。 第一層在我看來就是提高數(shù)據(jù)的可訪問性問題,。現(xiàn)在我們有大量的數(shù)據(jù)是在每個企業(yè)自己的墻里邊的,在每一個部門,,每一個組織,,都有一道信息墻。每一個組織內(nèi)部都有自己的數(shù)據(jù)的不同的格式,,各種處理的流程,。很多數(shù)據(jù)壁壘問題,我們也很難僅僅通過技術(shù)的手段就能夠解決,,但是還是存在大量的事情我們可以做得更好,。比如說那些PDF的數(shù)據(jù),在美國的SEC網(wǎng)站(https://www./)上,,你可以下載到所有的公司結(jié)構(gòu)化的數(shù)據(jù),,但在中國是沒有的。我們就需要從PDF里面把這些數(shù)據(jù)搜索出來,,這個事情技術(shù)上是可行的,,因為我們能做到,這就是在進行數(shù)據(jù)的可訪問性的探索,。包括有一個工具叫 TuShare(http:///),,在座很多人可能也用過,,它就做了一件很好的事情,把分散在很多地方的數(shù)據(jù)變成一個統(tǒng)一的API,。大家做量化的,,或者做投資的、做分析的,,都可以用它那個API來訪問數(shù)據(jù),,這也是提高數(shù)據(jù)的可訪問性。 第二層就是數(shù)據(jù)的可發(fā)現(xiàn)性,。現(xiàn)在我們有數(shù)據(jù)了,,問題就來了,太多數(shù)據(jù)怎么辦,?根本找不到,。如何提高數(shù)據(jù)的信噪比,這是數(shù)據(jù)的可發(fā)現(xiàn)性問題,。我們有搜索引擎的技術(shù),、推薦系統(tǒng)的技術(shù)、推送系統(tǒng)的技術(shù),,可以解決這些問題。 第三層,,深度的關(guān)系的發(fā)現(xiàn),。現(xiàn)在我已經(jīng)有數(shù)據(jù)了,數(shù)據(jù)背后是什么,?當我發(fā)現(xiàn)這個企業(yè)有很多問題,,我就要想,這個股東是一個有限合伙人,,這個有限合伙真實的股東是誰,?一直追溯到自然人,這就是一個典型的關(guān)系的發(fā)現(xiàn),。 第四個層面是在講領(lǐng)域知識的集成,。因為在我們進行分析的時候,通常我們是會針對比如說一個垂直行業(yè)來做,,做行業(yè)分析的時候,,我們都會看每一個行業(yè),鋰電池有鋰電池的邏輯,,珠寶有珠寶的行情,。每個領(lǐng)域里頭都有大量的專有名詞,大量的人的關(guān)系,、公司的關(guān)系,,我們把所有的這些關(guān)系都稱為領(lǐng)域知識,。這塊會有各種知識庫構(gòu)造的工具方法需要我們?nèi)ヌ剿鳌?/span> 第五層就是業(yè)務(wù)知識的集成。比如說我們要進行股票投資的時候,,不管是長期的投資,,還是短期的投機,其實都是有大量前人已經(jīng)摸索出來的規(guī)律,,比如說財務(wù)的校驗,,哪個公司的財務(wù)可能出問題,這是最基本的,,有很多很多財務(wù)的規(guī)律,,我們可以去套。比如說像做波段的,,或者做短期的,,也是有很多前人推導出來的微觀的市場結(jié)構(gòu)的東西,我們可以去推導,,這些東西都可以變成軟件,。 最后一層就是更籠統(tǒng)了。凡是上面不能夠囊括的東西,,我都把它扔在這里邊了,,包括用戶的建模問題,邏輯鏈條的學習,,風險,、渠道的認證,證據(jù)的收集,,證據(jù)的排序,,所有這些東西會產(chǎn)生一個策略,會有幫助,。那么把這些所有的東西做成之后,,我們就會有了一種研究系統(tǒng),通常會包含這6層的東西,。 一些實踐說了太多理論了,,下面說一些實踐。這里具體舉幾個例子,,在我們過去大半年的探索中,,根據(jù)上面說的這些方法,嘗試了很多種不同的生成報告的方式,。 這是我們?nèi)ツ?月份做的,,行業(yè)快報。它主要是針對新三板做的,,有哪些公司掛牌了,,有哪些公告,,成交量怎么樣,大家很容易想象的一些很基本的東西,,做了個圖文并茂的快報,。 這個跟上面那個很類似,但是是在微信里分享用的,,一個可視化的年報和半年報,。去年在半年報季的時候,我們給差不多幾千個新三板公司都自動生成了這樣一個報告,,把半年報里最重要的一些信息概括起來,,生成大概十幾頁的可視化報告,HTML5格式的,。 自動化企業(yè)分析報告,。這是給一家咨詢公司做的。他們之前找了很多實習生來做這件事情,。他們主要是做并購,,所以對領(lǐng)域里的每一個公司都要了解到。這些公司的基本情況大概包括十幾個要素,,包括基本面,、產(chǎn)品、競爭優(yōu)勢,、銷售模式,、實際控制人,還包括有沒有訴訟,,實際控制人有沒有負面新聞等等。一般來說,,一個實習生進來的時候,,第一個月根本干不了這事,要培訓至少一個月才能做,。手快的要一天,,手慢的要兩天才能做這樣一份報告。我們看了以后,,認為整個報告全部可以自動化,,就把它給自動化了,最后我們可以1秒鐘生成這樣一份報告,。 這是2016年10月份,,跟銀行做的另外一個事情。銀行看了我們的自動化報告以后,,覺得可以用在信貸報告上,。銀行在做準備工作的時候,,信貸報告有大概兩三百個考慮要素。我們做了一個評估,,藍色的那些東西是可以自動化的內(nèi)容,,那些紅色的東西是沒有辦法自動化的,黃色的是可以半自動化的,,至少是可以提高效率的,。我們對幾百項都做了這種評估,我們發(fā)現(xiàn)這樣做下來,,至少還是可以提高一半的效率,。跟那個類似的還做了債券的評級報告,也是差不多的事情,。 后來開始做公告摘要,。我們評估了一下,在過去的一年里,,A股有36萬份公告,,新三板有33萬份公告,去年一年有18萬份的研報,,其中5萬份的深度研報,。每個分析師平均要跟進20家企業(yè),每天要花一小時時間閱讀公告,,可以考慮到其巨大的人力投入,。把非常初步的信息跟蹤自動化,就是我們的希望,。 現(xiàn)在一些機構(gòu)在用人工來做這件事情,,平均每家都有至少20個人的團隊來做人工摘要的編寫。在去年12月6號的時候,,我們看了A股披露的所有公告,,當天是1700份,其中有摘要的只有125份,,也就是說目前人力的極限,,大概是不到10%。我們有沒有什么辦法可以覆蓋到100%,?所以我們先開始做了一些測試,,大概從去年12月份開始做。A股一共有99種各種不同的公告,,要分別處理,。比如說停牌公告,一般是兩頁紙,,最核心的是兩件事情,,什么時候停牌,,什么時候復(fù)牌。以前是要人來做摘要的,。如果我們用機器能夠幫他們做到這一點,,我覺得是一個非常有價值的事情。大家至少可以多點時間和家人一起,,有時間談戀愛了,。 后來我們陸陸續(xù)續(xù)做了十幾種不同類型的公告。比如擔保公告,,擔保額度是多少,,標的是什么,為什么,,與公司的關(guān)系是什么,,這些提取都是可以用機器來自動化。還有中標公告,,招標方是誰,,招標的項目是什么,招標的金額是多少,,都可以用機器處理,。 數(shù)據(jù)提取出來后,就可以生成一個自然語言的公告摘要,。生成了這種摘要之后,,我們把它集成在一起,我們把它稱為公司歷程,。這是一個例子,,這個公司過去這段時間發(fā)生了很多事情,我們把不重要的都已經(jīng)過濾掉了,,不用每個公告打開看了,,里面最核心的數(shù)據(jù)點都在這兒,一目了然,。 什么能夠自動化?我們現(xiàn)在可以回過頭來看,,一開始這張表,,金融報告能夠自動化嗎?我們分類來討論: 第一類信息披露報告,,我們認為這一部分報告主要是寫作,,這個是可以部分自動化的。在這之前,,我們跟券商掛牌部門,,就是通道部門,,進行過很多次接觸,里面相當多的部分是可以自動化的,。比如說財務(wù)部分,,它是跟銀行的業(yè)務(wù)是一樣的,大量的財務(wù)報表,,本來企業(yè)交上來的時候,,就已經(jīng)是結(jié)構(gòu)化數(shù)據(jù),沒有必要人工的再重新搞一遍,,這是可以完全自動化的部分,。 再說可以半自動化的,提高效率的,。比如說在券商做招股書的時候,,都會有一個過程,就是反饋意見,。股轉(zhuǎn)系統(tǒng)認為不清楚的地方該如何處理,?通常他們的做法是找到以前類似公司的處理方法。然后看案例,,這些案例只能在PDF里面,。浩如煙海的PDF幾萬份,之前只有非常熟這件事情才能夠做到,。實際上這些反饋意見,,其實都在那兒,這是可以提取出來變成案例庫的,。把它提取出來變成案例庫以后,,就可以大大地節(jié)約人力,這是一種半自動化,。所以股轉(zhuǎn)書,、公開轉(zhuǎn)讓說明書,跟銀行的審計報告一樣,,存在大量可以自動化的部分,。 第二類是研究性的報告,賣方的報告,、買方的報告,,包括咨詢公司的報告。這些報告單從寫作的層面上來說,,我認為現(xiàn)在還是比較難以自動化的,。之所以大家要這樣的報告,是因為它的 Insights。18萬份報告里面,,大概5萬份的深度報告是有Insights的,,其他13萬份還是一個比較普通的報告,那部分報告是有可能被自動化的,,但是深度報告還是很難,。這一塊我認為機器能做得最主要的工作就是數(shù)據(jù)準備。比如說要做一個公司的報告,,這個公司的A股上的對標公司是誰,,美股上的對標公司是誰,這些公司對應(yīng)的財務(wù)指標是什么,。在這些信息的挖掘上,,機器是可以幫大家的。 第三類是日常的報告,,這一類基本上是可以自動化的,,我認為5年之后,這些東西很可能不會再由人來寫了,。 最后一部分就是知識的介紹,、觀點分析和八卦等等。我認為目前還是比較難自動化的,,所以“金融八卦女”還是一個很好的項目 :),。 分析師如何應(yīng)對AI最后再多說一點,在人工智能的威脅之下,,大家該怎么應(yīng)對這些事情,。人工智能是紙老虎,它并不可怕,,因為它畢竟只是一些算法,。但是如果我們不準備好了,它也可以變成真老虎,。 要做什么樣的準備呢,?大家可以聽一個笑話,如果在森林里頭遇到了老虎怎么辦,?有兩個策略,,第一個是跑得比老虎快,第二個是跑得比身邊那個人快,。跑得比老虎快是比較難的,,但是跑得比旁邊那個人快,還是容易一點點,。大家看看旁邊那個人,,是不是可以跑得比他快一點。 我們還是有辦法跑贏真老虎的,。 第一條是顏值,、情商和親和力。為什么有了這么多在線房源數(shù)據(jù)庫之后,,還要房地產(chǎn)中介,,它起什么作用?其實它就是心理咨詢,。買家和賣家中間的擔心,、焦慮、不確定性,,這種東西是沒有辦法通過機器消滅掉的,。這就是中介永遠會存在的原因。包括醫(yī)生很大程度上也是這樣的,,醫(yī)生至少超過一半的作用是安慰,。這一部分機器是肯定干不了的。 我曾問我司的分析師,,到我們公司來以后,,你覺得你最想加強的能力是什么?她給我一個非常令人吃驚的答案,,她說PPT,。我仔細一想,這蠻有道理的,。我原來也在大公司工作,,干活的不如寫PPT的,寫PPT的不如講PPT的,,所以如何把信息給表達出來的能力,,機器還是做不到的,機器填表那種方式做出來的東西,,那種表達力,、說服力還是不如人做的東西。 第三個就是信息的抽象能力,。機器在紛繁復(fù)雜的數(shù)據(jù)中進行抽象,,特別是發(fā)現(xiàn)背后的這些關(guān)系是不如人的。 第四個是信息源,。因為機器所有的分析都建立在比特世界的基礎(chǔ)上面,。事物數(shù)據(jù)化之后機器才可以處理。在這之前,,大多數(shù)重要的信息,,在它之前就已經(jīng)發(fā)生了。這是我們?nèi)祟惖膬?yōu)勢,我們可以找到專家,、企業(yè)的負責人去聊,,這是機器很難做到的事情。 最后一點是長程的邏輯推理鏈條,,機器很容易做所謂的短程關(guān)系的發(fā)言,,比如說奧巴馬老婆是誰,這件事情很容易做的,。但是長程的,,巴西下雨了,什么樣的農(nóng)產(chǎn)品會漲價,,這是一個長程的關(guān)系,,機器是比較難以做判斷的。這是跑贏老虎的辦法,。 跑贏旁邊那個人怎么做呢,?我們用機器去加強我們自己的能力,編程能力,,提高我們效率的能力,。 提高效率細分為幾塊,一個是提高我們獲取數(shù)據(jù)的能力,,比如爬蟲,。在使用一些金融終端進行分析的時候,很多事情其實是機器可以做的,,它可以自動幫你,,每天、每周,,把你關(guān)心的數(shù)據(jù)爬下來,,可以節(jié)約你很多很多的時間。要想學會這個事情不難,,很快,,如果想做的話,一個星期就可以做到,。以后一生都可以用這樣的機器,,多好。 我們可以用數(shù)據(jù)庫,,可以寫規(guī)則,。比如在網(wǎng)上有很多現(xiàn)成的規(guī)則的工具,其中一個叫IFTTT,,如果在新浪微博上發(fā)現(xiàn)了一個人在講某一個股票,,讓它發(fā)個Email給我,,可以節(jié)約大量時間。 我們?nèi)ミM行信息搜集的工作,。凡是一件會讓你煩的事情,,那就意味著它可以自動化。 學習機器學習的基本工具,,比如說 weka,是有可視化界面的,,基本上只要學會怎么導數(shù)據(jù),,怎樣一步一步選一個算法,就可以得到結(jié)果,,機器學習并沒有大家想象的這么難以去掌握,。 我們只要掌握了工具去進行信息的收集和信息的整理,我們可以比我們身邊的人,,或者另外的那個樓的人工作效率更高,。 最后一點,,我覺得也挺重要,,跟第一點一樣重要。現(xiàn)在有太多的人會聲稱人工智能無所不能,,但是真正的從業(yè)者知道,,它非常局限,。在大多數(shù)事情上,我們只能推進一點點,,而這一點點還是要大量的人工去堆的,。“有多少人工就有多少智能”,,現(xiàn)在還真是一句真理,。我們在工作當中,通常大多數(shù)時候并不需要非常高深的人工智能的知識,,就可以極大地提高我們的效率,。這一點點,就可以幫助大家跑贏旁邊那個人,! 如何快速找到“文因互聯(lián)”公眾號,? 點擊此處,教你添加文因搜索到手機桌面 加入智能金融交流群 |
|