【原】影響特斯拉長期估值的最重要未知變量:自主學(xué)習(xí)、Dojo,、全自動駕駛

猛獸財經(jīng) 2023-02-17 發(fā)布于北京

展開全文

特斯拉—猛獸財經(jīng)

猛獸財經(jīng)（www.mengshoucaijing.com）消息：在我們看來,，影響特斯拉(Tesla)長期估值的最重要的未知變量是該公司推出自動駕駛服務(wù)的能力(或缺乏)。這就是我們密切關(guān)注特斯拉最新軟件更新的原因，這樣我們就有希望更好地了解機(jī)器學(xué)習(xí)背后發(fā)生的事情,。

特斯拉最近推出了一款名為“全自動駕駛可視化預(yù)覽版”的軟件,，該軟件更新后可以在汽車屏幕上顯示目標(biāo)檢測，顯示停車標(biāo)志,、紅綠燈（顏色變化）,、車道線、轉(zhuǎn)向箭頭,，甚至垃圾桶,。這個可視化看起來有點(diǎn)像一個帶有極簡圖形的視頻游戲。

特斯拉顯然在繼續(xù)發(fā)展其計算機(jī)視覺能力,，近期的目標(biāo)是為城市街道發(fā)布新的自動駕駛功能,。在這篇文章中，我們將探討我們認(rèn)為的特斯拉正在做哪些與計算機(jī)視覺有關(guān)的事,，以及為什么我們認(rèn)為它在這個領(lǐng)域有競爭優(yōu)勢,。

用于計算機(jī)視覺的弱監(jiān)督學(xué)習(xí)

在我們上一篇關(guān)于特斯拉的文章中，我們討論了人類行為線索如何為相機(jī)數(shù)據(jù)提供自動標(biāo)簽,。這些自動標(biāo)記的數(shù)據(jù)可以用來訓(xùn)練人工神經(jīng)網(wǎng)絡(luò)完成自動駕駛所需的計算機(jī)視覺任務(wù),。這種方法的技術(shù)名稱是弱監(jiān)督學(xué)習(xí)。我們探索的主要例子是將人類駕駛的區(qū)域標(biāo)記為“自由空間”(即和其他地方的非自由空間,。,占用空間),。另一個相關(guān)的例子(可能超出了視覺范圍)是根據(jù)人類駕駛員的方向盤角度來預(yù)測道路的曲率:

特斯拉—猛獸財經(jīng)

除了這些例子,，人類行為和環(huán)境之間可能存在著各種各樣的關(guān)系,。例如，判斷交通燈是紅色還是綠色的一個通常很好的(但有一點(diǎn)不完美的)預(yù)測器是人類司機(jī)是停還是走,。對于特斯拉來說,，弱監(jiān)督學(xué)習(xí)的優(yōu)勢在于，它能夠比Cruise (GM)和Waymo (GOOG, GOOGL)等競爭對手多收集大約1000倍的自動標(biāo)記訓(xùn)練數(shù)據(jù),。根據(jù)百度(BIDU)的研究,，擁有1000倍以上的數(shù)據(jù)，特斯拉在能夠獲得自動標(biāo)簽的任務(wù)中,，在神經(jīng)網(wǎng)絡(luò)性能上可能比競爭對手高出10倍或更多,。

弱監(jiān)督學(xué)習(xí)與全監(jiān)督學(xué)習(xí)形成對比，全監(jiān)督學(xué)習(xí)是計算機(jī)視覺中最常見的深度學(xué)習(xí)形式,。在全監(jiān)督學(xué)習(xí)中,，圖像或視頻需要人工標(biāo)注。全監(jiān)督學(xué)習(xí)只能擴(kuò)大到人力成本無法承受的程度,。然而,，它可以與弱監(jiān)督學(xué)習(xí)等方法結(jié)合使用，因此，我們認(rèn)為,，在可預(yù)見的未來,，它將繼續(xù)發(fā)揮重要作用。

自我監(jiān)督學(xué)習(xí)的計算機(jī)視覺

自我監(jiān)督學(xué)習(xí)是另一種試圖避免人工標(biāo)記數(shù)據(jù)的勞動成本的方法,。顧名思義,，在自我監(jiān)督學(xué)習(xí)中，數(shù)據(jù)是自我監(jiān)督的,。也就是說,，告訴神經(jīng)網(wǎng)絡(luò)哪個輸出正確，哪個輸出錯誤的訓(xùn)練信號來自于數(shù)據(jù)本身,。讓我們舉一個具體的例子,。

像特斯拉這樣的公司可以從車上的攝像頭收集大量的圖像數(shù)據(jù)。自我監(jiān)督學(xué)習(xí)可以嘗試學(xué)習(xí)這些圖像的內(nèi)部結(jié)構(gòu),。通過對一個任務(wù)的訓(xùn)練,，這個任務(wù)是我們真正想讓神經(jīng)網(wǎng)絡(luò)做的事情的代理。技術(shù)術(shù)語稱為代理任務(wù)(也稱為借口任務(wù)),。

特斯拉—猛獸財經(jīng)

例如,，代理任務(wù)可能是取一個已經(jīng)刪除了隨機(jī)補(bǔ)丁的圖像，然后填充缺失的像素,。在訓(xùn)練過程中,，神經(jīng)網(wǎng)絡(luò)可以得到完整的、未經(jīng)修改的圖像,。在測試時,，神經(jīng)網(wǎng)絡(luò)會顯示一組它從未見過的新圖像，隨機(jī)的小塊缺失,。通過將生成的像素與實際丟失的像素進(jìn)行匹配,，可以判斷網(wǎng)絡(luò)的準(zhǔn)確性。

在訓(xùn)練類似這樣的代理任務(wù)的過程中,，神經(jīng)網(wǎng)絡(luò)學(xué)會了在內(nèi)部代表物理世界的各個方面,，包括汽車、人和自行車等物體,，以及道路,、人行道和草地等表面。

對一個代理任務(wù)(或多個代理任務(wù))上的神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練稱為預(yù)訓(xùn)練,。同樣的神經(jīng)網(wǎng)絡(luò)也可以在手動標(biāo)記的圖像或視頻上進(jìn)行訓(xùn)練,，這就是所謂的微調(diào)。注釋器在像汽車這樣的物體周圍繪制三維方框，并對像道路這樣的表面的每個像素進(jìn)行顏色編碼。神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)這些明確的標(biāo)簽更快更好，因為它已經(jīng)有這些視覺現(xiàn)象的內(nèi)部表征。在全監(jiān)督學(xué)習(xí)過程中，網(wǎng)絡(luò)改進(jìn)了這些現(xiàn)有的表示,，并將它們與顯式標(biāo)簽關(guān)聯(lián)起來,。這就是自我監(jiān)督訓(xùn)練如何提高完全監(jiān)督學(xué)習(xí)的表現(xiàn)。

在DeepMind最近發(fā)表的一篇論文中,，研究人員發(fā)現(xiàn)，在自我監(jiān)督的預(yù)先訓(xùn)練下,，一個只給出一半手工標(biāo)記的圖像訓(xùn)練示例的神經(jīng)網(wǎng)絡(luò),，在圖像識別方面要比給出兩倍示例的同一個神經(jīng)網(wǎng)絡(luò)做得更好,。因此,，自我監(jiān)督的預(yù)訓(xùn)練可以使神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)效率提高一倍以上,。

在另一個版本的實驗中，研究人員只給一個預(yù)先訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)1%的典型手工標(biāo)記的訓(xùn)練數(shù)據(jù)集,。它用5%的訓(xùn)練數(shù)據(jù)擊敗了未經(jīng)訓(xùn)練的網(wǎng)絡(luò),。這是數(shù)據(jù)效率的五倍多,。

深度學(xué)習(xí)的實踐者認(rèn)為,，自我監(jiān)督學(xué)習(xí)是一個有吸引力的研究領(lǐng)域,，因為如果這個難題能夠解決,，它將改善計算機(jī)視覺(和其他深度學(xué)習(xí)任務(wù)),，這些任務(wù)通過數(shù)據(jù)和計算來擴(kuò)展，而不是通過人工勞動,。YouTube上有數(shù)十億小時的視頻,。谷歌已經(jīng)收集了35萬小時的YouTube視頻剪輯,，用于深度學(xué)習(xí)研究。

特斯拉約有75萬輛車配有8個環(huán)繞攝像頭,，平均每天行駛約一小時,。整個車隊每個月大約有2000萬小時的360度視頻,，每輛車上的8個攝像頭每個月大約有1.7億小時的視頻。這是更多的視頻比以往任何時候都是經(jīng)濟(jì)可行的手工標(biāo)簽,。但是,，如果有合適的代理任務(wù)，自監(jiān)督學(xué)習(xí)可能會從視頻海洋中自動管理的一小部分中提取出好的表現(xiàn)形式,。這些表示可以將全監(jiān)督學(xué)習(xí)的數(shù)據(jù)效率提高許多倍,。

特斯拉—猛獸財經(jīng)

特斯拉如何將自我監(jiān)督學(xué)習(xí)用于計算機(jī)視覺

在今年4月的特斯拉自治日(Tesla Autonomy Day)上，首席執(zhí)行官埃隆馬斯克表示,，自主學(xué)習(xí)是公司的首要任務(wù),。馬斯克說：【這輛車是一臺經(jīng)過優(yōu)化的計算機(jī)。我們在特斯拉有一個重要的項目——我們今天沒有足夠的時間來討論,，它——叫做Dojo,。它是一臺超級強(qiáng)大的訓(xùn)練電腦。Dojo的目標(biāo)是能夠在視頻級別接收大量數(shù)據(jù),，并使用Dojo計算機(jī)對大量視頻進(jìn)行無監(jiān)督的大規(guī)模培訓(xùn),。但那是以后的事了。”】

在最近的一次談話中,，特斯拉的高級人工智能總監(jiān)Andrej Karpathy說,，Dojo訓(xùn)練計算機(jī)的目標(biāo)是以較低的成本實現(xiàn)性能上數(shù)量級的提高。目前還不清楚Dojo的開發(fā)進(jìn)度,，也不清楚它將在何時部署,。

特斯拉擁有大約75萬輛配備了攝像頭、可聯(lián)網(wǎng)的汽車,，它可以使用主動學(xué)習(xí)來選擇保存那些視頻片段,，并通過Wifi上傳。主動學(xué)習(xí)是指通過各種方法選擇最具指導(dǎo)意義的訓(xùn)練實例,，使學(xué)習(xí)盡可能有效,。例如,，英偉達(dá)(NVDA)開發(fā)了一種方法來自動選擇視頻幀以用于訓(xùn)練，不同的神經(jīng)網(wǎng)絡(luò)對視頻幀內(nèi)容的分歧意味著這些幀將被使用,。然后,，英偉達(dá)將這種自動方法與付費(fèi)請人查看視頻片段和手動選擇視頻幀進(jìn)行了比較。研究發(fā)現(xiàn),，當(dāng)對自動選擇的樣本進(jìn)行訓(xùn)練時,，神經(jīng)網(wǎng)絡(luò)的性能比手動選擇的樣本提高了3-4倍。

因此,，我們強(qiáng)烈懷疑特斯拉將使用主動學(xué)習(xí)來自動管理其車隊的視覺數(shù)據(jù),，并將使用這些視覺數(shù)據(jù)通過Dojo加速的自監(jiān)督學(xué)習(xí)來自動訓(xùn)練神經(jīng)網(wǎng)絡(luò)。前述的深度學(xué)習(xí)先驅(qū)揚(yáng)·勒昆(Yann LeCun)預(yù)測,，研究人員即將在視頻自監(jiān)督學(xué)習(xí)方面取得突破,。他預(yù)計，到2020年,，深度學(xué)習(xí)的實踐者將最終能夠認(rèn)真地進(jìn)行視覺數(shù)據(jù)自主學(xué)習(xí),。當(dāng)這種情況發(fā)生時，我們相信特斯拉在基于視頻的任務(wù)上可能會取得與DeepMind在圖像識別上同樣的結(jié)果:數(shù)據(jù)效率提高一倍,、五倍甚至更多,。

同樣值得注意的是，主動學(xué)習(xí)可以應(yīng)用于任何形式的數(shù)據(jù)收集,，就像特斯拉對機(jī)器學(xué)習(xí)所做的那樣,。當(dāng)訓(xùn)練實例被手工標(biāo)記時，主動學(xué)習(xí)使勞動更有效率,。當(dāng)帶寬,、數(shù)據(jù)存儲或計算成為約束條件時，主動學(xué)習(xí)允許特斯拉在這些約束條件下獲得更多的神經(jīng)網(wǎng)絡(luò)性能,。在路上行駛著約75萬輛汽車的特斯拉,，想必會比競爭對手遇到更多數(shù)量級的頂級例子。在計算機(jī)視覺方面,，特斯拉不僅具有數(shù)據(jù)量優(yōu)勢的自監(jiān)督學(xué)習(xí)和弱監(jiān)督學(xué)習(xí),，還具有主動學(xué)習(xí)的優(yōu)勢，形成了良好的全監(jiān)督學(xué)習(xí),。主動學(xué)習(xí)也適用于計算機(jī)視覺之外的領(lǐng)域,。

激光雷達(dá)呢？

眾所周知,，特斯拉不使用激光雷達(dá),，也沒有計劃這樣做。Mobileye (INTC)最近發(fā)布了一個令人印象深刻的演示視頻，展示了它的一輛自動駕駛測試車在耶路撒冷的交通中行駛,，只有8個攝像頭作為傳感器,。測試車的計算能力也只有特斯拉最新車型的三分之一,。

我們的觀點(diǎn)是,，如果像Waymo這樣的競爭對手用激光雷達(dá)證明了自動駕駛是可能的，特斯拉沒有激光雷達(dá)就無法開發(fā)自動駕駛,，那么轉(zhuǎn)向激光雷達(dá)對特斯拉來說就不會是一個巨大的挑戰(zhàn),。特斯拉將在這場游戲中非常晚，但它也將在自動駕駛的幾乎所有主要領(lǐng)域擁有大規(guī)模車隊數(shù)據(jù)優(yōu)勢,，除了激光雷達(dá)感知,，包括計算機(jī)視覺。如果Waymo是第一家大規(guī)模推出真正的自動駕駛汽車業(yè)務(wù)的公司,，我們相信特斯拉會快速跟進(jìn),。在這種情況下，對特斯拉來說,，收購一家長期致力于激光雷達(dá)感知的自動駕駛汽車初創(chuàng)公司可能是一個戰(zhàn)略上的明智之舉,。

有了自動駕駛汽車車的收入，特斯拉可以為購買了全自動駕駛汽車的客戶做一些事情,，比如為他們提供汽車改裝服務(wù),，自己買回汽車進(jìn)行改裝，或者一次性給他們一筆現(xiàn)金,。

同樣的思想也適用于計算硬件,。如果特斯拉的量產(chǎn)汽車沒有足夠的計算能力來運(yùn)行足夠大的自動駕駛神經(jīng)網(wǎng)絡(luò)，它可以轉(zhuǎn)向一種類似waymo的方法,，在其自動駕駛汽車上安裝昂貴的重型硬件,。

行為預(yù)測的自監(jiān)督學(xué)習(xí)

特斯拉自動駕駛系統(tǒng)的三個主要組成部分是計算機(jī)視覺、行為預(yù)測和規(guī)劃,。計算機(jī)視覺就是汽車看到的東西,。行為預(yù)測是指預(yù)測路上行人、騎自行車的人,、車輛,、動物和其他移動物體的動作和軌跡。規(guī)劃是汽車如何決定采取什么行動,，以及如何決定它在空間和時間中的軌跡,。

特斯拉可以用一種非常類似于勒昆預(yù)測計算機(jī)視覺自我監(jiān)督學(xué)習(xí)的方式來訓(xùn)練神經(jīng)網(wǎng)絡(luò)進(jìn)行行為預(yù)測。行為預(yù)測神經(jīng)網(wǎng)絡(luò)不需要預(yù)測未來的視頻幀,，只需要預(yù)測一個抽象表示的軌跡,，就像一個圍繞著車輛的三維邊界框。訓(xùn)練是自我監(jiān)督的,，因為計算機(jī)視覺系統(tǒng)會告訴預(yù)測系統(tǒng)邊界盒是否按照預(yù)測的軌跡運(yùn)動,。不需要人工注釋,。

模仿學(xué)習(xí)和計劃強(qiáng)化學(xué)習(xí)
預(yù)測中使用的類似3D包圍盒的抽象表示也可以用于規(guī)劃。神經(jīng)網(wǎng)絡(luò)可以通過兩種方式來學(xué)習(xí)規(guī)劃,。他們可以通過模仿人類行為來學(xué)習(xí),，這就是所謂的模仿學(xué)習(xí)，或者他們可以通過反復(fù)試驗來學(xué)習(xí),，這就是所謂的強(qiáng)化學(xué)習(xí),。

模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)相結(jié)合可以產(chǎn)生比任何一種單獨(dú)的技術(shù)更好的性能。神經(jīng)網(wǎng)絡(luò)和手工編碼軟件也可以結(jié)合使用,，使系統(tǒng)更好地處理缺乏訓(xùn)練數(shù)據(jù)的新情況,。當(dāng)神經(jīng)網(wǎng)絡(luò)不自信時，系統(tǒng)可以依靠手工編制的計劃表,。

在以后的文章中,，我們將對模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)有更多的闡述。

萬億美元問題

綜上所述,，特斯拉的大規(guī)模車隊數(shù)據(jù)結(jié)合主動學(xué)習(xí),，有以下五個方面具有優(yōu)勢:

1、完全監(jiān)督的計算機(jī)視覺學(xué)習(xí)（即自動標(biāo)圖像和視頻培訓(xùn)）,。

2,、用于計算機(jī)視覺的弱監(jiān)督學(xué)習(xí)（即在圖像和視頻上使用驅(qū)動程序生成的標(biāo)簽）。
3,、用于計算機(jī)視覺的自監(jiān)督學(xué)習(xí)（即使用視頻的一部分預(yù)測視頻的其他部分）,。
4、用于預(yù)測的自監(jiān)督學(xué)習(xí)（即使用抽象表示的過去行為（如邊界框）來預(yù)測其未來行為）,。
5,、用于計劃的模擬學(xué)習(xí)和強(qiáng)化學(xué)習(xí)（即利用人類行為和現(xiàn)實世界經(jīng)驗訓(xùn)練神經(jīng)網(wǎng)絡(luò)，以抽象表示作為輸入做出駕駛決策）,。

根據(jù)我們上面提到的百度在這方面做的研究,，在任何一個特斯拉能夠收集到1000倍于競爭對手的訓(xùn)練數(shù)據(jù)的領(lǐng)域（即上面列出的第2、4和5項）,，它的神經(jīng)網(wǎng)絡(luò)性能最終可能會提高10倍,。在大規(guī)模應(yīng)用主動學(xué)習(xí)的地方（即列表中的所有五項，包括1和3）,，表現(xiàn)也可能高出數(shù)倍,。例如，對于熊,、駝鹿等珍稀野生動物或拖拉機(jī)等不常見的交通工具,，特斯拉可能比車隊規(guī)模很小的競爭對手多收集1000倍的樣本。

這將足以解決自動駕駛嗎?這是一個萬億美元的問題。ARK Invest的財務(wù)模型計算出,，500萬輛自動駕駛汽車車將為特斯拉帶來1.4萬億美元的市值和6100美元的股價,。全球自動駕駛汽車公司的總市值為4萬億美元。

僅在中國,，麥肯錫就預(yù)計,，當(dāng)三分之二的乘客里程是全自動駕駛時，自動駕駛汽車的銷售每年將創(chuàng)造2萬億美元的收入,。

問題是:全自動駕駛汽車可能嗎?
或許最鼓舞人心的消息是,，Waymo終于為一些early access的測試者部署了無人駕駛的游樂設(shè)施

還有待觀察的是，無人駕駛汽車是否能夠安全地擴(kuò)大規(guī)模,，Waymo的統(tǒng)計數(shù)據(jù)必須表明，無人駕駛汽車比人類駕駛汽車更安全,。我們希望Waymo能讓無人駕駛成為一種常態(tài),，而不是例外。我們也希望它能發(fā)布一些嚴(yán)格的安全數(shù)據(jù),，向世界證明它正在做出一個審慎的決定,。

克魯斯在一份內(nèi)部報告泄露給新聞界時，無意中向公眾提供了其中一些數(shù)據(jù),。報告包括2019年年中做出的內(nèi)部預(yù)測,，到2019年底，克魯斯的自動駕駛汽車將達(dá)到人類安全水平的5-11%,。對我來說,，這是令人鼓舞的，因為它表明,，如果克魯斯的預(yù)測被證明是正確的,，那么現(xiàn)在只需要“10倍”到25倍的改進(jìn)就可以實現(xiàn)比人類更高的安全性。對我來說,，這比1000倍的數(shù)字更令人鼓舞,。百度、DeepMind和英偉達(dá)的研究表明,，在機(jī)器學(xué)習(xí)領(lǐng)域,，10倍的進(jìn)步并非聞所未聞。

我們最關(guān)注的是特斯拉發(fā)布的全自動駕駛技術(shù),，它本質(zhì)上是自動駕駛的一個版本,，，可以在城市街道和郊區(qū)運(yùn)行,。如果功能完整的全自動駕駛的最初版本與自動駕駛和智能導(dǎo)航的第一個版本有著同樣的缺陷,，我們一點(diǎn)也不驚訝。不過，我們預(yù)測,，特斯拉將有一個很完善的版本,，在1-3年內(nèi)其首次發(fā)布。我們不知道何時或如果全自動駕駛將到達(dá),，但我們有信心預(yù)測特斯拉至少不遠(yuǎn)有未來的駕駛輔助技術(shù),，這將可能令傳統(tǒng)汽車制造商非常羨慕。這不僅是電氣化的一個開端,，也有助于特斯拉在全球汽車市場開拓出一個豐田（Toyota）規(guī)模的市場,。