在眾多的增長方法中,,A/B測試是最能體現(xiàn),、代表數(shù)據(jù)驅(qū)動理念的產(chǎn)品。為了進一步厘清這一增長方法的來龍去脈,、可行性與適用范圍,、真正價值與常見誤區(qū),「深響」在充分的國內(nèi)外案頭研究基礎(chǔ)上,,訪談到多位一線操盤手,,沉淀出當下市場對于A/B測試、數(shù)據(jù)驅(qū)動的主流理解與實際落地應用的情況,。 今天為您奉上增長實驗室系列第1篇,,《揭秘Google、FB,、Netflix,、亞馬遜的通用增長神器》。 ?深響原創(chuàng) · 作者|陳文琦 故事要從18世紀說起,。 工業(yè)革命,、啟蒙運動,人類的底層邏輯被刷新,,科學的研究方法與成果掀起層層浪潮,,一些困擾多年的難題被解開,。在歐洲,,以航海為生命的維京后代們繼續(xù)著他們的遠征,但不幸的是,,長期遠洋航行的水手船員在惡劣的海上環(huán)境中常被壞血病困擾,。 一邊是經(jīng)濟社會的蓬勃發(fā)展,對于更多資源的饑渴需求,,一邊則是出海的勇士們被壞血病折戟,,嚴重的時候超過半數(shù)船員再也無法回到起航時的港口。幸運的是,,英國海軍醫(yī)生詹姆斯·林德發(fā)現(xiàn)了一種神奇的巧合——食譜中有柑橘類的水果的船員患壞血病的幾率更低,,船員的救命藥難道就是再普通不過的青檸(lime)嗎? 質(zhì)疑醫(yī)生的人很多,。他選擇用一種在今天看來已經(jīng)非常普通且廣泛運用在互聯(lián)網(wǎng)的方法來證明自己的猜想——A/B測試,。 他把患病的12名船員們分成六組,確保病人們的基本食物一樣,,所處環(huán)境也相同,,唯一的變量是,給每組開出了不同的療法:一組船員的飲食中加入青檸,、一組加入橘子,、一組加蘋果,、一組加醋、一組加酏劑,、一組加海水,。結(jié)果顯而易見,攝入橘子和青檸的兩組很快就痊愈了,。 這是兩百多年前的壞血病實驗,,其采納的A/B測試已經(jīng)成為醫(yī)學領(lǐng)域最為常見的實驗方法。而如今,,A/B測試也已在醫(yī)學之外的領(lǐng)域開花結(jié)果,,成為了包括硅谷在內(nèi),全球互聯(lián)網(wǎng)與商業(yè)的方法圭臬——在多種因素都對實驗結(jié)果有影響時,,保證其他條件相同,,來證明某一變量對結(jié)果的確切影響。A/B測試以小成本快速試錯,,用客觀數(shù)據(jù)結(jié)果糾偏人們的主觀臆斷,,讓產(chǎn)品與生意最大限度地科學增長。 或許有人會問,,這不就是簡單的對照組實驗嗎,?但千萬別小看A/B測試,它不只是粗暴地分組比較,,而是基于實驗對象的精細測評,,每一個維度的篩選、每一個差異刺激的設(shè)計,,都需要嚴謹?shù)囊罁?jù)和判斷,。在這個信息爆炸、場景碎片化的多樣化時代,,變量無處不在,,如何做好一個A/B測試,測之有因,,測其所得,,并不是件簡單的事。 與此同時,,商業(yè)社會空前繁盛,,競爭激烈到每一個罅隙的增長都必須爭取,生意對于失敗的容錯率非常低,。而A/B測試便是那個科學分析,、最大限度規(guī)避風險、敏捷增長的利器,。 從1990年代后期開始,,科技巨頭就開始借助A/B測試來確定最優(yōu)方案,,并逐漸形成自己的測試平臺和體系。今天,,包括Google,、Facebook、亞馬遜在內(nèi)的大公司每年都進行數(shù)千到數(shù)萬次實驗,,新一代在數(shù)據(jù)驅(qū)動思維里成長起來的初創(chuàng)企業(yè)也見識到了A/B測試帶來的增長魔力,。 Google先驅(qū)互聯(lián)網(wǎng)行業(yè)的A/B測試本質(zhì)上是一種“先驗”的實驗體系,針對某一需要改進的功能,、頁面或是產(chǎn)品,,提供兩種或以上的方案,合理分配流量,,將不同方案發(fā)布給不同用戶,。在運行一段時間后,結(jié)合各項指標和科學的統(tǒng)計方法,,對比實驗數(shù)據(jù)做出決策,,將最優(yōu)方案更新給全量用戶。 通常的流程是,,確定目標,、建立實驗假設(shè)、設(shè)定指標評估影響,、設(shè)計及開發(fā)實驗方案,、確定測試時長和分流方案等、采集和分析數(shù)據(jù),、最后進行評估得出結(jié)論,。通過科學的實驗設(shè)置,,測試不僅可以對比出哪種方案更好,,還能預測性地通過一些指標(比如用戶的訪問時間、留存度,、下單率等),,量化最優(yōu)方案好多少。 Google是互聯(lián)網(wǎng)界A/B測試的先驅(qū),。 早在2000年,,Google工程師就進行了他們的第一次A/B測試,用于確定搜索結(jié)果頁面上展示多少條對用戶最友好,。這次嘗試稱不上成功,。世紀之交,緩慢的網(wǎng)頁加載速度未能允許實驗達到預期,。 但是Google成為了A/B測試的忠實擁護者,,僅僅在2011年一年時間里,,這家搜索巨頭就進行了7000多次的測試。 當Google在Gmail郵箱里推出廣告的時候,,團隊想知道:有沒有一種理想的藍色能夠更吸引用戶點擊鏈接,?為此,他們對41種藍色——從藍中帶綠到綠中帶藍——進行了A/B測試,。結(jié)果是,,一種略帶紫調(diào)的藍色比其他藍色更能促進點擊率。這誰能猜到呢,?而這個微小到用戶也許根本注意不到的細節(jié)改變,,卻為公司帶來了每年2億美元的額外廣告收入。 現(xiàn)在,,Google每個月都會上線幾百個大大小小的A/B測試,。這些實驗,每年直接給公司帶來了超過10億美元的增收,。 這種提供決策依據(jù)的方法充分彰顯了互聯(lián)網(wǎng)“數(shù)據(jù)驅(qū)動業(yè)務(wù)增長”的理念,。 很多時候,A/B測試被用來決定非常細微的功能變化,。例如,,是否在新標簽頁中打開搜索結(jié)果——雖然這一功能可以在設(shè)置中自定義或者通過快捷鍵實現(xiàn),但是通過A/B測試,,Google發(fā)現(xiàn)將切換按鈕在搜索框下突出顯示時,,用戶體驗更好。 而現(xiàn)在許多用戶已經(jīng)習慣的“暗黑模式”其實也經(jīng)歷了幾番測試,。 Google測試突出顯示“在新標簽頁中打開” 雖然乍一看優(yōu)化的只是細枝末節(jié),,但是基于Google龐大的用戶量,每個不起眼的改動能產(chǎn)生巨大的影響,。 A/B測試貫穿了Google的產(chǎn)品目錄和公司整體運行,,有時候,測試會在更大的范圍和更長的時間跨度里進行,。比如對于即時通信的解決方案,,Google看上去非常“猶豫不決”,,推出過Google Talk,、Google Chat、Google+ Messenger,、Huddle,、Hangouts等。 Google希望通過測試內(nèi)部的多個解決方案,找到優(yōu)勝者,,先一步贏得市場,,而不是坐以待斃,等外部的競爭者找到開啟增長的密鑰再加以復制,。 因此,,對于Google來說,A/B測試是不可或缺的,。這是公司用來感知用戶的最佳途徑,;做產(chǎn)品決策的科學思路;也是最大化廣告效果,,增加收入的策略,。 值得注意的是,從自己摸索A/B測試方法,,到形成行之有效的測試體系,,Google還將A/B測試的能力開放給外部客戶。 比如Google的Google Optimize,,提供了易用的A/B測試工具,,降低了開發(fā)者和廣告主做測試的門檻,并可以關(guān)聯(lián)Google Analytics進行數(shù)據(jù)分析,。 一個“被賦能”的案例是,,音樂流媒體Spotify在海外擴張時,想為不同區(qū)域的聽眾差異化著陸頁,,但這在研發(fā)上要耗費巨大成本,。在德國市場,它使用Optimize為對聽書功能(Audiobook)感興趣的用戶定制了一個著陸頁,。結(jié)果是,,新頁面相比原版本,付費用戶率提升了24%,。最終,,Spotify在全球范圍內(nèi)應用了這一設(shè)計。 開放測試能力,,這一方面是企業(yè)價值觀的體現(xiàn),,Google致力于拓展良性的生態(tài)環(huán)境,讓伙伴受益從而優(yōu)化整個商業(yè)環(huán)境,;另一方面也說明A/B測試本身經(jīng)過幾十年的發(fā)展,已經(jīng)逐漸成熟為一門獨立的學問了,。 風靡硅谷硅谷沒有秘密,,A/B測試也不是Google的專屬。在“精益創(chuàng)業(yè)”思想浪潮的席卷下,硅谷的諸多巨頭都用上了A/B測試這一增長利器,,并且將其傳道,。 流媒體巨頭Netflix就是A/B測試的信奉者之一,并且樂此不疲地在自己的科技博客里分享其A/B測試實踐中的方法和經(jīng)驗,。 “如果消費者在90秒內(nèi)沒有找到可觀看的內(nèi)容,,他們就會離開?!盢etflix在博客里強調(diào),。為了在這短短的90秒內(nèi)抓住用戶,Netflix絞盡腦汁,。其在UI布局設(shè)計,、個性化主頁、播放功能等等環(huán)節(jié)都會進行A/B測試,,因為一個簡單的標題或者圖片改動就能讓觀看量得到20%-30%的增長,。據(jù)「深響」了解,國內(nèi)的一些視頻網(wǎng)站也采取了類似的做法,。 Netflix早期進行的經(jīng)典測試之一是關(guān)于影片或劇集的展示圖對點擊率的影響,。 《人小志氣高》(The Short Game)是一部講述小學生在高爾夫球場上競技的影片。Netflix對不同用戶組推送了不同的展示海報,,并分析了幾個關(guān)鍵指標,,包括點擊率、總播放時長,、短時播放的比例,、觀看的內(nèi)容比例等等,最終發(fā)現(xiàn)下圖中間(Cell 2)的海報勝出了,,實驗用戶組平均的點擊率比默認組高14%,。 Cell 2 海報的播放量較原來版本提升了14%。 來源:Netflix科技博客 這是一個信號——展示海報對用戶行為可以產(chǎn)生影響,。證實這個假設(shè)之后,,Netflix繼續(xù)進行更復雜、更多維度的測試去優(yōu)化用戶界面,。 A/B測試是一個統(tǒng)計學與數(shù)學的實驗,,解構(gòu)每一個元素,如何盡量撇除其他因素的影響,,從一次次測驗中歸納出關(guān)于用戶行為的規(guī)律,。 Netflix的技術(shù)人員在博客里寫到,他們通過實驗發(fā)現(xiàn),,具有強表現(xiàn)力的面孔比平靜的更吸引用戶眼球,;更具辨識度或者兩極化的人物形象表現(xiàn)通常更好;反派人物能得到較高點擊率;封面包含三個及以上人的時候點擊率又會下降......而這些實驗結(jié)果也并非絕對的,,不同地區(qū)的觀眾對圖像的反應會產(chǎn)生差異,,這要求顆粒度更細的實驗和運營。 強表現(xiàn)力的海報(右下)效果更好 來源:Netflix科技博客 互聯(lián)網(wǎng)巨頭們在A/B測試的普及進程中起到了標桿性的作用,。而這種科學精神在“大佬”們的推動下已經(jīng)滲透了整個互聯(lián)網(wǎng),。 在“效率第一”的硅谷,產(chǎn)品決策的流程化在加速,,A/B測試是重要一環(huán),。用戶們對于App的新功能感到興奮,但并不知道,,在最終呈現(xiàn)之前,,有多少版本在實驗中落敗。 Snapchat的崛起讓社交網(wǎng)絡(luò)大哥Facebook感到恐慌,。圍繞Snapchat獨特的“閱后即焚”和“快拍”功能,,F(xiàn)acebook在旗下的不同社交平臺上展開了一系列測試。一次次失敗之后,,允許用戶發(fā)布24小時限時內(nèi)容的“快拍”(Stories)的功能現(xiàn)身在Instagram上,,為這個已略顯疲態(tài)的圖片社交產(chǎn)品注入新鮮感。 為了更高效率地在移動端進行A/B測試,,F(xiàn)acebook開發(fā)了Airlock測試框架,,助力內(nèi)部開發(fā)人員。 其實,,A/B測試不僅有益于自身產(chǎn)品的優(yōu)化,,也可賦能生態(tài)內(nèi)的客戶,實現(xiàn)雙贏,,何樂而不為,?我們看到,除了上文提到的Google,,亞馬遜和Facebook也把一些A/B測試工具開放給商家和廣告主,。 比如亞馬遜,這家屢次登頂全球市值巔峰的公司就有多種適配的A/B測試工具,,讓商家去檢驗怎樣的商品名稱和展示頁可以有效提升品牌度和銷售量,。 而Facebook作為廣告營銷的重要平臺,也完善了適用于各個場景的A/B測試工具,,讓廣告主和品牌來評估各項方案,,實現(xiàn)投放效益最大化。 亞馬遜商家用測試工具可以便捷地創(chuàng)造不同的商品展示頁 不止是巨頭A/B測試不只是互聯(lián)網(wǎng)巨頭的殺手锏,,它也是游戲,、媒體,、金融等行業(yè)的???。在硅谷,無論公司大小都已意識到A/B測試對于決策的重要性,。 2013年,,著名的互動軟件娛樂公司藝電(Electronic Arts)上線《模擬城市5》之后兩周就賣出了110萬份。其中游戲50%的銷售都來自于網(wǎng)上下載,,傲人的成績歸功于一個近乎完美的A/B測試,。 藝電為游戲銷售頁面設(shè)計了兩個方案。一個版本是,,促銷的信息顯示在預訂的頁面banner 上,,讓購買者一目了然;另一個方案是把促銷信息刪了,。實驗結(jié)果是沒有促銷信息的版本相較前者的轉(zhuǎn)化率提升了43.4%,。最終他們采用了這一方案,實現(xiàn)了上述銷量,。 這個A/B測試的結(jié)果甚至是有點“反常識”的,,依據(jù)人的經(jīng)驗,折扣信息往往可以刺激消費者的購買欲,,但是通過實驗,,顯然這并不適用于《模擬城市5》的目標群體。 有促銷信息的版本(上)與沒有促銷信息的版本(下) 媒體行業(yè)也常用A/B測試的方式對標題進行實驗,,來吸引網(wǎng)絡(luò)時代越來越不耐心的讀者們 ,。 《紐約時報》采取A/B測試,在其網(wǎng)站上為同一文章展示不同標題,,在一些案例中,,一個好標題可以提升成倍的閱讀量。比如,,《紐約時報》編輯寫到,,“巴爾的摩的反省,弗雷迪·格雷周年祭”(Soul-Searching in Baltimore, a Year After Freddie Gray’s Death)和“弗雷迪·格雷死亡之后的巴爾的摩:'心境已變’”(Baltimore After Freddie Gray: The 'Mind-Set Has Changed’)相比,,后一標題的閱讀量得到1677%的提升,。 有意思的是,A/B測試還收獲了政客們的青睞,。 2008年,,奧巴馬團隊競選團隊為募捐網(wǎng)站設(shè)計了4種按鈕和6個不同的圖像。對24種不同組合,,團隊進行了數(shù)據(jù)跟蹤,,最終下圖右上角的界面獲勝,,注冊率相比原始界面提高了40.6%。這40.6%的新增用戶直接帶來了額外的近6000萬美元的捐款,。 這次A/B測試的成功,,促使競選團隊的數(shù)據(jù)分析總監(jiān)丹·西羅克 (Dan Siroker)在2009年創(chuàng)立了Optimizely,一個A/B測試工具平臺,,幫助沒有技術(shù)背景的用戶測試不同版本的網(wǎng)站,,優(yōu)化體驗。 右上角的界面是最后的優(yōu)勝者 我們試圖尋找美國商業(yè)大亨們抵觸A/B測試的案例,,但抱歉的是,,這種科學思路其實是西方社會普遍推崇的思維方式,“你不需要跟他們解釋太多,,因為A/B測試根上的理念就是他們小時候天天學的邏輯,、實驗、critical thinking(辯證思維),?!币晃辉诠韫裙ぷ鞯娜A人工程師告訴「深響」。 幾百年來,,A/B測試的核心原理始終未變,。作為“數(shù)據(jù)驅(qū)動”、“科學精神”的完美體現(xiàn),,更作為一種前置驗證的手段,,A/B測試幫助企業(yè)驗證了策略收益,避免錯誤策略所帶來的負面影響,,其所帶來的收益將遠大于企業(yè)所付出的成本,。 在這樣的共識與汗牛充棟的成功案例下,A/B測試得到硅谷巨頭們的擁躉,,成為各行各業(yè)大大小小企業(yè),、產(chǎn)品的增長利器、工具標配,。當然,,暖風吹過西海岸,這把利器也正在大洋彼岸的中國發(fā)光發(fā)熱,,并且逐步展現(xiàn)出本地化的特色和新意,。 參考資料:
|
|