編輯導語:近年來,A/B測試收到了許多互聯(lián)網(wǎng)巨頭的青睞,A/B測試源于學術(shù)層面的“隨機對照試驗”,作為一種方法論,它在互聯(lián)網(wǎng)領(lǐng)域該如何應用呢?
一、A/B測試前身:歷史悠久的對照實驗今天互聯(lián)網(wǎng)巨頭熱衷的A/B測試,其實源于學術(shù)層面的“隨機對照試驗”,作為一種方法論,這種對照試驗有著悠久的歷史。
1747年,為了治療壞血病,皇家海軍的外科醫(yī)生James Lind 設計了一項實驗。他測試了蘋果醋、大麥水、橘子等六種不同藥方。
最終發(fā)現(xiàn)新鮮的橘子為最佳的治療藥物,盡管那時并不清楚是橘子中維C的作用。
1835年,醫(yī)學史上第一次“雙盲實驗”在紐倫堡實現(xiàn)。一位名為弗里德里希的公共衛(wèi)生官員,為對抗當時頗為流行的順勢療法開啟了一個賭注:將25瓶順勢療法鹽水和25瓶蒸餾水分發(fā)給50位雙盲受試者。
最后8位聲稱產(chǎn)生了治療效果,但揭盲后發(fā)現(xiàn),有3位喝的其實是蒸餾水,弗里德里希贏得了賭注。
1935年,統(tǒng)計學家兼生物學家羅納德·費雪(Ronald Fisher)寫了一本名為《實驗設計》的書。在書中,他系統(tǒng)論述了隨機對照實驗的設計原則和統(tǒng)計檢驗的方法,成為實驗設計領(lǐng)域的開山之作。
1944年,在制造原子彈的過程中,曼哈頓計劃的領(lǐng)軍科學家奧本海默,用3種方法測試如何分離鈾235,這一步驟成為整個項目中最關(guān)鍵的環(huán)節(jié)之一。
1960年代,大衛(wèi)·奧格威用對照測試的方法驗證廣告的有效性——寫兩條不同的文案并要求報紙將其各印一半,同時在文案中留下索取免費樣品的郵編和地址,但樣式不一樣,最終根據(jù)實際樣品索取量來觀察哪種文案效果更好。
……
可以清楚地看到,隨機對照實驗作為一種方法論,在現(xiàn)代科學和商業(yè)發(fā)展中發(fā)揮了重要作用。
它本質(zhì)上能通過控制單一變量的方法來尋找最優(yōu)解決方案,已經(jīng)被廣泛運用到工程學、醫(yī)學、教育學和多個領(lǐng)域的商業(yè)實踐中。
而我們今天要聊的A/B測試其實就是隨機對照實驗在互聯(lián)網(wǎng)領(lǐng)域的具體應用。
二、A/B測試,互聯(lián)網(wǎng)巨頭的標配A/B測試——又被稱為小流量實驗。
通常是針對某個功能/UI/邏輯策略等,提供兩種(或多種)不同的備選解決方案,從總體用戶中隨機抽取一小部分流量,分配給不同方案,最終通過實驗數(shù)據(jù)對比來確定最優(yōu)方案。
今天,在硅谷和中國的互聯(lián)網(wǎng)頭部企業(yè),A/B測試已經(jīng)成為業(yè)務發(fā)展的標配。我們簡單梳理下A/B測試是如何風靡各大互聯(lián)網(wǎng)巨頭的。
2000年2月27日,谷歌搜索部門的一位工程師進行了互聯(lián)網(wǎng)時代的第一次A/B測試——他想知道搜索結(jié)果每頁展示多少條是效果最好的,當時默認為 10。
實驗是這樣設計的:
對于0.1%的搜索流量,每頁顯示20條結(jié)果;另外兩個0.1%分別顯示25條、30條。這次測試從直接結(jié)果看并不成功。由于技術(shù)故障,實驗組頁面的加載速度明顯慢于對照組,最終導致實驗的相關(guān)指標下降。
但谷歌因此獲得了意外收獲,他們發(fā)現(xiàn)即便是0.1秒的加載延遲也會顯著影響用戶滿意度。很快,谷歌將改善響應時間提升為高優(yōu)先級事項。
以這次實驗為開端,A/B測試在谷歌內(nèi)部快速流行起來。
2012年,據(jù)谷歌的首席經(jīng)濟學家范里安稱,谷歌每年就會開展超過5000次的A/B測試。
亞馬遜早期,工程師Greg Linden曾提出一個想法:在客戶支付時,根據(jù)他們購物車中的商品,向他們提供個性化的“沖動購買”建議。
他精心做了一個Demo,但演示后當時亞馬遜的一位副總裁武斷地否決了這一想法。Greg Linden并不氣餒,他業(yè)余時間用三個半月完成了這一功能的開發(fā),并對這個功能進行了小流量的測試。
結(jié)果證明,即便是這個極其粗糙、簡陋的版本,也讓實驗組用戶的購買規(guī)模提升了17%。
于是,“商品推薦”這個今天司空見慣的功能從此在亞馬遜開啟。
在Facebook,CEO扎克伯格曾公開宣稱:
“在任何給定的時間點,都不會只有一個版本的 Facebook 在線上運行,而是有超過一萬個,我們的實驗框架能隨時發(fā)現(xiàn)和感知用戶最細微的行為差異。”
在中國,頭部的互聯(lián)網(wǎng)企業(yè)也都有自己的A/B測試平臺。比如字節(jié)跳動的Libra、美團的Gemini、滴滴的阿波羅。
張一鳴曾表示:
“即使你有99%的把握某個名字比另一個名字更好,測一測又有什么關(guān)系呢?”
目前在字節(jié)跳動,每天同時進行的A/B測試達上萬場,單日新增實驗數(shù)量超過1500個,覆蓋400多項業(yè)務。截至今年3月底,字節(jié)跳動累計已經(jīng)做了70多萬次。
三、為什么互聯(lián)網(wǎng)巨頭熱衷于A/B測試?互聯(lián)網(wǎng)公司大規(guī)模運用A/B測試并非偶然,這背后深層次的原因在于:A/B測試是數(shù)據(jù)驅(qū)動理念的最佳落地實踐,它能以最小的風險實現(xiàn)業(yè)務的有效反饋。
字節(jié)跳動在發(fā)布APP的時候,通常會給APP取多個名字,打多個包上架到應用市場進行A/B測試,觀察不同名字的下載率、留存率等指標。
這背后其實是一種尊重客觀事實的決策哲學。
事實上,在硅谷的互聯(lián)網(wǎng)文化中,那些靠拍腦袋的決策有一個專有名詞“HiPPO”:”Highest-paid person’s opinion”,即“公司收入最高的那個人說了算”。
谷歌的技術(shù)專家Avinash Kaushik 曾說:
“大多數(shù)互聯(lián)網(wǎng)產(chǎn)品都很糟糕,因為 HiPPO 創(chuàng)造了它們。”
Netflix在2016年4月的一篇技術(shù)博客中寫道:
“通過對照測試的方法,我們確保產(chǎn)品變更不是由最固執(zhí)己見,和最有發(fā)言權(quán)的Netflix高管驅(qū)動,而是由實際的在線數(shù)據(jù)驅(qū)動,這是我們走向成功的基礎(chǔ)?!?/p>
有人會問:A/B測試的決策思想其實由來已久,為什么直到現(xiàn)在才變得流行起來?
答案是實驗成本。
在硬件產(chǎn)品時代,產(chǎn)品的開發(fā)成本很高,一臺電腦如果控制不同變量,事實上它就變成兩臺不同的電腦,本質(zhì)上屬于兩條產(chǎn)品線,而開發(fā)多條產(chǎn)品線對于硬件產(chǎn)品的成本是非常高的。
軟件產(chǎn)品時代開發(fā)成本同樣高昂,一個版本的Windows要開發(fā)數(shù)年,一個3A大作開發(fā)同樣動輒數(shù)年,這樣龐大的開發(fā)成本是無法同時進行不同版本的開發(fā)的。
同時,無論是硬件產(chǎn)品還是軟件產(chǎn)品,它們從開發(fā)、上市到客戶反饋,這個周期是極其漫長的,這樣冗長的周期也讓靈活多變的A/B測試難以大規(guī)模應用。
而到了互聯(lián)網(wǎng)時代,每一個產(chǎn)品特性都可以快速迭代,每一次迭代都能迅速得到反饋。
開發(fā)成本的降低和反饋周期的縮短,這兩重因素無疑給A/B測試提供了極其便利的實踐條件。
為了讓A/B測試的價值得到更大發(fā)揮,很多互聯(lián)網(wǎng)巨頭還將這項能力開放給C端用戶。
比如今日頭條發(fā)布文章的界面,作者可以取雙標題和雙封面,經(jīng)過小流量的測試之后,推薦系統(tǒng)會自動推薦點擊率高的標題。
Facebook的廣告系統(tǒng)也給廣告主提供了一項組合實驗能力,即客戶可以上傳不同的標題、描述、封面和按鈕。
Facebook自動對這些元素進行隨機組合,形成多個創(chuàng)意進行A/B測試,自動將預算分配到轉(zhuǎn)化率最高的創(chuàng)意組合上。
為什么今天傳統(tǒng)的“廣告大師”越來越少了?
因為互聯(lián)網(wǎng)廣告在很大程度上不再依靠“大師”的靈光乍現(xiàn),而是更多地依靠優(yōu)化師每天測試無數(shù)版文案和素材,甚至很多文案是機器生成的。
四、如何利用工具做好A/B測試?我們在上面的部分了解了A/B測試的原理和意義,很多公司會問:我知道在增長日益困難的今天,A/B測試是一個好東西,那到底應該如何付諸實踐呢?
的確,A/B測試的實踐并不是一個簡單的過程,它比很多人想象得要困難,這個困難體現(xiàn)在幾個層面:
首先,需要確定A/B測試的關(guān)鍵環(huán)節(jié)。
A/B測試到底測什么的問題,即企業(yè)必須清楚哪些環(huán)節(jié)是推動業(yè)務發(fā)展的關(guān)鍵,在關(guān)鍵環(huán)節(jié)上進行試驗。
如果找不到關(guān)鍵環(huán)節(jié),在無關(guān)痛癢的環(huán)節(jié)上,無論做多少A/B測試也是徒勞的。
其次,需要確保A/B測試過程的科學性和合理性。
比如控制單一變量,即確保實驗組和對照組只有一個關(guān)鍵變量是存在差異的;
比如確保流量分配的均勻隨機,即實驗組和對照組的流量是完全獨立的,不存在互相影響的關(guān)系。
最后,還需要確定合適的評價指標。
評價指標通常不止一個,是看A指標還是B指標?過程指標還是結(jié)果指標?短期指標還是長期指標?單個指標還是多重指標?這些都需要根據(jù)業(yè)務實際情況審慎決定。
所以,A/B測試并不是一件容易的事。要充分解決以上問題,對于企業(yè)而言,開發(fā)一套完整的實驗系統(tǒng)是其中的一個方案,但這通常需要較高的開發(fā)成本。
另一種方式是使用成熟的第三方測試工具。
比如字節(jié)跳動就將其內(nèi)部的A/B測試技術(shù)能力,通過其旗下的To B品牌“火山引擎”統(tǒng)一對外開放。
2014年,字節(jié)開始推動A/B測試的平臺化,2016年正式建立A/B測試平臺Libra。
運行至今,Libra已經(jīng)在字節(jié)的多個產(chǎn)品線驗證了有效性,同時經(jīng)過多年迭代,在實用性、易用性、靈活性等層面都得到了充分驗證。
火山引擎的A/B測試具體適用于哪些場景?主要有以下幾個:
個性化推送實驗:在運營場景下支持APP個性化推送試驗,比較不同組推送效果。可視化建站實驗:無需代碼,運營人員就可以直接在頁面上修改文案等元素進行試驗。多鏈接網(wǎng)頁實驗:在需要轉(zhuǎn)跳網(wǎng)頁的場景下,可以把流量打到不同的著陸頁上去對比評估效果??蛻舳撕头斩司幊虒嶒灒簭那岸说慕换ァ⒐δ艿胶蠖说牟呗院湍P蛢?yōu)化,支持灰度發(fā)布。火山引擎的A/B測試可以靈活支持獲客、留存、轉(zhuǎn)化、傳播等各個環(huán)節(jié)的測試工作。比如說:
獲客階段,可以看哪個文案更適合;轉(zhuǎn)化階段,可以看哪個算法效果更好;傳播階段,可以看哪個互動效果更佳。悟空租車就使用火山引擎的A/B測試,對整個租車流程進行了對照實驗。實驗的出發(fā)點是想減輕用戶對押金的壓迫感,提升轉(zhuǎn)化率。
悟空租車原有的流程是租金和押金在同一個頁面支付,用戶支付時心理成本較大,于是產(chǎn)品經(jīng)理設計了一個新方案:延遲支付押金,即先付租金再付押金。
但悟空租車不知道新方案是否奏效,于是就做了小流量的A/B測試。
很顯然,新方案頁面的流程更長,在直觀體驗上增加了用戶的操作成本,然而結(jié)果顯示,新方案的整體轉(zhuǎn)化率提升了7%。
這就是A/B測試的意義。
據(jù)我觀察,字節(jié)跳動對A/B測試的確有著非常深刻的理解,同時通過內(nèi)部的歷練和打磨,系統(tǒng)在同類產(chǎn)品中也的確最為成熟,可以切實為企業(yè)解決問題。
正如亞馬遜將本來給自己內(nèi)部使用的云服務開放出去一樣,字節(jié)跳動也希望將自己有價值的能力對外開放。
這種開放是一種增量,既是自己技術(shù)能力的變現(xiàn),也能通過市場驗證反哺團隊的技術(shù)水平。
五、總結(jié)A/B測試作為一種科學的實驗手段,能夠幫助企業(yè)在多種方案中尋求最優(yōu)解,以最小的風險前置性地驗證策略效果,為企業(yè)規(guī)避風險。
作為互聯(lián)網(wǎng)時代的企業(yè),理性擁抱前沿趨勢永遠是最優(yōu)的選擇。
#專欄作家#衛(wèi)夕,微信公眾號:衛(wèi)夕指北(ID:weixizhibei),人人都是產(chǎn)品經(jīng)理專欄作家,2018年年度作者。一名興趣廣泛的廣告產(chǎn)品經(jīng)理,致力于用簡單語言深度剖析互聯(lián)網(wǎng)相關(guān)的邏輯。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Unsplash,基于CC0協(xié)議
掃描二維碼推送至手機訪問。
版權(quán)聲明:本文由信途科技轉(zhuǎn)載于網(wǎng)絡,如有侵權(quán)聯(lián)系站長刪除。
轉(zhuǎn)載請注明出處http://macbookprostickers.com/xintu/10937.html