ABtest越來(lái)越受到大家的重視,快速的、靈活的快速對(duì)比實(shí)驗(yàn)?zāi)苎杆俚恼页鰡?wèn)題所在,避免了大范圍的資源浪費(fèi)。所以設(shè)計(jì)一個(gè)好的實(shí)驗(yàn)是至關(guān)重要的。
簡(jiǎn)單來(lái)說(shuō),A/B測(cè)試在產(chǎn)品優(yōu)化中的應(yīng)用方法是:在產(chǎn)品正式迭代發(fā)版之前,為同一個(gè)目標(biāo)制定兩個(gè)(或以上)方案,將用戶(hù)流量對(duì)應(yīng)分成幾組,在保證每組用戶(hù)特征相同的前提下,讓用戶(hù)分別看到不同的方案設(shè)計(jì),根據(jù)幾組用戶(hù)的真實(shí)數(shù)據(jù)反饋,科學(xué)的幫助產(chǎn)品進(jìn)行決策。
A/B測(cè)試的應(yīng)用方式?jīng)Q定了它擁有的三大特性:先驗(yàn)性、并行性和科學(xué)性。
先驗(yàn)性:?A/B測(cè)試其實(shí)是一種“先驗(yàn)”的試驗(yàn)體系,屬于預(yù)測(cè)型結(jié)論,與“后驗(yàn)”的歸納性結(jié)論差別巨大。同樣是用數(shù)據(jù)統(tǒng)計(jì)與分析版本的好壞,以往的方式是先將版本發(fā)布,再通過(guò)數(shù)據(jù)驗(yàn)證效果,而A/B 測(cè)試卻是通過(guò)科學(xué)的試驗(yàn)設(shè)計(jì)、采樣樣本代表性、流量分割與小流量測(cè)試等方式來(lái)獲得具有代表性的試驗(yàn)結(jié)論,這樣就可以用很少的樣本量就能推廣到全部流量可信。
并行性:?A/B測(cè)試是將兩個(gè)或以上的方案同時(shí)在線試驗(yàn),這樣做的好處在于保證了每個(gè)版本所處環(huán)境的一致性,便于更加科學(xué)客觀地對(duì)比優(yōu)劣。同時(shí),也節(jié)省了驗(yàn)證的時(shí)間,無(wú)需在驗(yàn)證完一個(gè)版本之后再測(cè)試另一個(gè)。
科學(xué)性:?這里強(qiáng)調(diào)的是流量分配的科學(xué)性。A/B 測(cè)試的正確做法,是將相似特征的用戶(hù)均勻的分配到試驗(yàn)組中,確保每個(gè)組別的用戶(hù)特征的相似性,從而避免出現(xiàn)數(shù)據(jù)偏差,使得試驗(yàn)的結(jié)果更有代表性。
首先需要明確,這種做法不是真正意義上的A/B測(cè)試。而這一現(xiàn)象,經(jīng)常出現(xiàn)在如今的廣告投放的環(huán)節(jié)。廣告主為了提升著陸頁(yè)的轉(zhuǎn)化率,會(huì)選擇將不同的廣告版本進(jìn)行輪流投放展示。
但這一做法并不能保證每個(gè)版本所處的環(huán)境相同,例如選在工作日的晚七點(diǎn)黃金檔和下午三點(diǎn)時(shí)段,受眾群體會(huì)有明顯區(qū)別,以至于最終效果是否有差異,甚至導(dǎo)致效果不同的原因是很難下定論的。
正確做法:?不同版本方案并行(同時(shí))上線試驗(yàn),盡可能的降低所有版本的測(cè)試環(huán)境差別。
對(duì)于一些已經(jīng)意識(shí)到數(shù)據(jù)先驗(yàn)重要性的企業(yè)來(lái)說(shuō),為了驗(yàn)證新版本對(duì)于用戶(hù)使用真實(shí)影響,可能會(huì)選擇將不同版本打包,分別投放到不同的應(yīng)用市場(chǎng),當(dāng)發(fā)現(xiàn)其中某版本的數(shù)據(jù)表現(xiàn)的最好,就決定將該版本全量上線。
更有甚者,會(huì)隨機(jī)選取一部分用戶(hù)(甚至是公司內(nèi)部人員)進(jìn)行前期試用,根據(jù)數(shù)據(jù)反饋決定迭代版本。這都違背了A/B測(cè)試的科學(xué)流量分配的原則,很容易造成辛普森悖論(即某個(gè)條件下的兩組數(shù)據(jù),分別討論時(shí)都會(huì)滿(mǎn)足某種性質(zhì)或趨勢(shì),可一旦合并起來(lái)考慮,卻可能導(dǎo)致相反的結(jié)論)。
正確做法:?科學(xué)的進(jìn)行流量分配,保證每個(gè)試驗(yàn)版本的用戶(hù)特征相類(lèi)似。
不少企業(yè)會(huì)在新版的頁(yè)面上留下返回老版本的入口,讓用戶(hù)自主選擇使用哪一版,通過(guò)收集返回按鈕的點(diǎn)擊率來(lái)判斷最佳版本。但該思路不利于統(tǒng)計(jì)分析用戶(hù)在新版的行為數(shù)據(jù),因?yàn)橛脩?hù)離開(kāi)新版本可能單純是因?yàn)榱?xí)慣使用老版本,而不是認(rèn)為新版本的體驗(yàn)不好,最終導(dǎo)致了試驗(yàn)結(jié)果的不準(zhǔn)確。
正確做法:?讓用戶(hù)展現(xiàn)對(duì)不同版本的真實(shí)使用體驗(yàn),企業(yè)則應(yīng)實(shí)時(shí)關(guān)注各版本的數(shù)據(jù)表現(xiàn),并根據(jù)數(shù)據(jù)反饋及時(shí)調(diào)整試驗(yàn)流量。
這一誤區(qū)又包括了兩個(gè)不同的內(nèi)容:
其一,認(rèn)為只有當(dāng)試驗(yàn)版本結(jié)果優(yōu)于原始版本時(shí),試驗(yàn)才算成功。事實(shí)上,A/B 測(cè)試是用于選擇最佳版本的工具。試驗(yàn)可能出現(xiàn)的結(jié)果分為三種:試驗(yàn)版本有提升(試驗(yàn)版本最佳)、無(wú)明顯差異(兩版本均可)、試驗(yàn)版本的表現(xiàn)比原始版本糟糕(原始版本最佳),這三種結(jié)果其實(shí)都說(shuō)明了試驗(yàn)的成功。
其二,單從試驗(yàn)的整體數(shù)據(jù)結(jié)果,就推論所有場(chǎng)景的表現(xiàn)效果。例如,當(dāng)A/B測(cè)試的結(jié)果表明試驗(yàn)版本的數(shù)據(jù)差于原始版本時(shí),就認(rèn)定所有的地區(qū)或渠道的效果都是負(fù)面的。
但如果細(xì)分每個(gè)版本中不同瀏覽器的數(shù)據(jù),可能會(huì)發(fā)現(xiàn):由于某一瀏覽器的明顯劣勢(shì),導(dǎo)致整體試驗(yàn)數(shù)據(jù)不佳。因此,不要只專(zhuān)注于試驗(yàn)數(shù)據(jù)的整體表現(xiàn),而忽略了細(xì)分場(chǎng)景下可能導(dǎo)致的結(jié)果偏差。
正確做法:?在分析試驗(yàn)整體數(shù)據(jù)的同時(shí),需要從多個(gè)維度細(xì)分考量試驗(yàn)數(shù)據(jù)結(jié)果
盡管A/B 測(cè)試可以彌補(bǔ)產(chǎn)品優(yōu)化中遇到的不足,但它并不完全適用于所有的產(chǎn)品。因?yàn)锳/B 測(cè)試的結(jié)果需要大量數(shù)據(jù)支撐,日流量越大的網(wǎng)站得出結(jié)果越準(zhǔn)確。通常來(lái)說(shuō),我們建議在進(jìn)行A/B測(cè)試時(shí),能夠保證?每個(gè)版本的日流量在1000個(gè)UV以上?,否則試驗(yàn)周期將會(huì)很長(zhǎng),或很難獲得準(zhǔn)確(結(jié)果收斂)的數(shù)據(jù)結(jié)果推論。
說(shuō)完什么樣的產(chǎn)品適合用A/B 測(cè)試,接下來(lái)我們將從優(yōu)化內(nèi)容和應(yīng)用場(chǎng)景兩個(gè)方面說(shuō)明A/B測(cè)試可以用在哪些地方,希望能給你一些啟發(fā)。
產(chǎn)品UI
不同行業(yè)的產(chǎn)品需要不同的風(fēng)格,同時(shí)還要與企業(yè)的品牌相得益彰。利用A/B 測(cè)試優(yōu)化UI能給用戶(hù)帶來(lái)更好的交互體驗(yàn)和視覺(jué)感受。
文案內(nèi)容
顧名思義是指用戶(hù)閱讀到的文字內(nèi)容,它貫穿一個(gè)產(chǎn)品的所有部分,小到圖片配文和按鈕文字,大到文章標(biāo)題甚至版塊主題。這些部分都可以嘗試變換文案內(nèi)容,測(cè)試不同方案的數(shù)據(jù)效果。
頁(yè)面布局
有些時(shí)候,可能根本不需要對(duì)產(chǎn)品的UI或是文案內(nèi)容作出調(diào)整,只是在布局排版上的改變,就可以出現(xiàn)增長(zhǎng)的效果。
產(chǎn)品功能
想給產(chǎn)品增加一個(gè)新功能,可是很難確定是否能達(dá)到用戶(hù)的預(yù)期,如果盲目上線,可能會(huì)造成一些損失。使用A/B 測(cè)試,對(duì)你的用戶(hù)真正負(fù)責(zé)。 例如:社交類(lèi)產(chǎn)品在付費(fèi)查看照片的新功能正式上線前,需要進(jìn)行A/B 測(cè)試,以驗(yàn)證功能的使用情況和效果。
推薦算法
包括基于內(nèi)容的推薦算法(根據(jù)用戶(hù)的歷史記錄推薦相似內(nèi)容)、基于協(xié)同過(guò)濾的推薦算法(根據(jù)有相似興趣用戶(hù)的行為推薦相關(guān)內(nèi)容)、基于關(guān)聯(lián)規(guī)則的推薦算法(根據(jù)內(nèi)容本身的相關(guān)性給用戶(hù)推薦),最終提高用戶(hù)使用黏性。
廣告著陸頁(yè)
著陸頁(yè)作為互聯(lián)網(wǎng)營(yíng)銷(xiāo)中流量的承接和轉(zhuǎn)化的關(guān)鍵步驟,如何讓訪客在看到廣告(或營(yíng)銷(xiāo)頁(yè)面)后點(diǎn)擊進(jìn)入著陸頁(yè),并繼續(xù)保持對(duì)您的產(chǎn)品或服務(wù)的興趣,乃至產(chǎn)生好感,最終完成注冊(cè)、購(gòu)買(mǎi)、分享等轉(zhuǎn)化行為是十分重要的。A/B測(cè)試能夠幫助你最大化你的營(yíng)銷(xiāo)ROI。
Web/H5 頁(yè)面
除廣告營(yíng)銷(xiāo)的傳播外,產(chǎn)品的官網(wǎng)頁(yè)面(不論是PC端還是移動(dòng)端)始終是用戶(hù)了解產(chǎn)品的重要渠道。因此,如何讓用戶(hù)更好的了解產(chǎn)品信息,激發(fā)用戶(hù)產(chǎn)生進(jìn)一步行為意愿,從而得到更高的注冊(cè)率、購(gòu)買(mǎi)率、下載率等,是Web端頁(yè)面優(yōu)化的首要目標(biāo)。利用A/B測(cè)試,可以在較少的成本支出下,找到頁(yè)面的最佳展現(xiàn)方法。
APP用戶(hù)體驗(yàn)
隨著C端用戶(hù)的海量進(jìn)入,產(chǎn)品的復(fù)雜度越來(lái)越高,新版本的決策風(fēng)險(xiǎn)也急劇提升,保持產(chǎn)品核心業(yè)務(wù)數(shù)據(jù)穩(wěn)步增長(zhǎng)是每個(gè)App的版本目標(biāo),通過(guò)A/B測(cè)試在每個(gè)版本正式發(fā)布之前驗(yàn)證版本的數(shù)據(jù)表現(xiàn),讓每次迭代都能得到確定性增長(zhǎng)。
媒體廣告投放與管理
對(duì)于媒體和廣告技術(shù)公司而言,可以通過(guò)A/B測(cè)試實(shí)現(xiàn)由設(shè)計(jì)與數(shù)據(jù)驅(qū)動(dòng)的創(chuàng)新性廣告產(chǎn)品的優(yōu)化。
一方面借助測(cè)試可以?xún)?yōu)化廣告投放效果和廣告資源填充率,以達(dá)到提升廣告單價(jià)的目標(biāo);另一方面還能衡量現(xiàn)有廣告產(chǎn)品對(duì)用戶(hù)體驗(yàn)的影響,通過(guò)不斷提高用戶(hù)體驗(yàn)的廣告產(chǎn)品,從而驅(qū)動(dòng)更高的移動(dòng)廣告業(yè)務(wù)收入。
灰度發(fā)布
目前產(chǎn)品優(yōu)化迭代的方式,通常是直接將某版本上線發(fā)布給全部用戶(hù),一旦遇到線上事故(或BUG),對(duì)用戶(hù)的影響極大,解決問(wèn)題周期較長(zhǎng),甚至有時(shí)不得不回滾到前一版本,嚴(yán)重影響了用戶(hù)體驗(yàn)。A/B測(cè)試通過(guò)給小批量用戶(hù)發(fā)放版本,有效減少全用戶(hù)發(fā)生線上事故/重大BUG的概率,絕大多數(shù)用戶(hù)對(duì)BUG無(wú)感知,最大程度保證了用戶(hù)的良好體驗(yàn)。
ABtest適用于用戶(hù)量比較大的產(chǎn)品類(lèi)型,提供的只是我們的一種工作思路,并不是神一樣的存在,既不能高估也不能低估。
作者:白高粱
來(lái)源:公眾號(hào):白高粱
136 0806 8886【加微信請(qǐng)注明來(lái)意】
四川省成都市高新區(qū)天府三街1599號(hào)(天府三街與南華路交匯處)