本文源于今日頭條算法工程師曹歡歡的分享,筆者結合自身理解和思考加以總結梳理,力求整理出每個(gè)產(chǎn)品經(jīng)理都可以在實(shí)操中運用的科學(xué)設計產(chǎn)品方法論。
今日頭條用了短短5年時(shí)間,成為移動(dòng)端新聞媒體的獨角獸,2016年末,完成10億美金D輪融資,估值近110億美元,成功擠入互聯(lián)網(wǎng)第二梯隊。如一句老話(huà)所說(shuō),世上沒(méi)有平白無(wú)故的成功,當了解了今日頭條如何打磨產(chǎn)品功能和交互設計后,筆者發(fā)現其成功是必然的,也是有跡可循的,這一切都源于自上而下的數據化思維。
本文源于今日頭條算法工程師曹歡歡的分享,筆者結合自身理解和思考加以總結梳理,力求整理出每個(gè)產(chǎn)品經(jīng)理都可以在實(shí)操中運用的科學(xué)設計產(chǎn)品方法論。
本文共分六個(gè)模塊:
一、今日頭條前世今生–介紹今日頭條近期數據,今日頭條的源起
二、數據思維做產(chǎn)品–CEO張一鳴如何解讀數據思維,詳述三個(gè)方法論
三、數據思維指導算法演化–頭條推薦算法概述
四、今日頭條的A/B測試系統–超級強大的科學(xué)實(shí)驗系統
五、需求從何而來(lái)?數據收集到何種程度?–科學(xué)嚴謹的實(shí)驗態(tài)度處理需求,收集全量用戶(hù)行為
六、如何低成本完成有效A/B測試–A/B測試的原則,注意事項、實(shí)踐方法和案例分析
介紹方法論之前,我們來(lái)看看今日頭條究竟有何成功之處。今日頭條是一個(gè)個(gè)性化信息推薦平臺,基于大數據和人工智能,做到信息推薦的千人千面,2017年6月數據顯示,今日頭條日活用戶(hù)超7700萬(wàn),月活用戶(hù)近1.8億,日均使用時(shí)長(cháng)超76分鐘,日均啟動(dòng)次數超13次,如此活躍的數據,出現在一個(gè)新聞信息類(lèi)應用實(shí)屬罕見(jiàn),今日頭條2017年營(yíng)收達到150億,其吸金能力也是讓人瞠目結舌。
接下來(lái),筆者帶著(zhù)大家來(lái)一起探秘今日頭條的成功之道——數據思維打磨產(chǎn)品。
今日頭條從起名字開(kāi)始就運用了數據思維,創(chuàng )始團隊沒(méi)有頭腦風(fēng)暴,沒(méi)有投票,沒(méi)有老大拍板兒,而是采用科學(xué)實(shí)驗的方式,通過(guò)數據觀(guān)測確定了頭條的名稱(chēng)。實(shí)驗方法如下所屬:
今日頭條CEO張一鳴所定義的數據思維包含三個(gè)維度:
按照特定維度對目標排序,分析top對象在特定屬性上的共同點(diǎn)。
(1)A/B測試定義
A/B測試是一種把實(shí)驗對象隨機分組,把一個(gè)或多個(gè)測試組的表現與對照相比較,進(jìn)行測試的方式。
(2)A/B測試目的
通過(guò)科學(xué)實(shí)驗設計,在保證采樣樣本無(wú)偏,有代表性的前提下,流量分割與小流量測試等方式,獲得具有代表性的實(shí)驗結論,并確信該結論在推廣到全部流量可信。
注意事項:測試組和對照組不要設計多個(gè)變量同時(shí)測,一次實(shí)驗只設置唯一變量,同時(shí)實(shí)驗組內分小組,盡量保證組間數據隨機分布,便于分析數據波動(dòng)影響。測試前需要定義核心觀(guān)測指標,通過(guò)指標數值變化,確定實(shí)驗結果的好壞。
交叉驗證用得最多的場(chǎng)景是涉及到人工運營(yíng)的場(chǎng)景,在評估時(shí)需要人工介入為文章分類(lèi),以保證推薦的準確,那么評估和審核都需要依賴(lài)人,人員能力的差異和流動(dòng)性導致評估和審核標準會(huì )變來(lái)變去,這就需要機器可以監控人的行為,每個(gè)評估的運營(yíng)人員有自己一個(gè)任務(wù)隊列,把一個(gè)要評估的樣本至少放到兩個(gè)以上的評估隊列里面去,就意味著(zhù)一個(gè)樣本最少有兩個(gè)人看過(guò),如果他們意見(jiàn)不一致,我們有一個(gè)資深的仲裁小組進(jìn)行仲裁。
推薦算法是今日頭條產(chǎn)品的靈魂。頭條推薦算法是一系列算法的策略的組合,每一個(gè)子系統的改進(jìn)都會(huì )對系統整體造成影響。
一個(gè)排序模型,搭配多個(gè)召回模型,通過(guò)召回模型做初篩,然后反饋給排序模型,節省99%的處理資源,推薦更快捷。
對推薦效果可能產(chǎn)生影響的因素:候選內容集合的變化、召回模塊的改進(jìn)和增加、推薦特征的增加、推薦系統架構的改進(jìn)、規則策略的改變。
今日頭條同時(shí)在線(xiàn)測試的實(shí)驗有很多,每月多達有上百個(gè)之多,如何科學(xué)的分配實(shí)驗流量,減少溝通,降低實(shí)驗成本,做到實(shí)驗結果可視化展示是必須思考的,于是出現了今日頭條的A/B測試系統。
共享實(shí)驗。是指實(shí)驗模型只測試某類(lèi)特定屬性用戶(hù),可以與其他非相關(guān)屬性的實(shí)驗共用實(shí)驗對象,流量桶分配邏輯與獨占實(shí)驗類(lèi)似,但是當其用戶(hù)可以分配到其他實(shí)驗中,復用部分用戶(hù)。如下圖所示:
基于這套系統,基于數據分析協(xié)助產(chǎn)品功能迭代(經(jīng)歷幾十個(gè)版本迭代),數百個(gè)有效改進(jìn)上線(xiàn),人均有效點(diǎn)擊提升40%,人均停留時(shí)長(cháng)提升50%。
互聯(lián)網(wǎng)產(chǎn)品的需求一般來(lái)源于用戶(hù)反饋或焦點(diǎn)小組需求收集,是一種信息的歸納總結,但是這部分數據是有偏信息,不可以簡(jiǎn)單粗暴的將用戶(hù)反饋的需求作為直接需求,所謂會(huì )哭的小孩有奶吃,很多時(shí)候,用得很好的用戶(hù)不反饋,用得不好的才反饋。如果你改變了,是不是傷害了那些不反饋的用戶(hù)呢?
其實(shí)你是不知道的,所以這些需求我們并不一定要做,只是先做一個(gè)候選實(shí)驗的需求池。如果一個(gè)需求兩三周持續在反饋,這個(gè)需求可能是一個(gè)強需求,那么做好了小渠道測試,用數據說(shuō)話(huà)。
(1)原生功能
(2)WAP頁(yè)面
閱讀細節行為收集,今日頭條已經(jīng)做到了近乎于眼動(dòng)測試的程度,通過(guò)數據可以分析用戶(hù)閱讀文章的滑屏速度,閱讀習慣,閱讀速度,什么地方快速滑過(guò),什么地方仔細閱讀,最終,以量化的形式反饋給內容創(chuàng )作者,幫助其持續優(yōu)化內容編輯。
產(chǎn)品核心競爭力=拉新能力*留存能力*變現能力。每項能力比對手強20%,整體差距超過(guò)70%,數據思維可以幫助團隊把每一項能力發(fā)揮到極致。
初創(chuàng )團隊可能沒(méi)有太多資源開(kāi)發(fā)多個(gè)版本進(jìn)行多渠道測試,一些大公司也不會(huì )如同今日頭條專(zhuān)門(mén)設計一個(gè)A/B測試系統,那么如何在沒(méi)有很多預算的情況下完成簡(jiǎn)易有效的A/B測試呢?首先,要理解A/B測試的原則,其次,一定要躲過(guò)一些坑,最后,就是根據實(shí)際情況確定測試方案(開(kāi)發(fā)參與實(shí)現方案討論)。
(1)多方案同時(shí)段并行測試;
(2)測試方案只有一個(gè)唯一變量;
(3)用戶(hù)行為數據收集;
(4)定義核心指標。
(1)一定要是單變量。如果兩個(gè)版本,每個(gè)版本有2處不同,最終分析的時(shí)候很難確定是哪個(gè)優(yōu)化導致的指標變化。
(2)統計置信度。受到樣本量影響(樣本太少,樣本代表性);置信水平(A方案49%,B方案51%,可能數據分流導致的偏差所致,分流有偏造成的影響)
(3)設置對比觀(guān)察數據組,即沒(méi)有任何調整的情況各項數據指標如何,用于實(shí)驗效果對比分析。
(1)從測試頁(yè)面類(lèi)型分類(lèi)
(2)從測試時(shí)間點(diǎn)分類(lèi)
樣本量足夠的情況下,可以考慮實(shí)驗組數據內部再做分組,如同今日頭條系統實(shí)現的部分,觀(guān)察用戶(hù)行為波動(dòng)性,保證測試結果置信度更高。
我們以P2P平臺為例,假設P2P平臺月新增1萬(wàn)注冊用戶(hù),9000用戶(hù)注冊未投資,以往通過(guò)短信告知用戶(hù)下發(fā)投資卷召回用戶(hù),效果非常不明顯,現在將9000用戶(hù)隨機分成3組,每組3000用戶(hù),分別是1組(對比觀(guān)測組),2組(紅包召回組),3組(話(huà)費召回組),短信文案知識紅包和話(huà)費區別。觀(guān)察三組用戶(hù)在短信發(fā)出后一天內的行為變化,核心指標定為登錄APP行為。
紅包和話(huà)費充值初期數量不會(huì )很大,可以考慮設計成手動(dòng)下發(fā),如果用戶(hù)投資則固定時(shí)間充值,無(wú)需相應開(kāi)發(fā)。
通過(guò)對比用戶(hù)登錄和投資行為,可以很明顯的看出何種召回方式效果更好,因為是小數據樣本檢測,充值量初期不會(huì )太大,可以節省話(huà)費充值對接開(kāi)發(fā),測試效果出來(lái),優(yōu)化完善,確認召回方案后再進(jìn)行開(kāi)發(fā)才相對高效,因為很可能新召回策略并不比原有策略有效。
希望本文對產(chǎn)品經(jīng)理們有所幫助,可以為您的產(chǎn)品設計提供科學(xué)的方法,也希望在留言區看到您的留言,我們一起交流小團隊如何使用A/B測試,科學(xué)設計產(chǎn)品。
來(lái)源:pmcaff 互聯(lián)網(wǎng)產(chǎn)品研究中心