讓商業(yè)變得更智能

以今日頭條為例,詳述數據思維驅動(dòng)產(chǎn)品設計的方法論
APP開(kāi)發(fā)設計

本文源于今日頭條算法工程師曹歡歡的分享,筆者結合自身理解和思考加以總結梳理,力求整理出每個(gè)產(chǎn)品經(jīng)理都可以在實(shí)操中運用的科學(xué)設計產(chǎn)品方法論。

今日頭條用了短短5年時(shí)間,成為移動(dòng)端新聞媒體的獨角獸,2016年末,完成10億美金D輪融資,估值近110億美元,成功擠入互聯(lián)網(wǎng)第二梯隊。如一句老話(huà)所說(shuō),世上沒(méi)有平白無(wú)故的成功,當了解了今日頭條如何打磨產(chǎn)品功能和交互設計后,筆者發(fā)現其成功是必然的,也是有跡可循的,這一切都源于自上而下的數據化思維。

本文源于今日頭條算法工程師曹歡歡的分享,筆者結合自身理解和思考加以總結梳理,力求整理出每個(gè)產(chǎn)品經(jīng)理都可以在實(shí)操中運用的科學(xué)設計產(chǎn)品方法論。

本文共分六個(gè)模塊:

一、今日頭條前世今生–介紹今日頭條近期數據,今日頭條的源起

二、數據思維做產(chǎn)品–CEO張一鳴如何解讀數據思維,詳述三個(gè)方法論

三、數據思維指導算法演化–頭條推薦算法概述

四、今日頭條的A/B測試系統–超級強大的科學(xué)實(shí)驗系統

五、需求從何而來(lái)?數據收集到何種程度?–科學(xué)嚴謹的實(shí)驗態(tài)度處理需求,收集全量用戶(hù)行為

六、如何低成本完成有效A/B測試–A/B測試的原則,注意事項、實(shí)踐方法和案例分析

一、今日頭條前世今生

介紹方法論之前,我們來(lái)看看今日頭條究竟有何成功之處。今日頭條是一個(gè)個(gè)性化信息推薦平臺,基于大數據和人工智能,做到信息推薦的千人千面,2017年6月數據顯示,今日頭條日活用戶(hù)超7700萬(wàn),月活用戶(hù)近1.8億,日均使用時(shí)長(cháng)超76分鐘,日均啟動(dòng)次數超13次,如此活躍的數據,出現在一個(gè)新聞信息類(lèi)應用實(shí)屬罕見(jiàn),今日頭條2017年營(yíng)收達到150億,其吸金能力也是讓人瞠目結舌。

接下來(lái),筆者帶著(zhù)大家來(lái)一起探秘今日頭條的成功之道——數據思維打磨產(chǎn)品。

今日頭條從起名字開(kāi)始就運用了數據思維,創(chuàng )始團隊沒(méi)有頭腦風(fēng)暴,沒(méi)有投票,沒(méi)有老大拍板兒,而是采用科學(xué)實(shí)驗的方式,通過(guò)數據觀(guān)測確定了頭條的名稱(chēng)。實(shí)驗方法如下所屬:

  • 首先,將appstore上各類(lèi)免費榜單的前10名整理出來(lái),然后根據名字歸類(lèi)(朗朗上口白話(huà)類(lèi),內涵情懷類(lèi),模擬特殊聲音類(lèi),公司名+用途類(lèi)等),分析那各類(lèi)數量占比。分析結論是朗朗上口的大白話(huà)效果最好。
  • 其次,分渠道A/B測試,確定先驗效果類(lèi)似的發(fā)布渠道,分別投放,界面功能logo完全一樣,統計各個(gè)渠道的用戶(hù)下載和活躍等核心數據指標,《今日頭條》效果最好。

二、數據思維做產(chǎn)品

今日頭條CEO張一鳴所定義的數據思維包含三個(gè)維度:

  1. 收集數據。無(wú)偏,全面,客觀(guān)。
  2. 做出決策。根據數據做決策,拋棄主觀(guān)經(jīng)驗,情感因素,做到客觀(guān)解釋。
  3. 高效執行。3個(gè)方法論(歸納總結,A/B測試,雙盲交叉驗證)+高效A/B測試系統

1、歸納總結–最樸素的數據思維工具

按照特定維度對目標排序,分析top對象在特定屬性上的共同點(diǎn)。

2、A/B測試——科學(xué)產(chǎn)品觀(guān)的關(guān)鍵

(1)A/B測試定義

A/B測試是一種把實(shí)驗對象隨機分組,把一個(gè)或多個(gè)測試組的表現與對照相比較,進(jìn)行測試的方式。

(2)A/B測試目的

通過(guò)科學(xué)實(shí)驗設計,在保證采樣樣本無(wú)偏,有代表性的前提下,流量分割與小流量測試等方式,獲得具有代表性的實(shí)驗結論,并確信該結論在推廣到全部流量可信。

注意事項:測試組和對照組不要設計多個(gè)變量同時(shí)測,一次實(shí)驗只設置唯一變量,同時(shí)實(shí)驗組內分小組,盡量保證組間數據隨機分布,便于分析數據波動(dòng)影響。測試前需要定義核心觀(guān)測指標,通過(guò)指標數值變化,確定實(shí)驗結果的好壞。

3、雙盲交叉驗證——確保信息審核高效快捷

交叉驗證用得最多的場(chǎng)景是涉及到人工運營(yíng)的場(chǎng)景,在評估時(shí)需要人工介入為文章分類(lèi),以保證推薦的準確,那么評估和審核都需要依賴(lài)人,人員能力的差異和流動(dòng)性導致評估和審核標準會(huì )變來(lái)變去,這就需要機器可以監控人的行為,每個(gè)評估的運營(yíng)人員有自己一個(gè)任務(wù)隊列,把一個(gè)要評估的樣本至少放到兩個(gè)以上的評估隊列里面去,就意味著(zhù)一個(gè)樣本最少有兩個(gè)人看過(guò),如果他們意見(jiàn)不一致,我們有一個(gè)資深的仲裁小組進(jìn)行仲裁。

三、數據思維指導算法演化

推薦算法是今日頭條產(chǎn)品的靈魂。頭條推薦算法是一系列算法的策略的組合,每一個(gè)子系統的改進(jìn)都會(huì )對系統整體造成影響。

  • 推薦排序模型:數百億特征,涵蓋你能想到的一切可以幫助做判斷的信息。
  • 推薦召回模型:若干策略獨立的負責判斷,哪些內容有資格進(jìn)入排序算法。

一個(gè)排序模型,搭配多個(gè)召回模型,通過(guò)召回模型做初篩,然后反饋給排序模型,節省99%的處理資源,推薦更快捷。

對推薦效果可能產(chǎn)生影響的因素:候選內容集合的變化、召回模塊的改進(jìn)和增加、推薦特征的增加、推薦系統架構的改進(jìn)、規則策略的改變。

四、今日頭條的A/B測試系統

今日頭條同時(shí)在線(xiàn)測試的實(shí)驗有很多,每月多達有上百個(gè)之多,如何科學(xué)的分配實(shí)驗流量,減少溝通,降低實(shí)驗成本,做到實(shí)驗結果可視化展示是必須思考的,于是出現了今日頭條的A/B測試系統。

  • 系統實(shí)驗創(chuàng )建屬性:實(shí)驗名稱(chēng),實(shí)驗時(shí)間,實(shí)驗類(lèi)型(共享or獨占),過(guò)濾流量條件,實(shí)驗組ID
  • 實(shí)驗動(dòng)作概述:動(dòng)作收集,日志處理,分布式統計,寫(xiě)入數據庫,數據可視化。
  • 獨占實(shí)驗。是指實(shí)驗模型比較復雜,任何其他因素改變可能影響到實(shí)驗結果準確性,所以用戶(hù)不可以與其他實(shí)驗共享,申請完成后,系統自動(dòng)隨機從流量桶中分配出流量用于實(shí)驗,留出一半未調整用戶(hù),作為對照數據組,將實(shí)驗數據桶分開(kāi),觀(guān)察數據波動(dòng)性,防止測試結果有偏。

共享實(shí)驗。是指實(shí)驗模型只測試某類(lèi)特定屬性用戶(hù),可以與其他非相關(guān)屬性的實(shí)驗共用實(shí)驗對象,流量桶分配邏輯與獨占實(shí)驗類(lèi)似,但是當其用戶(hù)可以分配到其他實(shí)驗中,復用部分用戶(hù)。如下圖所示:

基于這套系統,基于數據分析協(xié)助產(chǎn)品功能迭代(經(jīng)歷幾十個(gè)版本迭代),數百個(gè)有效改進(jìn)上線(xiàn),人均有效點(diǎn)擊提升40%,人均停留時(shí)長(cháng)提升50%。

五、需求從何而來(lái)?數據收集到何種程度?

1、需求從何而來(lái)

互聯(lián)網(wǎng)產(chǎn)品的需求一般來(lái)源于用戶(hù)反饋或焦點(diǎn)小組需求收集,是一種信息的歸納總結,但是這部分數據是有偏信息,不可以簡(jiǎn)單粗暴的將用戶(hù)反饋的需求作為直接需求,所謂會(huì )哭的小孩有奶吃,很多時(shí)候,用得很好的用戶(hù)不反饋,用得不好的才反饋。如果你改變了,是不是傷害了那些不反饋的用戶(hù)呢?

其實(shí)你是不知道的,所以這些需求我們并不一定要做,只是先做一個(gè)候選實(shí)驗的需求池。如果一個(gè)需求兩三周持續在反饋,這個(gè)需求可能是一個(gè)強需求,那么做好了小渠道測試,用數據說(shuō)話(huà)。

2、WAP頁(yè)面VS原生功能

(1)原生功能

  • 優(yōu)勢:響應速度,復雜交互流暢,異常狀態(tài)顯示,緩存效果等。
  • 劣勢:更新需要發(fā)版,出現問(wèn)題無(wú)法快速調整。
  • 發(fā)布方式:先在小渠道發(fā)版測試,與老版本對比,如果一上來(lái)留存率降低5%,那這個(gè)改動(dòng)肯定有問(wèn)題。如果說(shuō)波動(dòng)在正負1之間,這個(gè)東西可能有用,可以大渠道發(fā)版A/B測試。今日頭條可以做到從應用市場(chǎng)提交同一個(gè)版本,但是用戶(hù)下載之后,通過(guò)服務(wù)端的遠程控制,讓每個(gè)人看到的界面是不一樣的,確認沒(méi)有問(wèn)題后,將改進(jìn)合并到主開(kāi)發(fā)分支。

(2)WAP頁(yè)面

  • 優(yōu)勢:隨改隨上,反應迅速
  • 劣勢:一些交互和問(wèn)題場(chǎng)景沒(méi)有原生體驗好
  • 發(fā)布方式:利用A/B測試系統,隨測隨發(fā),出現問(wèn)題隨時(shí)調整下架。

3、“全量”用戶(hù)行為數據收集

  • 根據人的特征(職業(yè),年齡,性別,興趣愛(ài)好,機型,短期點(diǎn)擊行為,搜索行為,收藏行為)
  • 根據環(huán)境特征(場(chǎng)景,時(shí)間-飯后或周末,網(wǎng)絡(luò )環(huán)境-wifi或移動(dòng)流量)
  • 根據文章特征(文章時(shí)效性,文章熱度,相似文章,點(diǎn)擊和不點(diǎn)擊是有偏的,停留時(shí)間,閱讀的細節行為收集)

閱讀細節行為收集,今日頭條已經(jīng)做到了近乎于眼動(dòng)測試的程度,通過(guò)數據可以分析用戶(hù)閱讀文章的滑屏速度,閱讀習慣,閱讀速度,什么地方快速滑過(guò),什么地方仔細閱讀,最終,以量化的形式反饋給內容創(chuàng )作者,幫助其持續優(yōu)化內容編輯。

4、創(chuàng )業(yè)初期產(chǎn)品的核心競爭力模型

產(chǎn)品核心競爭力=拉新能力*留存能力*變現能力。每項能力比對手強20%,整體差距超過(guò)70%,數據思維可以幫助團隊把每一項能力發(fā)揮到極致。

六、如何低成本完成有效A/B測試

初創(chuàng )團隊可能沒(méi)有太多資源開(kāi)發(fā)多個(gè)版本進(jìn)行多渠道測試,一些大公司也不會(huì )如同今日頭條專(zhuān)門(mén)設計一個(gè)A/B測試系統,那么如何在沒(méi)有很多預算的情況下完成簡(jiǎn)易有效的A/B測試呢?首先,要理解A/B測試的原則,其次,一定要躲過(guò)一些坑,最后,就是根據實(shí)際情況確定測試方案(開(kāi)發(fā)參與實(shí)現方案討論)。

1、A/B測試原則

(1)多方案同時(shí)段并行測試;

(2)測試方案只有一個(gè)唯一變量;

(3)用戶(hù)行為數據收集;

(4)定義核心指標。

2、A/B測試注意事項

(1)一定要是單變量。如果兩個(gè)版本,每個(gè)版本有2處不同,最終分析的時(shí)候很難確定是哪個(gè)優(yōu)化導致的指標變化。

(2)統計置信度。受到樣本量影響(樣本太少,樣本代表性);置信水平(A方案49%,B方案51%,可能數據分流導致的偏差所致,分流有偏造成的影響)

(3)設置對比觀(guān)察數據組,即沒(méi)有任何調整的情況各項數據指標如何,用于實(shí)驗效果對比分析。

3、實(shí)踐方法

(1)從測試頁(yè)面類(lèi)型分類(lèi)

  • 原生功能A/B測試。選擇渠道流量類(lèi)似的小渠道進(jìn)行小渠道發(fā)版測試,確定方案后,在主流渠道發(fā)版A/B測試。
  • WAP/H5頁(yè)面A/B測試。通過(guò)后端或前端控制,進(jìn)行A/B測試,具體測試流程見(jiàn)下文:A/B測試實(shí)踐全總結
  • 營(yíng)銷(xiāo)活動(dòng)的A/B測試。通過(guò)短信、站內消息或公眾號喚醒用戶(hù),可以進(jìn)行用戶(hù)分桶后批量通知,觀(guān)察后續用戶(hù)行為操作?;蚴峭ㄟ^(guò)活動(dòng)banner引導入活動(dòng)詳情頁(yè),通過(guò)活動(dòng)頁(yè)引導的A/B測試與WAP頁(yè)面類(lèi)似。

(2)從測試時(shí)間點(diǎn)分類(lèi)

  • 實(shí)時(shí)分流測試。實(shí)時(shí)分流測試需要開(kāi)發(fā)參與,進(jìn)行服務(wù)器分流或數據庫分流測試,并且進(jìn)行數據埋點(diǎn),用于用戶(hù)行為分析。
  • 定性后向分流測試。從歷史數據中篩選出測試用戶(hù)組和對比觀(guān)測用戶(hù)組,數據選擇需要足夠樣本量,否則測試結果的置信度會(huì )很低,這種后向通知模式比較容易執行,但是并不適用所有場(chǎng)景,常用語(yǔ)召回用戶(hù),活動(dòng)通知使用,通過(guò)短信和微信服務(wù)號/訂閱好通知消息進(jìn)行喚醒。

樣本量足夠的情況下,可以考慮實(shí)驗組數據內部再做分組,如同今日頭條系統實(shí)現的部分,觀(guān)察用戶(hù)行為波動(dòng)性,保證測試結果置信度更高。

4、案例實(shí)操:P2P平臺用戶(hù)投資引導A/B測試

我們以P2P平臺為例,假設P2P平臺月新增1萬(wàn)注冊用戶(hù),9000用戶(hù)注冊未投資,以往通過(guò)短信告知用戶(hù)下發(fā)投資卷召回用戶(hù),效果非常不明顯,現在將9000用戶(hù)隨機分成3組,每組3000用戶(hù),分別是1組(對比觀(guān)測組),2組(紅包召回組),3組(話(huà)費召回組),短信文案知識紅包和話(huà)費區別。觀(guān)察三組用戶(hù)在短信發(fā)出后一天內的行為變化,核心指標定為登錄APP行為。

紅包和話(huà)費充值初期數量不會(huì )很大,可以考慮設計成手動(dòng)下發(fā),如果用戶(hù)投資則固定時(shí)間充值,無(wú)需相應開(kāi)發(fā)。

通過(guò)對比用戶(hù)登錄和投資行為,可以很明顯的看出何種召回方式效果更好,因為是小數據樣本檢測,充值量初期不會(huì )太大,可以節省話(huà)費充值對接開(kāi)發(fā),測試效果出來(lái),優(yōu)化完善,確認召回方案后再進(jìn)行開(kāi)發(fā)才相對高效,因為很可能新召回策略并不比原有策略有效。

希望本文對產(chǎn)品經(jīng)理們有所幫助,可以為您的產(chǎn)品設計提供科學(xué)的方法,也希望在留言區看到您的留言,我們一起交流小團隊如何使用A/B測試,科學(xué)設計產(chǎn)品。

來(lái)源:pmcaff 互聯(lián)網(wǎng)產(chǎn)品研究中心

APP開(kāi)發(fā)設計
亚洲一区二区中文字幕无_日本啪啪一区免费完整视频_91caop国产在线_中文字幕欧美日本亚洲