本文最初發(fā)表于作者個(gè)人博客,經(jīng)原作者 Erik Bernhardsson 授權(quán),InfoQ 中文站翻譯并分享。
這篇文章所提及的故事背景是在一家處于創(chuàng)業(yè)中期階段的初創(chuàng)企業(yè)(年收入約 1000 萬美元)組建了一支小型數(shù)據(jù)團(tuán)隊(duì)(大約 4 人),盡管這個(gè)故事可能發(fā)生在很多不同的公司。這個(gè)故事是根據(jù)第 n (n≤3) 手經(jīng)驗(yàn)編造的,側(cè)重于團(tuán)隊(duì)和組織,而非技術(shù)本身。為了表示準(zhǔn)確,我特意使用了“數(shù)據(jù)科學(xué)家”這一術(shù)語來代表非常寬泛的概念。
初出茅廬,困難重重這是你成為超級(jí)大公司數(shù)據(jù)團(tuán)隊(duì)負(fù)責(zé)人的第一天,在你的面試過程中,首席執(zhí)行官迅速而充滿激情地介紹了世界正在發(fā)生的變化,以及公司為什么需要跟上數(shù)據(jù)增長的趨勢,整個(gè)執(zhí)行團(tuán)隊(duì)都很興奮。
在最初幾個(gè)小時(shí)內(nèi),你可以訪問所有的主要系統(tǒng)。你開始在 Git repo 中瀏覽,并發(fā)現(xiàn)了一些有趣的代碼。這看上去像是一個(gè)用于預(yù)測流失率的神經(jīng)網(wǎng)絡(luò)。你開始分析這些代碼,但是你被日歷通知打斷了,提醒你要與首席營銷官進(jìn)行 30 分鐘的對(duì)話。
首席營銷官充滿激情?!拔覀儗?duì)你的到來感到很興奮。近期,我與 HyperCorp 公司的銷售伙伴談過,他們正在與一家供應(yīng)商合作,利用人工智能對(duì)用戶進(jìn)行細(xì)分。太好了!我已經(jīng)等不及要你沉下心來?!?在閑聊了幾句之后,你開始研究營銷團(tuán)隊(duì)的數(shù)據(jù)操作。你問:“客戶獲取成本如何?”首席營銷官回答說:“嗯……其實(shí)還不錯(cuò)。數(shù)據(jù)科學(xué)家們計(jì)算了這些數(shù)字,我們的在線廣告每次點(diǎn)擊成本都在下降?!?/p>
你有點(diǎn)困惑,因?yàn)槟惚桓嬷械臄?shù)據(jù)科學(xué)家都會(huì)向數(shù)據(jù)團(tuán)隊(duì)報(bào)告,但是顯然其他部門也有自己的數(shù)據(jù)科學(xué)家?為了后續(xù)行動(dòng),你做了筆記。
首席營銷官繼續(xù)說道:“真正的問題是,增長團(tuán)隊(duì)并沒有把我們帶來的所有流量都轉(zhuǎn)化到網(wǎng)站上?!?/p>
所以你會(huì)問是否有一個(gè)能查看轉(zhuǎn)化漏斗(conversion funnel)的儀表盤,但是首席營銷官卻說,轉(zhuǎn)化銷售渠道是增長團(tuán)隊(duì)的工作。
那天晚些時(shí)候,你與產(chǎn)品經(jīng)理進(jìn)行交談。剛剛對(duì)首頁進(jìn)行了大改版,負(fù)責(zé)此項(xiàng)工作的產(chǎn)品經(jīng)理非常激動(dòng),因?yàn)橛脩糇?cè)量增加了 14%。當(dāng)你詢問這種差別是否有統(tǒng)計(jì)意義時(shí),你得到的卻是茫然的目光?!案闱宄?,這不是我的工作,而是你們團(tuán)隊(duì)的工作”,這位產(chǎn)品經(jīng)理說?!吧洗挝覀儐査麄儠r(shí),他們說他們沒有數(shù)據(jù),這需要幾個(gè)月的時(shí)間?!?/p>
無論什么原因,你會(huì)發(fā)現(xiàn)產(chǎn)品經(jīng)理有更多的話要說,所以你讓她繼續(xù)。
“此外,令人驚訝的事情并不是基于增量變化。我們決定不做 A/B 測試,因?yàn)橛袝r(shí)你需要下很大的賭注,這會(huì)使你偏離最高值。喬布斯在發(fā)布 iPhone 時(shí)并沒有做 A/B 測試!我們團(tuán)隊(duì)在最后期限的前兩天完成了這個(gè)版本,這才是關(guān)鍵!”
你在筆記本上潦草地記下筆記,以顯得很忙碌的樣子。
剩下的時(shí)間就是和新團(tuán)隊(duì)聊天。這是一支只有三個(gè)人的小團(tuán)隊(duì),但你得到的消息是在年底前將其擴(kuò)大到 10 人。你的團(tuán)隊(duì)成員顯然為你的到來而激動(dòng)。他們向你介紹了迄今為止所建立的一切。這里有你之前見過的用于預(yù)測流失率的神經(jīng)網(wǎng)絡(luò)。還有一個(gè) Notebook,里面有完整的推薦系統(tǒng)實(shí)現(xiàn),可以幫助你找到相關(guān)購買項(xiàng)目。還有很多東西,有些還很酷。
你會(huì)注意到,很多代碼要經(jīng)過非常復(fù)雜的預(yù)處理步驟,其中的數(shù)據(jù)必須從許多不同的系統(tǒng)中提取。看起來好像要運(yùn)行幾個(gè)腳本,必須按照正確的順序手動(dòng)運(yùn)行,才可以順利啟動(dòng)。
你詢問為什么團(tuán)隊(duì)還沒有投入生產(chǎn)。數(shù)據(jù)團(tuán)隊(duì)似乎感到沮喪:“當(dāng)我們和工程師交談時(shí),他們說要將這個(gè)項(xiàng)目達(dá)到生產(chǎn)級(jí)別是一項(xiàng)很大的工程。產(chǎn)品經(jīng)理已經(jīng)將其納入待處理項(xiàng)目中,但是由于其他事情不斷,他們一直在推諉。對(duì)于這個(gè)項(xiàng)目,我們需要管理方面的支持?!?/p>
當(dāng)天晚些時(shí)候,你要和供應(yīng)鏈負(fù)責(zé)人談話??磥硭⒉幌袷紫癄I銷官那么激動(dòng)。他說:“老實(shí)說,我不知道我是否需要數(shù)據(jù)團(tuán)隊(duì)的幫助。我們沒有這類問題。我們需要的是業(yè)務(wù)分析師。我們有一支團(tuán)隊(duì),他們每天都要花上好幾個(gè)小時(shí)做一個(gè)復(fù)雜的模型。他們連回答我基本問題的時(shí)間都沒有。我有一整張電子表格,里面都是我渴望得到答案的問題。”
你看一下電子表格,就會(huì)發(fā)現(xiàn)如下內(nèi)容:提交支持請(qǐng)求并在 1 小時(shí)內(nèi)得到解決的客戶轉(zhuǎn)化率和 1 小時(shí)之外得到解決的客戶轉(zhuǎn)化率分別是多少?以 100 美元為間隔對(duì)訂單價(jià)值進(jìn)行細(xì)分。
問起“模型”,你會(huì)發(fā)現(xiàn)在谷歌表格中,這是一個(gè)非常復(fù)雜的東西,有很多 VLOOKUP 和數(shù)據(jù),必須以正確的格式復(fù)制粘貼到正確的標(biāo)簽。這些數(shù)據(jù)每天都會(huì)更新,模型的輸出決定了團(tuán)隊(duì)當(dāng)天的工作重點(diǎn)。不僅僅是這樣,他們還依賴電子表格來計(jì)算支付給供應(yīng)商。
這基本上是很多公司在數(shù)據(jù)成熟的早期階段可能發(fā)生的事情:
缺乏數(shù)據(jù),數(shù)據(jù)碎片化。該產(chǎn)品的儀表化非常糟糕,所以數(shù)據(jù)通常一開始就沒有。
數(shù)據(jù)系統(tǒng)碎片化,并且數(shù)據(jù)分布在許多不同的系統(tǒng)中。
脆弱的業(yè)務(wù)流,雖由數(shù)據(jù)驅(qū)動(dòng),但很少或者沒有自動(dòng)化。
對(duì)數(shù)據(jù)團(tuán)隊(duì)的工作內(nèi)容期望不明確。雇傭數(shù)據(jù)科學(xué)家是為了進(jìn)行研發(fā),找出一些部署人工智能的其他方法,結(jié)果是沒有任何明確的業(yè)務(wù)目標(biāo)。
數(shù)據(jù)團(tuán)隊(duì)抱怨機(jī)器學(xué)習(xí)難以生產(chǎn),但是看起來產(chǎn)品團(tuán)隊(duì)并不關(guān)心這個(gè)功能。
需要“英語到 SQL 翻譯”的人。
未經(jīng)過數(shù)據(jù)驅(qū)動(dòng)培訓(xùn)的產(chǎn)品團(tuán)隊(duì)。產(chǎn)品經(jīng)理沒有把數(shù)據(jù)作為構(gòu)建更好功能的工具來考慮。
在產(chǎn)品團(tuán)隊(duì)想要構(gòu)建的東西與數(shù)據(jù)團(tuán)隊(duì)所擁有的之間缺乏一致性。
從根本上說,一種與數(shù)據(jù)驅(qū)動(dòng)相沖突的文化。慶祝交付的文化,而不是慶??梢院饬康倪M(jìn)展和學(xué)習(xí)文化。
在團(tuán)隊(duì)實(shí)際使用指標(biāo)的情況下,它們是不一致的,衡量標(biāo)準(zhǔn)不高,而且在某些情況下與其他團(tuán)隊(duì)有沖突。
沒有數(shù)據(jù)領(lǐng)導(dǎo)力。一個(gè)分裂的數(shù)據(jù)組織,不同的數(shù)據(jù)人員向其他職能領(lǐng)域報(bào)告。
其他部門沒有得到所需的幫助,因此他們圍繞著數(shù)據(jù)團(tuán)隊(duì),并雇傭了很多分析師。
缺乏標(biāo)準(zhǔn)化的工具鏈和最佳實(shí)踐。
下面我們來談?wù)勅绾尾拍苷嬲龜[脫這種困境。
開始為團(tuán)隊(duì)制定方向在接下來的一周,你將為數(shù)據(jù)團(tuán)隊(duì)確定新的方向。數(shù)據(jù)團(tuán)隊(duì)中的一個(gè)人在基礎(chǔ)設(shè)施方面有較多的經(jīng)驗(yàn),因此你讓他負(fù)責(zé)建立一個(gè)中央數(shù)據(jù)倉庫。目前你只需以最快的方式將數(shù)據(jù)發(fā)送到一個(gè)位置。計(jì)劃基本上就是每小時(shí)將生產(chǎn)數(shù)據(jù)庫的表轉(zhuǎn)儲(chǔ)到數(shù)據(jù)倉庫中。
結(jié)果表明,你在前端用于廣告跟蹤的框架能夠輕松地將大量事件日志導(dǎo)出到數(shù)據(jù)倉庫中,因此你也可以進(jìn)行設(shè)置。
你將這些記在心里,這是你以后要重新考慮的技術(shù)債務(wù)。
圖 1:對(duì)數(shù)據(jù)如何進(jìn)入數(shù)據(jù)倉庫的極其粗略的概括
你與招聘團(tuán)隊(duì)合作,為通用數(shù)據(jù)角色定義簡介,強(qiáng)調(diào)核心軟件技能,但應(yīng)具有通用的態(tài)度,并深入了解業(yè)務(wù)需求?,F(xiàn)在,你將所有涉及人工智能和機(jī)器學(xué)習(xí)的內(nèi)容從招聘廣告中刪除。
你花更多時(shí)間與不向你報(bào)告的各種數(shù)據(jù)人員接觸。營銷團(tuán)隊(duì)中的數(shù)據(jù)科學(xué)家是個(gè)年輕人,你可以看得出來,她和你交談非常興奮。她說:“我一直想成為數(shù)據(jù)科學(xué)家,我等不及要向你學(xué)習(xí)?!?/p>
當(dāng)天晚些時(shí)候,你打電話給經(jīng)營編碼訓(xùn)練營的朋友,詢問他們是否有 SQL 培訓(xùn)方面的好課程。他們說有,所以在那個(gè)月的晚些時(shí)候,你做了一些安排。
你開始為產(chǎn)品團(tuán)隊(duì)做一個(gè)關(guān)于 A/B 測試及其工作原理的演講 PPT。你提供了很多從以前的經(jīng)驗(yàn)中獲得意想不到結(jié)果的測試實(shí)例,并使演示的部分內(nèi)容具有互動(dòng)性,讓觀眾去選擇。
你跟蹤首席執(zhí)行官的執(zhí)行助理,并在那一周晚些時(shí)候在她的日歷上得到了一些安排。你的目標(biāo)是弄清楚她每周要通過自動(dòng)電子郵件匯報(bào)的指標(biāo)。
那周晚些時(shí)候,你和供應(yīng)鏈團(tuán)隊(duì)的幾個(gè)業(yè)務(wù)分析師交談,你意識(shí)到他們也很通情達(dá)理,但是他們似乎在與數(shù)據(jù)團(tuán)隊(duì)之前的互動(dòng)中受到了傷害。
他們中的一位在過去的工作中有過 SQL 經(jīng)驗(yàn)。他有一個(gè)關(guān)于轉(zhuǎn)化率的問題,你意識(shí)到應(yīng)該用一些已經(jīng)復(fù)制到數(shù)據(jù)倉庫的表來回答這個(gè)問題,所以你給他權(quán)限,讓他試試。你真的不知道會(huì)發(fā)生什么,但是你覺得這值得一試。
你每周都會(huì)和整個(gè)組織中需要數(shù)據(jù)的關(guān)鍵員工建立一對(duì)一的關(guān)系。重點(diǎn)是發(fā)現(xiàn)數(shù)據(jù)差距和機(jī)會(huì),然后把它們交給數(shù)據(jù)科學(xué)家。有些數(shù)據(jù)科學(xué)家對(duì)研究工作的輕重緩急感到失望。你說:“我們需要集中精力盡快實(shí)現(xiàn)業(yè)務(wù)價(jià)值”,但你補(bǔ)充道:“我們也許很快又回到機(jī)器學(xué)習(xí)的領(lǐng)域……讓我們來看一看”。
三個(gè)月之后:陷入無盡的溝通和協(xié)調(diào)已經(jīng)過去三個(gè)月了,但是你感覺自己開始在某些方面有所進(jìn)步。每星期與客戶進(jìn)行一對(duì)一的會(huì)談,都會(huì)不斷發(fā)現(xiàn)巨大的盲點(diǎn)和數(shù)據(jù)發(fā)揮作用的機(jī)會(huì)。你使用這些內(nèi)容作為許多核心平臺(tái)工作的強(qiáng)制功能。特別是,需要建立許多管道來生成“衍生”數(shù)據(jù)集。這些分析的前期成本非常昂貴,但是一旦建立正確的數(shù)據(jù)集,后續(xù)的分析就會(huì)更容易。
你已經(jīng)開始將訪問數(shù)據(jù)倉庫的權(quán)限向其他部門的其他團(tuán)隊(duì)開放。有些人開始學(xué)習(xí) SQL,自己做很多基礎(chǔ)分析。一位初級(jí)產(chǎn)品經(jīng)理發(fā)現(xiàn) iOS Safari 的轉(zhuǎn)化率很低,這是一個(gè)早期的成功。結(jié)果發(fā)現(xiàn)在本地存儲(chǔ)中出現(xiàn)了前端錯(cuò)誤,并且只需一行代碼就可以修復(fù)。
在思考自己所有進(jìn)步時(shí),你突然被一封來自供應(yīng)鏈主管的郵件打斷。他非常生氣。很明顯,他們的模型都不管用,這是他們的一個(gè)大問題。
你立即給你在那里認(rèn)識(shí)的人發(fā)了一條 Slack 消息。他是業(yè)務(wù)分析師,當(dāng)你給他權(quán)限時(shí),他急切地開始寫 SQL。壓力超級(jí)大?!皵?shù)據(jù)庫中的表發(fā)生了變化,我們用來填充電子表格的 SQL 查詢突然產(chǎn)生了無意義的輸出”。
看到這個(gè) SQL 查詢的時(shí)候,你差點(diǎn)崩潰,這個(gè)查詢長達(dá) 500 行,查詢的作者也有些生氣。他說:“我們?cè)啻蝸碚夷銈?,?qǐng)你們幫忙解決這些問題,但是你們說沒資源,所以我們就自己建造。”
你團(tuán)隊(duì)中的數(shù)據(jù)科學(xué)家被指派負(fù)責(zé)大型 SQL 查詢,他們很不開心。他說:“那個(gè)團(tuán)隊(duì)寫這些查詢很傻,我們告訴他們,這種情況將會(huì)發(fā)生。這種 MBA 類型的人沒有什么用處。另外,我受雇研究機(jī)器學(xué)習(xí),而非調(diào)試 SQL 查詢。”你很絕望,你試著給他許下物質(zhì)承諾。你說:“請(qǐng)盡力而為,我保證本月晚些時(shí)候給你找到一些很酷的機(jī)器學(xué)習(xí)問題?!?/p>
當(dāng)天晚些時(shí)候,你正在參加一個(gè)會(huì)議,討論最近的版本。結(jié)算團(tuán)隊(duì)的產(chǎn)品經(jīng)理對(duì)信用卡流程進(jìn)行了重大改革。但是當(dāng)你問他,他們是否看到了相關(guān)指標(biāo)的改進(jìn),他卻感到困惑。他說:“我們還沒有時(shí)間去研究這個(gè)問題。”你很失望,因?yàn)樽鳛橐粋€(gè)數(shù)據(jù)科學(xué)家,只進(jìn)行一項(xiàng)粗略的分析還是很容易的。
最起碼,那天晚些時(shí)候你感覺好些了。營銷團(tuán)隊(duì)中的數(shù)據(jù)科學(xué)家發(fā)郵件告訴你,她已經(jīng)跟她的經(jīng)理談過了。首席營銷官對(duì)她向你匯報(bào)完全沒有意見,但明確表示:“我需要她 100% 的時(shí)間來做營銷?!蹦懵?lián)系人力資源部門,要求他們對(duì)內(nèi)部系統(tǒng)進(jìn)行更新,以便作出管理方面的改變。雖然她的資歷顯然很淺,但她對(duì)復(fù)雜業(yè)務(wù)問題的把握能力令你印象深刻。
那天晚上 9 點(diǎn),你結(jié)束了工作。
開始改革你已經(jīng)開始為最緊迫的需求打下最基本的基礎(chǔ):所有重要的數(shù)據(jù)都在同一個(gè)位置,查詢起來很容易。公開 SQL 訪問和培訓(xùn)其他團(tuán)隊(duì)使用 SQL,意味著很多“SQL 翻譯”將消失。
而另一方面,有些團(tuán)隊(duì)將會(huì)用他們新獲得的自由走得太遠(yuǎn)。為數(shù)據(jù)訪問設(shè)置嚴(yán)格的“護(hù)欄”來防止這種情況的發(fā)生是很有誘惑力的,但這常常帶來更多的弊端。一般而言,人們都是理性的,做一些能給企業(yè)帶來正面投資回報(bào)的事,但是他們可能不明白數(shù)據(jù)團(tuán)隊(duì)能為他們做什么。你的工作就是為了證明!
同樣,在結(jié)算團(tuán)隊(duì)中,你也會(huì)看到類似的情況:有一個(gè)簡單的分析,你的團(tuán)隊(duì)本可以完成,但并沒有,因?yàn)閳F(tuán)隊(duì)不知道該問誰。
這主要是組織方面的挑戰(zhàn)。團(tuán)隊(duì)不知道如何與數(shù)據(jù)團(tuán)隊(duì)合作。即使你沒有意識(shí)到,你也可能成為瓶頸。其他團(tuán)隊(duì)將圍繞數(shù)據(jù)團(tuán)隊(duì)開展工作。許多“簡單的”分析都沒有完成。
在我看來,最應(yīng)該推動(dòng)的是集中的報(bào)告結(jié)構(gòu),但同時(shí)保持工作管理的分散。
為什么?很大程度上是因?yàn)樗跀?shù)據(jù)和決策之間形成了一個(gè)更加緊密的反饋循環(huán)。若每一個(gè)問題都要通過中心瓶頸,則交易成本將非常高。而你又不想把管理權(quán)力下放。有能力的數(shù)據(jù)人員希望向了解數(shù)據(jù)的經(jīng)理報(bào)告,而非業(yè)務(wù)人員。
圖 2:擁有集中積壓和集中管理的數(shù)據(jù)團(tuán)隊(duì)
取而代之,將資源管理工作推給其他團(tuán)隊(duì)。給他們一小撮數(shù)據(jù)人員,讓他們一起工作。這些數(shù)據(jù)人員將能夠更快地完成迭代,而且還可以開發(fā)寶貴的領(lǐng)域技能。這樣可以減少其他團(tuán)隊(duì)對(duì)數(shù)據(jù)團(tuán)隊(duì)工作的依賴,并且可以形成自己的資源。
圖 3:數(shù)據(jù)團(tuán)隊(duì),積壓分散但管理集中
一個(gè)好的方面是,在某種程度上,你的結(jié)果本身會(huì)推動(dòng)整個(gè)組織的集中化:營銷團(tuán)隊(duì)中的初級(jí)數(shù)據(jù)科學(xué)家轉(zhuǎn)到你的團(tuán)隊(duì)中,因?yàn)樗霝槟愎ぷ鳌?/p>團(tuán)隊(duì)擴(kuò)大了
此時(shí),你的數(shù)據(jù)團(tuán)隊(duì)已經(jīng)擴(kuò)大到六人。其中一人忙于處理與數(shù)據(jù)倉庫有關(guān)的基礎(chǔ)設(shè)施。對(duì)于其他五人,你將他們每人都分配到一個(gè)團(tuán)隊(duì):
一個(gè)被分配到產(chǎn)品團(tuán)隊(duì)。一個(gè)被分配到供應(yīng)鏈團(tuán)隊(duì)。一個(gè)被分配到結(jié)算團(tuán)隊(duì)。你已經(jīng)有來自營銷團(tuán)隊(duì)的數(shù)據(jù)科學(xué)家在從事營銷工作。最后一個(gè)人被分配服務(wù)于首席執(zhí)行官和投資者 / 董事會(huì)。你向一大群人發(fā)送了一封電子郵件,概述了這一變化,并且清楚說明了人們應(yīng)該與誰合作以滿足他們的數(shù)據(jù)需求。當(dāng)你雇用員工時(shí),你計(jì)劃在公司內(nèi)將他們分配到不同的團(tuán)隊(duì)。大部分都是產(chǎn)品 / 工程團(tuán)隊(duì),但是在某些情況下還有其他團(tuán)隊(duì)。
團(tuán)隊(duì)人員出現(xiàn)變動(dòng)你以一封令人沮喪的電子郵件開始一天的工作。你的一位數(shù)據(jù)科學(xué)家決定離開,他寫道:“我要去 XXX 公司,加入他們新的機(jī)器學(xué)習(xí)團(tuán)隊(duì)?!蹦悴幌胝f服他留下。老實(shí)說,有一陣子他看起來并不高興,而且你也沒有什么工作能使他興奮。
相反,你的團(tuán)隊(duì)里有一群興奮的新人。他們中的大多數(shù)人都懂得一點(diǎn)軟件工程,一點(diǎn) SQL,但是最重要的是要從數(shù)據(jù)中發(fā)現(xiàn)有趣的洞察力。你認(rèn)為他們是“數(shù)據(jù)記者”,因?yàn)樗麄兊哪繕?biāo)是從數(shù)據(jù)中發(fā)現(xiàn)“爆料”。
你的團(tuán)隊(duì)中有一位特殊成員直接與業(yè)務(wù)團(tuán)隊(duì)合作。她幾乎每天都和產(chǎn)品經(jīng)理談話,團(tuán)隊(duì)也很喜歡她,因?yàn)樗岢隽撕芏嘁娊?。舉例來說,當(dāng)前業(yè)務(wù)中有一個(gè)很大的阻礙是需要問客戶要地址,盡管其實(shí)運(yùn)算中并不需要。在隨后的 A/B 測試中,除去這一步驟,轉(zhuǎn)化率增加了 21%。在一開始就很難發(fā)現(xiàn)這個(gè)問題,因?yàn)閿?shù)據(jù)庫中的數(shù)據(jù)模型非常復(fù)雜,必須建立一套 ETL 作業(yè),以便數(shù)據(jù)“扁平化”成表格,才可以便于查詢。然而,一組 Python 作業(yè)的組合,就能發(fā)揮作用。
那天晚些時(shí)候,所有主要項(xiàng)目都進(jìn)行了季度回顧。這是件大事兒,首席執(zhí)行官也在場,一切進(jìn)展都讓她感到興奮。
輪到增長計(jì)劃時(shí),主要的產(chǎn)品經(jīng)理介紹了他們推出的新的引人注目的登錄頁面。產(chǎn)品經(jīng)理多次指出,由 20 名工程師組成的團(tuán)隊(duì)正在加班加點(diǎn)地趕著最后期限,她把設(shè)計(jì)師們的工作介紹給大家。首席營銷官對(duì)此參與度極高,她沉默了片刻,說道:“迄今為止的指標(biāo)是什么?我們知道客戶獲取成本是否已經(jīng)下降了嗎?”
產(chǎn)品經(jīng)理回答道,已經(jīng)做過 A/B 測試,并且在演示的附錄中有數(shù)字。它顯示了一個(gè)雜亂無章的畫面。有些指標(biāo)上升,有些下降。并未表明有什么明顯的結(jié)果。有一張表格,是對(duì)早期客戶獲取成本數(shù)據(jù)的總結(jié),但是這個(gè)數(shù)據(jù)看上去很糟糕。首席營銷官強(qiáng)調(diào),這些數(shù)據(jù)“還在發(fā)酵”,對(duì)于這類行為,可能要花費(fèi)數(shù)月時(shí)間來處理。
你給數(shù)據(jù)團(tuán)隊(duì)的人員發(fā)消息,并告訴他們下一次應(yīng)該將這些數(shù)據(jù)做成隊(duì)列圖。
這是怎么回事?
值得慶幸的是,產(chǎn)品團(tuán)隊(duì)開始了 A/B 測試。壞消息是,它忽視了結(jié)果,項(xiàng)目看起來主要受里程碑事件和人為截止日期的驅(qū)動(dòng)。好消息是,首席執(zhí)行官鼓勵(lì)團(tuán)隊(duì)將數(shù)據(jù)當(dāng)作事實(shí)。
當(dāng)組織的壓力越來越大,要求更多的數(shù)據(jù)驅(qū)動(dòng)時(shí),就應(yīng)該加快數(shù)據(jù)團(tuán)隊(duì)與其他團(tuán)隊(duì)的合作。特別是,最高層的人會(huì)開始把注意力集中在指標(biāo)上,而與他們合作是你的職責(zé)。做一件簡單的事兒能起到很大的作用,那就是和每一個(gè)團(tuán)隊(duì)合作,確保他們都有自己的儀表盤,其中包含他們關(guān)心的最重要的一組指標(biāo)。
圖 4:在組織的不同級(jí)別上,不同的服務(wù)推動(dòng)了最大的進(jìn)展
除了一個(gè)例外,幾乎所有數(shù)據(jù)團(tuán)隊(duì)過去做的機(jī)器學(xué)習(xí)工作都是毫無結(jié)果的。在庫存產(chǎn)品團(tuán)隊(duì)工作的數(shù)據(jù)科學(xué)家中有一位對(duì)早期推薦很有興趣。她是你雇傭的新成員之一,而且她有的背景更加全面。她在 Notebook 上找到推薦系統(tǒng),并能夠?qū)⑵滢D(zhuǎn)變?yōu)閮?nèi)部部署的小型 Flask 應(yīng)用程序。
庫存團(tuán)隊(duì)的產(chǎn)品經(jīng)理看到它時(shí)欣喜若狂?!拔覀?nèi)绾谓桓??”她問道。該團(tuán)隊(duì)跟蹤的指標(biāo)之一是平均訂單值,她認(rèn)為這能推動(dòng)訂單顯著提高。
一項(xiàng)快速評(píng)估表明,要大規(guī)模使用它仍然是個(gè)問題。但是你的數(shù)據(jù)科學(xué)家有一個(gè)想法。她說:“如果我們只為所有客戶中的 1% 推出會(huì)怎么樣?我們可以讓它被 cron job 驅(qū)動(dòng),并在數(shù)據(jù)庫中預(yù)先生成所有建議。我認(rèn)為幾天之內(nèi)我就能搞定事情?!贝蠹叶己芘d奮,于是她開始工作。
你已經(jīng)在供應(yīng)鏈團(tuán)隊(duì)中花費(fèi)了很多時(shí)間,并且發(fā)現(xiàn)了更多大型 SQL 查詢,用于各種關(guān)鍵業(yè)務(wù)。它們中斷了很多,但是你的團(tuán)隊(duì)正在重新編寫代碼,使之成為合適的運(yùn)行管道。供應(yīng)鏈負(fù)責(zé)人希望可以和你的團(tuán)隊(duì)深入合作。他說:“一旦你開始參與進(jìn)來,我的業(yè)務(wù)分析師團(tuán)隊(duì)將會(huì)做得更好。為了支持你,我愿意為你們做任何事,雇傭更多的數(shù)據(jù)科學(xué)家!”
如今,一些很酷的機(jī)器學(xué)習(xí)工作帶來了希望??雌饋懋a(chǎn)品團(tuán)隊(duì)終于因?yàn)橥扑]系統(tǒng)的小型測試而興奮不已。它之前被卡住了,因?yàn)楫a(chǎn)品工程團(tuán)隊(duì)不能評(píng)估工作,也不想承諾,數(shù)據(jù)團(tuán)隊(duì)又沒有實(shí)際的軟件技能,不能將其帶到生產(chǎn)業(yè)務(wù)中。
數(shù)據(jù)團(tuán)隊(duì)更深入地解決了這個(gè)問題,真正建立了演示。這樣做,不但使其接近于生產(chǎn),而且潛力也更加清晰。在這些項(xiàng)目停滯不前時(shí),數(shù)據(jù)團(tuán)隊(duì)很容易感到失敗,就像他們被雇來做人工智能的工作一樣,但是現(xiàn)在沒有了管理支持。在時(shí)間中,我認(rèn)為更普遍的情況是,他們并不主動(dòng)將工作做得有價(jià)值和更容易交付。
另外一件事是關(guān)注供應(yīng)鏈團(tuán)隊(duì)在做什么。這個(gè)過程大致如下:
在開始的時(shí)候,團(tuán)隊(duì)有自己的“業(yè)務(wù)分析師”(數(shù)據(jù)團(tuán)隊(duì)之外),但是需要數(shù)據(jù)團(tuán)隊(duì)為他們運(yùn)行查詢來獲取數(shù)據(jù)。在數(shù)據(jù)團(tuán)隊(duì)的幫助下,這些業(yè)務(wù)分析師開始自己運(yùn)行查詢。他們開始積聚“影子技術(shù)債務(wù)”(在本例中是一個(gè)大型 SQL 查詢),這首先會(huì)引起大量與數(shù)據(jù)團(tuán)隊(duì)的摩擦。數(shù)據(jù)團(tuán)隊(duì)開始嵌入到業(yè)務(wù)中,幫助他們進(jìn)入更好的位置。因?yàn)榍度?,業(yè)務(wù)分析師的需求下降,對(duì)數(shù)據(jù)科學(xué)家的需求上升。請(qǐng)注意,在你開始直接將生產(chǎn)數(shù)據(jù)庫表轉(zhuǎn)儲(chǔ)到數(shù)據(jù)倉庫時(shí),你需要承擔(dān)大量的“技術(shù)債務(wù)”。下游的數(shù)據(jù)消費(fèi)者會(huì)有很多中斷的 SQL 查詢。久而久之,你就必須在兩者之間添加某種層,從生產(chǎn)數(shù)據(jù)庫中提取元數(shù)據(jù),并將它們轉(zhuǎn)換成各種派生數(shù)據(jù)集,使之更穩(wěn)定,更易于查詢。從安全角度來看,這很有必要:你需要從生產(chǎn)數(shù)據(jù)中分離出大量 PII。
終于迎來轉(zhuǎn)機(jī)這是第三季度的計(jì)劃會(huì)議。在此之前,這些會(huì)議常常變成一場關(guān)于公司在未來幾個(gè)季度重要方向的大辯論。這次,你首先瀏覽了公司的高級(jí)關(guān)鍵結(jié)果。每個(gè)團(tuán)隊(duì)都有子級(jí)指標(biāo),從而形成更細(xì)化的高層指標(biāo)劃分。
顯然,你和產(chǎn)品管理團(tuán)隊(duì)的工作得到了回報(bào)。對(duì)于他們?cè)谶\(yùn)行測試時(shí)所學(xué)到的或在數(shù)據(jù)中發(fā)現(xiàn)的東西,產(chǎn)品經(jīng)理們常常為他們對(duì)各種項(xiàng)目的投資是合理的提供證據(jù)。
一項(xiàng)重要的成就是,你的一位數(shù)據(jù)科學(xué)家和結(jié)算團(tuán)隊(duì)一起發(fā)現(xiàn)了一個(gè)嚴(yán)重的錯(cuò)誤,即用戶在確認(rèn)頁面點(diǎn)擊“返回”按鈕,最終會(huì)導(dǎo)致購物車對(duì)象出現(xiàn)問題。解決了這個(gè)問題之后,轉(zhuǎn)化率就大大提高了。
另外一種見解是,不同廣告活動(dòng)所帶來的流量一登陸網(wǎng)站,就會(huì)產(chǎn)生截然不同的轉(zhuǎn)化情況。結(jié)果發(fā)現(xiàn),一些網(wǎng)站的點(diǎn)擊價(jià)格低廉,但是轉(zhuǎn)化率并不高。有些廣告活動(dòng)價(jià)格很高,但是這些用戶的轉(zhuǎn)化率很高。
因?yàn)楝F(xiàn)在你跟蹤 UTM 參數(shù)并將它與賬戶創(chuàng)建聯(lián)系起來,你現(xiàn)在就可以衡量廣告點(diǎn)擊到購買的轉(zhuǎn)化率。除非所有數(shù)據(jù)都進(jìn)入相同的數(shù)據(jù)倉庫并進(jìn)行歸一化,否則無法做到這一點(diǎn),因此你可以輕松查詢。目前,主要的 KPI 是與營銷團(tuán)隊(duì)合作,以端到端獲取客戶的成本,而非每次點(diǎn)擊成本。
另外一個(gè)令人振奮的消息是,推薦系統(tǒng)的 1% 測試表現(xiàn)非常出色。雖然把它擴(kuò)展到 100% 的用戶是一個(gè)非常重要的項(xiàng)目,但是首席執(zhí)行官還是給這個(gè)項(xiàng)目開了綠燈。
當(dāng)然,并非所有結(jié)果都是正面的,也有一些不成功的測試都不成功,但整體是向好的。
經(jīng)過了這么長時(shí)間的磨練,你已經(jīng)將組織轉(zhuǎn)變?yōu)檎嬲臄?shù)據(jù)原生型架構(gòu)。數(shù)據(jù)團(tuán)隊(duì)與許多不同的利益相關(guān)者進(jìn)行跨職能的合作。數(shù)據(jù)和見解被用于規(guī)劃,使用數(shù)據(jù)推動(dòng)業(yè)務(wù)價(jià)值,而非目標(biāo)不明確的獨(dú)立作坊。公司采用迭代的方式工作,而非大型的“瀑布”式規(guī)劃,具有快速數(shù)據(jù)驅(qū)動(dòng)的反饋周期。衡量標(biāo)準(zhǔn)的定義讓人們覺得產(chǎn)生業(yè)務(wù)價(jià)值是一種責(zé)任。數(shù)據(jù)文化由上面(首席執(zhí)行官推動(dòng))和下面(基層員工)共同推動(dòng)。失敗并沒有什么,至少你可以從中吸取教訓(xùn)。
作者介紹:
Erik Bernhardsson,Better 的前首席技術(shù)官,目前正在從事數(shù)據(jù)領(lǐng)域的一些創(chuàng)業(yè)想法。他寫了很多代碼,其中一些最終被開源了,如 Luigi 和 Annoy。他還共同組織了紐約市機(jī)器學(xué)習(xí)聚會(huì)。
原文鏈接:
https://erikbern.com/2021/07/07/the-data-team-a-short-story.html
掃描二維碼推送至手機(jī)訪問。
版權(quán)聲明:本文由信途科技轉(zhuǎn)載于網(wǎng)絡(luò),如有侵權(quán)聯(lián)系站長刪除。
轉(zhuǎn)載請(qǐng)注明出處http://macbookprostickers.com/xintu/11627.html