導(dǎo)讀:3月1日起,國家網(wǎng)信辦等四部門聯(lián)合發(fā)布的《互聯(lián)網(wǎng)信息服務(wù)算法推薦管理規(guī)定》正式施行?!跋蛴脩籼峁┍憬莸年P(guān)閉算法推薦服務(wù)的選項”等規(guī)定,貼近用戶實際需求,而且在全球范圍內(nèi)開啟對具體算法加以監(jiān)管的先河,因此廣受關(guān)注。本文分析了相關(guān)規(guī)定的來龍去脈,以及未來可能的發(fā)展。
【文/ 觀察者網(wǎng)專欄作者 熊節(jié)】
手機上的App會“讀心術(shù)”早已不是秘密了。很多人有過這樣的體驗:剛和朋友聊天說到什么想買什么,轉(zhuǎn)眼就在某App里看見了這件商品;剛瀏覽了幾條某個主題的新聞,突然某App里就全是關(guān)于這件事的回答。
長期來,許多網(wǎng)民對這種情況感到不滿,甚至有點恐懼。
如今,一個開關(guān)“千呼萬喚始出來”,在許多常用App的“設(shè)置”頁,您應(yīng)該能找到“關(guān)閉個性化推薦”之類的選項。
筆者找到了“知乎”和“淘寶”的相關(guān)開關(guān)并親測:
為何各個常見的App悄悄給出了關(guān)閉個性化推薦的選項?原因是今年1月4日正式公布的《互聯(lián)網(wǎng)信息服務(wù)算法推薦管理規(guī)定》(下文簡稱《規(guī)定》)中有這么一條:
第十七條 算法推薦服務(wù)提供者應(yīng)當(dāng)向用戶提供不針對其個人特征的選項,或者向用戶提供便捷的關(guān)閉算法推薦服務(wù)的選項。用戶選擇關(guān)閉算法推薦服務(wù)的,算法推薦服務(wù)提供者應(yīng)當(dāng)立即停止提供相關(guān)服務(wù)。
這份由國家互聯(lián)網(wǎng)信息辦公室、工業(yè)和信息化部、公安部、國家市場監(jiān)督管理總局聯(lián)合發(fā)布的《規(guī)定》將于今年3月1日正式起施行。
據(jù)筆者所知,這是全世界第一個對算法推薦行為加以具體約束的法案。
歐洲的《數(shù)字市場法案》(DMA)中也有“不允許利用數(shù)據(jù)優(yōu)勢向用戶投放指向性廣告,除非獲得用戶明確許可”的約定,但DMA去年11月才獲得歐洲議會內(nèi)部市場委員會通過,與歐洲各國政府的談判還未啟動,完成立法仍有一段距離。
而中國各大互聯(lián)網(wǎng)企業(yè)已經(jīng)在以實際行動迎接《規(guī)定》的落地。
算法推薦的潛在危害
2006年,哈佛大學(xué)凱斯·桑斯坦教授在《信息烏托邦》一書中提出,人類社會存在一種“信息繭房”現(xiàn)象。他認為,在信息傳播中人們自身的信息需求并非全方位的,只會注意選擇自己想要的、能使自己愉悅的信息,久而久之接觸的信息就越來越局限,就像蠶吐出來的絲一樣,細細密密地把自己包裹起來,最終將自己桎梏在“信息繭房”內(nèi),失去接觸和了解不同觀念的機會。
算法推薦則有可能強化信息繭房效應(yīng):你越是對某種事物感興趣、傾向于某種觀念,算法就會越是給你推薦關(guān)于這種事物、支持這種觀念的材料,讓你不斷強化自己的興趣和傾向。而且,算法推薦還可能被有目的性地引導(dǎo)人群,從而影響公眾觀念,甚至影響政治決策。因此,美國數(shù)學(xué)家凱西·奧尼爾在《算法霸權(quán)》一書中將推薦算法稱作“數(shù)學(xué)大殺器”(weapons of math destruction)。在過去幾年中,這件“大殺器”已經(jīng)在現(xiàn)實世界中多次產(chǎn)生效果。
2016年,在支持特朗普競選的“阿拉莫項目”(Project Alamo)中,來自臉書、谷歌、推特等幾個主要社交網(wǎng)絡(luò)平臺的顧問在圣安東尼奧的同一間辦公室并肩工作,在數(shù)字廣告上投放了大約9千萬美元。阿拉莫項目采用了精妙的算法推薦技術(shù)來影響選民:當(dāng)一位互聯(lián)網(wǎng)用戶被識別為“關(guān)鍵選民”(例如搖擺州的搖擺縣的搖擺選民),社交網(wǎng)絡(luò)就會給這樣的用戶定向投放具有引導(dǎo)性的內(nèi)容,從而用相對不多的經(jīng)費影響競選結(jié)果。
就在美國大選前幾個月,英國的劍橋分析(Cambridge Analytica)公司使用來自臉書的用戶數(shù)據(jù)操縱了英國脫歐(Brexit)公投,令脫歐派意外獲勝——與特朗普意外當(dāng)選如出一轍。
在正式用于影響英美政局之前,類似的手段已經(jīng)在多個發(fā)展中國家做過實驗。2010年,在特立尼達和多巴哥,一場起源于臉書的“Do So”運動讓大批非洲裔選民拒絕投票,從而使印度裔主導(dǎo)的聯(lián)合民族大會(UNC)在大選中受益。2015年,部分尼日利亞用戶在臉書上看到暴力血腥、仇視穆斯林的視頻短片,其目的是恐嚇選民、操縱選舉。算法推薦一旦被濫用,真的可以成為“大殺器”。
即使不是被故意濫用,算法推薦也可能暗含社會的偏見和歧視。去年10月,推特的推薦算法被發(fā)現(xiàn)“無意中放大了右翼團體內(nèi)容的傳播”:政治右翼當(dāng)選官員發(fā)布的推文在算法上被放大的程度超過政治左翼;右翼媒體比左翼媒體的影響力更大。
更早之前,職場社交網(wǎng)站領(lǐng)英的搜索算法(也可以看作一種形式的推薦算法:根據(jù)搜索關(guān)鍵詞推薦“最匹配”的內(nèi)容)被發(fā)現(xiàn)存在性別歧視,男性求職者會被放在更高的位置。谷歌的廣告平臺AdSense被發(fā)現(xiàn)存在種族偏見,如果搜索關(guān)鍵詞看起來像是黑人的名字,AdSense就會有更大概率推薦犯罪記錄查詢相關(guān)的廣告。
因為算法推薦有這些潛在危害的風(fēng)險,歐美一些研究者很早就提出對推薦算法加以管制。本次《規(guī)定》中要求的算法機制機理審核、科技倫理審查、允許用戶關(guān)閉算法推薦等措施,在國外都早有人提過建議。然而國際互聯(lián)網(wǎng)大廠從未將這些建議落地,還經(jīng)常辯稱“基于深度學(xué)習(xí)的算法無法被審核”。為了幫助讀者理解《規(guī)定》的重要意義,筆者將簡要介紹算法推薦背后的技術(shù)原理。
算法推薦的技術(shù)原理
各種形式的算法推薦,包括《規(guī)定》中列舉的“生成合成、個性化推送、排序精選、檢索過濾、調(diào)度決策”等形式,當(dāng)下主流的實現(xiàn)方式都是采用機器學(xué)習(xí)(machine learning),背后的原理都是基于貝葉斯統(tǒng)計(Bayesian statistics)方法的預(yù)測——聽起來很高深,其實通過一個簡單的例子很容易就能理解。
假設(shè)你丟一個以前沒用過的骰子,你認為有多大概率丟出6點?當(dāng)然,在沒有任何額外信息的情況下,你的預(yù)測是“1/6”。然后,你連續(xù)丟了20把,每把都是6點,這時候你認為下一把繼續(xù)丟出6點的概率是多大?經(jīng)典概率論說,每次丟骰子都是一個獨立隨機事件,過去丟出的點數(shù)不影響未來丟出的點數(shù),所以你的預(yù)測仍然應(yīng)該是“1/6”。但很明顯正常人不會這么想。
“這個骰子連丟了20把6點”這項信息很明顯會影響對未來的決策(例如可能說明這個骰子被灌了鉛),因此你會預(yù)測下一把有很大概率還是會丟出6點。簡化地說,貝葉斯統(tǒng)計就是“基于過去已經(jīng)發(fā)生過的事件預(yù)測未來將要發(fā)生的事件”。各種算法推薦都是在進行這樣的預(yù)測:
知乎的個性化推送就是預(yù)測用戶可能喜歡看什么問題和回答;
百度的檢索過濾就是預(yù)測用戶可能對哪些搜索結(jié)果感興趣;
淘寶的排序精選就是預(yù)測用戶可能購買哪些商品。
這些預(yù)測所基于的“過去已經(jīng)發(fā)生過的事件”則是與用戶相關(guān)的、非常寬廣的數(shù)據(jù)集,不僅包含“用戶看過/贊過/收藏過哪些回答”這種直接的用戶行為,還包含大量用戶本身的屬性信息:年齡、性別、地域、教育程度、職業(yè)、上網(wǎng)設(shè)備、買過什么東西、發(fā)過什么言論、住多大房子、家里幾口人、喜歡張信哲、反感蔡徐坤……這些信息都會被用于預(yù)測用戶的偏好。
每一項類似這樣的屬性信息也被稱為“特征”(feature),對于一個普通用戶,互聯(lián)網(wǎng)公司通常擁有數(shù)千、數(shù)萬項特征信息。其中一些特征信息來自該公司本身的業(yè)務(wù),更多的特征信息來自其他平臺,三大運營商、微博、騰訊、阿里、手機制造商等企業(yè)都會SDK(軟件開發(fā)包)的方式與其他互聯(lián)網(wǎng)應(yīng)用共享用戶個人特征信息。
知乎與第三方共享個人信息的清單(部分)
在所有這些特征信息中,給定一項具體的預(yù)測,有些特征與這項預(yù)測的相關(guān)度較高,有些特征的相關(guān)度則較低。如果能從預(yù)測的結(jié)果回溯到哪些特征產(chǎn)生了重要的影響,我們就可以說這種算法“具備可被審核性”(auditable)。例如最簡單、最基礎(chǔ)的機器學(xué)習(xí)算法線性回歸(linear regression),其原理就是根據(jù)過去的事件給每項特征打一個權(quán)重分數(shù),然后根據(jù)這些權(quán)重分數(shù)預(yù)測未來的事件。從一個線性回歸的預(yù)測模型中,可以直觀地看到每項特征的在預(yù)測中的權(quán)重,因此線性回歸是特別容易審核的一種算法。
當(dāng)然,最簡單、最基礎(chǔ)的算法,也就存在預(yù)測能力不夠強的問題。形象地說,只用簡單的線性回歸,無法把特征值里隱含的信息全都榨取出來,所以預(yù)測效果不見得特別好。于是科學(xué)家和工程師們想了很多辦法來壓榨特征值里的信息。一種辦法叫“特征工程”(feature engineering),說白了就是從已知的特征值推導(dǎo)出新的特征值,例如根據(jù)用戶的手機型號、購物清單給用戶打上“購買力強”或者“時尚潮人”的新標簽,這就是一種簡單的特征工程。
另一種壓榨特征值的辦法是把起初的特征信息視為一“層”輸入,然后用各種數(shù)學(xué)方法把輸入層變換成新的信息節(jié)點,從而形成一個多層的“網(wǎng)絡(luò)”。這個變換的過程可以重復(fù)進行,變換的層數(shù)越多,就說這個網(wǎng)絡(luò)越“深”——這就是“深度學(xué)習(xí)”(deep learning)這個詞的由來。
盡管科學(xué)家經(jīng)常用“神經(jīng)元”、“神經(jīng)網(wǎng)絡(luò)”來類比這些數(shù)學(xué)變換的結(jié)果,但很多時候,經(jīng)過這些變換得到的信息節(jié)點幾乎沒有現(xiàn)實世界中的含義,純粹是一種數(shù)學(xué)工具的產(chǎn)物。所以業(yè)界有一種說法:深度學(xué)習(xí)就像煉金術(shù)(國內(nèi)也稱“煉丹”),把數(shù)據(jù)丟進神經(jīng)網(wǎng)絡(luò),不知道什么原因就煉出結(jié)果了——如果結(jié)果不理想,就再加幾層神經(jīng)網(wǎng)絡(luò)。
正因為深度學(xué)習(xí)常有“煉金術(shù)”的神秘感,使用它們的工程師經(jīng)常自己都不知道為什么一個算法有效。例如谷歌曾發(fā)表過一篇論文介紹他們的圖像識別算法,其中使用了一個深達19層的神經(jīng)網(wǎng)絡(luò)(VGG19)。然而谷歌的照片服務(wù)(Google Photos)卻多次被曝暗含種族歧視,甚至把黑人照片識別為“大猩猩”。事后谷歌根本無法找出算法中的問題出在哪里,只好刪除“大猩猩”標簽了事。
VGG19:深度為19層的卷積神經(jīng)網(wǎng)絡(luò),主要用于圖像識別
盡管有谷歌的前車之鑒,類似的問題仍然在各家互聯(lián)網(wǎng)巨頭的產(chǎn)品中反復(fù)出現(xiàn)。2020年,部分臉書用戶在觀看一段以黑人為主角的視頻時收到推薦提示,詢問他們是否愿意“繼續(xù)觀看有關(guān)靈長類動物的視頻”。2018年MIT媒體實驗室的研究員Joy Buolamwini發(fā)現(xiàn),微軟、IBM和Face++的人臉識別算法在識別黑色人種的性別的錯誤率要遠遠高于白色人種,而且膚色越黑,識別率就越低,黑人女性的識別錯誤率高達35%。過度依賴“煉金術(shù)”式的深度學(xué)習(xí)算法,是這些互聯(lián)網(wǎng)巨頭對算法審核態(tài)度冷淡的原因,同時也導(dǎo)致它們難以修正其算法中隱含的系統(tǒng)性歧視。
我國《規(guī)定》的意義和疑慮
正因為業(yè)界對算法推薦、對深度學(xué)習(xí)技術(shù)的依賴,此次的《規(guī)定》才顯得尤為重要。筆者認為,《規(guī)定》的公布,一方面迫使互聯(lián)網(wǎng)企業(yè)約束自身行為,要用算法推薦技術(shù)為善,堅持主流價值導(dǎo)向、積極傳播正能量,而不能制造信息繭房、誘導(dǎo)用戶沉迷;另一方面迫使互聯(lián)網(wǎng)企業(yè)加強內(nèi)部能力建設(shè),建立算法審核能力,主動選擇并優(yōu)化可被理解、可被審核的推薦算法,而不能搞唯技術(shù)論、過度依賴“煉金術(shù)”式的推薦算法。
不過,畢竟此次的《規(guī)定》是一個開世界先河的新事物,在其實施過程中,筆者還是有一些具體的疑慮。
首先,算法機制機理審核和科技倫理審查如何落實,對于監(jiān)管機構(gòu)可能是一個新的挑戰(zhàn)。雖然《規(guī)定》要求“算法推薦服務(wù)提供者應(yīng)當(dāng)定期審核、評估、驗證算法機制機理、模型、數(shù)據(jù)和應(yīng)用結(jié)果”,但這項要求是否落到實處,互聯(lián)網(wǎng)企業(yè)是否真的進行了審核、評估和驗證,算法結(jié)果是否合乎要求,其中可能有很大模糊空間。畢竟算法推薦審核不像違法不良信息審核,只要發(fā)現(xiàn)違法不良信息立即就能知道審核過程有問題,而算法推薦審核的效果是在長期、大范圍的統(tǒng)計意義上表現(xiàn)出來的,如何核實審核是否確實落地,本身可能就是一個技術(shù)難題。
其次,說明提供算法推薦服務(wù)的情況和允許用戶關(guān)閉個性化推薦的選項,雖然各主要互聯(lián)網(wǎng)企業(yè)已經(jīng)實現(xiàn)了這些功能,但很難說是“以顯著方式”告知用戶。筆者作為IT專業(yè)人士,又是有意尋找,仍然花了一番功夫才找到幾大App分別把“關(guān)閉算法推薦”的選項藏在哪里。
當(dāng)然從互聯(lián)網(wǎng)企業(yè)的角度,他們肯定希望把這個功能藏在大多數(shù)用戶找不到的地方,畢竟絕大多數(shù)用戶找不著的功能就等于不存在的功能。那么從監(jiān)管立場,為了避免“用戶關(guān)閉算法推薦服務(wù)”的權(quán)利變成一句空話,是否應(yīng)該考慮像GDPR那樣,要求用戶“明確許可”之后才能提供個性化推薦?
GDPR要求網(wǎng)站必須獲得用戶明確許可后才能通過Cookie記錄用戶信息,迫使網(wǎng)站以真正顯著的方式征求用戶許可
最后,在《規(guī)定》的監(jiān)管下,互聯(lián)網(wǎng)企業(yè)雖然不能強行提供個性化推薦,卻仍有可能以“消極怠工”的方式迫使用戶開啟(或者不能關(guān)閉)個性化推薦。
以知乎為例,一旦在隱私中心中勾選“關(guān)閉個性化推薦”選項,那些信息繭房式的推薦信息倒是沒了,但App里出現(xiàn)的信息量也急劇減少。筆者大致統(tǒng)計一下,關(guān)閉個性化推薦之后,知乎App的“精選”頁每天出現(xiàn)的新條目不超過3條,很多天以前的回答還在不斷出現(xiàn),甚至多次出現(xiàn)第一頁里出現(xiàn)兩條重復(fù)信息的情況,而訪問量最大的“知乎熱榜”的內(nèi)容卻從未被推送到“精選”頁面。偌大一個知乎,關(guān)掉個性化推薦之后就沒有內(nèi)容可以向用戶推薦了嗎?恐怕還是打算用削減內(nèi)容量的辦法軟磨硬泡用戶不要關(guān)掉個性化推薦吧。這類消極怠工的辦法,相信互聯(lián)網(wǎng)企業(yè)還能想出很多。監(jiān)管機構(gòu)應(yīng)當(dāng)如何發(fā)現(xiàn)、如何應(yīng)對這些小伎倆,對《規(guī)定》的落實也是個新的挑戰(zhàn)。
盡管有這些現(xiàn)實的疑慮,此次的《規(guī)定》畢竟開啟了對互聯(lián)網(wǎng)具體算法加以監(jiān)管的先河。過去互聯(lián)網(wǎng)技術(shù)長期被政府和公眾視為神秘的黑盒,只能從外部可見的結(jié)果加以監(jiān)管,給資本和技術(shù)人員留下了太多搞小動作的空間。希望《規(guī)定》成為打開黑盒的第一步,與后續(xù)的其他監(jiān)管政策和落地措施一道,揭開互聯(lián)網(wǎng)技術(shù)神秘的面紗,把那些藏在盒子里的把戲都曝露在陽光下,接受合理的監(jiān)督管理。同時也希望相關(guān)監(jiān)管機構(gòu)盡快建立起足夠的技術(shù)能力,真正把這些監(jiān)管措施落到實處。
本文系觀察者網(wǎng)獨家稿件,文章內(nèi)容純屬作者個人觀點,不代表平臺觀點,未經(jīng)授權(quán),不得轉(zhuǎn)載,否則將追究法律責(zé)任。關(guān)注觀察者網(wǎng)微信guanchacn,每日閱讀趣味文章。
掃描二維碼推送至手機訪問。
版權(quán)聲明:本文由信途科技轉(zhuǎn)載于網(wǎng)絡(luò),如有侵權(quán)聯(lián)系站長刪除。
轉(zhuǎn)載請注明出處http://macbookprostickers.com/xintu/56670.html