圖注:2021年的大數(shù)據(jù)規(guī)模右上角(灰色部分)是歐洲核子研究組織(CERN)大型強子對撞機(LHC)實驗的電子設(shè)備所檢測到的數(shù)據(jù),規(guī)模最大。在上一次運行(2018 年)中,LHC 在四個主要實驗(ATLAS、ALICE、CMS 和 LHCb)中的每一個實驗里,每秒產(chǎn)生大約 24 億次粒子碰撞,每次碰撞可以提供約 100 MB 數(shù)據(jù),因此預(yù)計年產(chǎn)原始數(shù)據(jù)量約為 40k EB(=10億千兆字節(jié))。但根據(jù)目前的技術(shù)和預(yù)算,存儲 40k EB 數(shù)據(jù)是不可能的。而且,實際上只有一小部分數(shù)據(jù)有意義,因此沒有必要記錄所有數(shù)據(jù)。記錄的數(shù)據(jù)量也降低到了每天大約 1 PB,2018 年的最后一次真實數(shù)據(jù)只采集了 160 PB,模擬數(shù)據(jù) 240 PB。此外,收集的數(shù)據(jù)通過 WLCG (全球LHC計算網(wǎng)絡(luò))不斷傳輸,2018 年產(chǎn)生了 1.9k PB 的年流量。不過,歐洲核子研究組織(CERN)正在努力加強 LHC 的能力,進行 HL-LHC 升級。這個過程預(yù)計生成的數(shù)據(jù)量將增加 5 倍以上,到 2026 年,每年估計產(chǎn)生 800 PB的新數(shù)據(jù)。2大廠數(shù)據(jù)量對比大公司的數(shù)據(jù)量很難追蹤,且數(shù)據(jù)通常不會公開。對此,Luca Clissa 采用了費米估算法(Fermi estimation),將數(shù)據(jù)生產(chǎn)過程分解為其原子組成部分,并做出合理的猜測。比如,針對特定數(shù)據(jù)源,檢索在給定時間窗口內(nèi)產(chǎn)生的內(nèi)容量。然后通過對這些內(nèi)容的單位大小的合理猜測來推斷數(shù)據(jù)總量,例如平均郵件或圖片大小,1 小時視頻的平均數(shù)據(jù)流量等等。他對谷歌搜索、YouTube、Facebook等等數(shù)據(jù)源進行了估算,結(jié)論如下:谷歌搜索:最近的一項分析估計,Google 搜索引擎包含 30 到 500 億個網(wǎng)頁。根據(jù) Web Almanac 所提供的信息,假設(shè)谷歌的年度平均頁面大小約為 2.15 MB,截至 2021 年,Google 搜索引擎的數(shù)據(jù)總規(guī)模應(yīng)約為 62 PB。YouTube:根據(jù) Backlinko 的數(shù)據(jù),2021 年用戶每天在 YouTube 上上傳的視頻時長為 72 萬小時。假設(shè)平均大小為 1 GB(標準清晰度),2021年 YouTube 的數(shù)據(jù)大小約為 263 PB。Facebook 與 Instagram:Domo 的 Data Never Sleeps 9.0 報告估計,2021 年 Facebook 與 Instagram 每分鐘上傳的圖片數(shù)量分別為 240k 和 65k。假設(shè)平均大小為 2 MB,則總共大約為 252 PB 和 68 PB。DropBox:雖然 Dropbox 本身不產(chǎn)生數(shù)據(jù),但它提供了云存儲解決方案來托管用戶的內(nèi)容。2020年,公司宣布新增用戶 1 億,其中付費訂閱用戶達到 117 萬。通過推測免費和付費訂閱的占用率分別為 75%(2 GB)和 25%(2 TB),Dropbox 用戶在 2020 年所需的存儲量約為733 PB。電子郵件:根據(jù) Statista 的數(shù)據(jù),從 2020 年 10 月到 2021 年 9 月,用戶大約傳送了近 131,000 億次電子通信(包含 71,000 億封電子郵件和 60,000 億封垃圾郵件)。假設(shè)標準郵件和垃圾郵件的平均大小分別為 75 KB 和 5 KB ,我們可以估計電子郵件的總流量約為 5.7k PB。Netflix:Domo 估計,2021 年 Netflix 用戶每天消耗 1.4 億小時的流媒體播放,假設(shè)每小時 1 GB(標準定義),總計大約 51.1k PB。亞馬遜:亞馬遜網(wǎng)絡(luò)服務(wù) (AWS) 的首席布道師 Jeff Barr稱,截至 2021 年,亞馬遜 S3 (Simple Storage Service)中存儲了超過 100 萬億個對象。假設(shè)平均每桶的對象大小為 5 MB ,那么存儲在 S3 中的文件的總大小則約等于 500 EB。總的來說,科學(xué)數(shù)據(jù)可以在數(shù)量上與商業(yè)數(shù)據(jù)源相媲美。參考鏈接:1.https://towardsdatascience.com/how-big-are-big-data-in-2021-6dc09aff5ced2.https://firstsiteguide.com/google-search-stats/3.https://backlinko.com/4.https://mms.businesswire.com/media/20210929005835/en/911394/5/data-never-sleeps-9.0-1200px.jpg?download=15.https://backlinko.com/dropbox-users6.https://xintu.statista.com/7.https://aws.amazon.com/cn/blogs/aws/amazon-s3s-15th-birthday-it-is-still-day-1-after-5475-days-100-trillion-objects/8.https://atlas.cern/
掃描二維碼推送至手機訪問。
版權(quán)聲明:本文由信途科技轉(zhuǎn)載于網(wǎng)絡(luò),如有侵權(quán)聯(lián)系站長刪除。
轉(zhuǎn)載請注明出處http://macbookprostickers.com/xintu/56557.html