數(shù)據(jù)將是比石油還珍貴的資源,誰擁有最快獲取數(shù)據(jù),處理數(shù)據(jù),分享數(shù)據(jù),產(chǎn)生數(shù)據(jù)的能力,誰就會勝出。
在當(dāng)下這個數(shù)據(jù)已經(jīng)成為決策核心的大數(shù)據(jù)時代,越來越多的公司和個人離不開大數(shù)據(jù)。數(shù)據(jù)采集和分析能力正在成為職場的必備技能。
今天小編就以國內(nèi)知名的ForeSpider爬蟲軟件為例,來為大家盤點一下爬蟲軟件能夠采集哪些數(shù)據(jù)。
ForeSpider數(shù)據(jù)采集系統(tǒng),一款通用性的可視化+開發(fā)型爬蟲軟件,可以采集互聯(lián)網(wǎng)上幾乎100%的公開數(shù)據(jù)。ForeSpider既能進(jìn)行可視化的數(shù)據(jù)提取,又支持正則表達(dá)式操作,不管您是否有編程基礎(chǔ),都可以使用采集網(wǎng)站或/app中的數(shù)據(jù)。
l 國內(nèi)網(wǎng)站
1.新聞類網(wǎng)站
實時采集全網(wǎng)所有的新聞資訊內(nèi)容和政府公告數(shù)據(jù):
①媒體門戶網(wǎng)站
人民網(wǎng)、央視網(wǎng)、新華網(wǎng)、財經(jīng)網(wǎng)、東方網(wǎng)、大眾網(wǎng)、華聲在線、光明網(wǎng)、中國科技網(wǎng)、鳳凰網(wǎng)、澎湃新聞、搜狐網(wǎng)、中國網(wǎng)、央視新聞中心、大河網(wǎng)等;
②自媒體平臺
今日頭條、百家號、一點資訊、網(wǎng)易、騰訊新聞、新浪新聞、鈦媒體、CSDN、趣頭條、簡書、世界經(jīng)紀(jì)人、ChinaUnix、思否等;
③垂直新聞媒體網(wǎng)站
汽車之家、東方財富網(wǎng)、IT之家、知音網(wǎng)、健康報網(wǎng)、梅花網(wǎng)等、金融界、中國機(jī)械網(wǎng)、界面等;
④各級政府機(jī)構(gòu)門戶網(wǎng)站
財政部、自然資源部、證監(jiān)會、中國政府采購網(wǎng)、國家法律法規(guī)、藥監(jiān)局、銀監(jiān)會、國家標(biāo)準(zhǔn)網(wǎng)、海洋局、文物局等;
2.企業(yè)類網(wǎng)站
實時采集全網(wǎng)所有的企業(yè)黃頁網(wǎng)站數(shù)據(jù):
順企網(wǎng)、慧聰網(wǎng)、1688、中國黃頁網(wǎng)、馬可波羅、黃頁88、免費黃頁網(wǎng)等。
3.招投標(biāo)類網(wǎng)站
實時采集全網(wǎng)招投標(biāo)網(wǎng)站數(shù)據(jù)及企業(yè)官網(wǎng)招投標(biāo)數(shù)據(jù):
①招投標(biāo)網(wǎng)
中國政府采購網(wǎng)、貴州省招標(biāo)投標(biāo)網(wǎng)、安徽招標(biāo)網(wǎng)、合肥招標(biāo)投標(biāo)網(wǎng)、中國采購招標(biāo)網(wǎng)等;
②各地區(qū)公共資源交易中心
廣州公共資源交易網(wǎng)、甘肅省公共資源交易網(wǎng)、貴州公共資源交易中心、云南公共資源交易中心、四川公共資源交易中心、重慶公共資源交易中心、西藏公共資源交易中心、廣東公共資源交易中心、廣西公共資源交易中心、海南公共資源交易中心、湖北公共資源交易中心、湖南公共資源交易中心、河南公共資源交易中心、江西公共資源交易中心、山東公共資源交易中心、江蘇公共資源交易中心、安徽公共資源交易中心、浙江公共資源交易中心、福建公共資源交易中心、上海公共資源交易中心、北京公共資源交易中心、天津公共資源交易中心、河北公共資源交易中心、雄安公共資源交易中心、山西公共資源交易中心、內(nèi)蒙古公共資源交易中心、寧夏公共資源交易中心、新疆公共資源交易中心、兵團(tuán)公共資源交易中心、青海公共資源交易中心、陜西公共資源交易中心、甘肅公共資源交易中心、遼寧公共資源交易中心、吉林公共資源交易中心、黑龍江公共資源交易中心等;
4.金融類網(wǎng)站
抓取網(wǎng)上金融類網(wǎng)站的公開數(shù)據(jù):
東方財富網(wǎng)、金融界、證券之星、中財網(wǎng)行情中心、中國證券業(yè)協(xié)會網(wǎng)、同花順、好買基金網(wǎng)、中證網(wǎng)、華夏基金、證監(jiān)會、中國金融期貨交易所、上海期貨交易所。
5.社交類網(wǎng)站
實時爬取全網(wǎng)全渠道社交媒體及各類垂直行業(yè)論壇貼吧數(shù)據(jù),可滿足多種數(shù)據(jù)采集場景??勺ト〉卿?、滾動、搜索、點擊等多種交互后展現(xiàn)的數(shù)據(jù),具體包括賬號主頁文章/博文/帖子、搜索關(guān)鍵詞后得到的文章/博文/帖子、文章/博文評論等:
微博、知乎、豆瓣、抖音、小紅書、B站、火山、微信公眾、百度貼吧等。
6.電商類網(wǎng)站
批量采集全網(wǎng)主流電商平臺及官方/第三方電商數(shù)據(jù)分析平臺數(shù)據(jù):
淘寶、天貓、京東、拼多多、蘇寧易購、唯品會、當(dāng)當(dāng)網(wǎng)、國美、阿里巴巴、聚美優(yōu)品、貝貝網(wǎng)、寺庫網(wǎng)、車?yán)遄吁r果網(wǎng)、食行生鮮、網(wǎng)易嚴(yán)選、卷皮網(wǎng)、中糧我買網(wǎng)、汽車之家、亞馬遜(中國)、eBay、AliExpress等。
可采集直接可見或登錄后可見的電商網(wǎng)站數(shù)據(jù),字段包括:商品類目、標(biāo)題、URL、價格(掛牌價與到手價)、銷量、交易額、庫存、評價、圖片、訪問量、發(fā)貨地、促銷活動、所在店鋪、店鋪等級等。
7.房產(chǎn)類網(wǎng)站
爬取全國各級市區(qū)縣的房地產(chǎn)數(shù)據(jù)(包括房產(chǎn)基礎(chǔ)數(shù)據(jù)、房產(chǎn)租售交易數(shù)據(jù)、土地交易數(shù)據(jù)),及各類綜合房產(chǎn)信息網(wǎng)站:
中原房產(chǎn)、搜房網(wǎng)、房天下、房多多、趕集網(wǎng)、房星網(wǎng)、Q房網(wǎng)、合房網(wǎng)、樂有家、21世紀(jì)房產(chǎn)等、各省市房管局網(wǎng)站和各省市土地招拍掛網(wǎng)站等。
8.在線服務(wù)類網(wǎng)站
美團(tuán)、大眾點評、百度糯米、餓了么、攜程旅行網(wǎng)、同程旅游、驢媽媽旅游、去哪兒網(wǎng)、飛豬、途牛旅游、藝龍旅行網(wǎng)、小豬短租、螞蟻短租、馬蜂窩、大麥網(wǎng)、永樂票務(wù)、時光網(wǎng)、貓眼、淘票票、土巴兔、齊家網(wǎng)、懶人家政、阿姨來了、58到家、好大夫在線、微醫(yī)、騰訊課堂、淘寶教育等。
l 境外網(wǎng)站
ForeSpider數(shù)據(jù)采集分析引擎可以采集境外的各類網(wǎng)站數(shù)據(jù),通過配置境外代理IP或VPN,輕松采集境外電商、新聞、社交、地圖、企業(yè)官網(wǎng)、政府媒體等各行業(yè)網(wǎng)站上的公開數(shù)據(jù)。
1.電商網(wǎng)站
天貓國際、海囤全球、網(wǎng)易考拉、蘇寧海外購、亞馬遜海外購、聚美極速免稅店、唯品國際、寶貝格子、速賣通、蘭亭集勢、亞馬遜(Amazon)、易貝(eBay)、AliExpress、阿里巴巴國際站、Rakuten、NetFlix、Best Buy、新蛋網(wǎng)(Newegg)、西爾斯(Sears)、Overstock、特易購(Tesco)、La Redoute、Play.com、Ssense、Gmarket、Etsy等。
2.新聞網(wǎng)站
雅虎新聞 (Yahoo! News)、赫芬頓郵報 (HuffingtonPost)、美國有線電視新聞網(wǎng) (CNN)、谷歌新聞 (Google News)、紐約時報 (New York Times)、??怂剐侣勵l道(Fox News) 、美國全國廣播公司新聞(NBC News)、洛杉磯時報(Los Angeles Times )、朝日新聞(Asahi Shimbun) 等。
3.社交網(wǎng)站
臉書(Facebook)、推特(Twitter)、領(lǐng)英(LinkedIn)、Pinterest、Google+、pixiv、Flickr、研究之門(ResearchGate)、Badoo、Seesaa、Scribd、GREE、LiveJournal、Lamebook等。
4.地圖網(wǎng)站
采集外國地圖類網(wǎng)站上搜索出來的店鋪、企業(yè)等數(shù)據(jù):
谷歌地圖(Google Maps) 、Bing地圖 (Bing Maps)、雅虎地圖(Yahoo! Maps) 、MapQuest等。
5.學(xué)術(shù)網(wǎng)站
抓取國外學(xué)術(shù)類期刊、研究院、數(shù)據(jù)庫等網(wǎng)站中的學(xué)術(shù)數(shù)據(jù):
柳葉刀(The Lancet)、研究之門(ResearchGate)、醫(yī)景網(wǎng)、 CA Cancer J Clin 、美國西南研究院(Southwest Research Institute)、美國化學(xué)學(xué)會(ACS)、PubMed、生物化學(xué)雜志(The Journal of Biochemistry)、伊朗生物技術(shù)期刊(Iranian Journal of Biotechnology)、國際地理學(xué)會(IGU)、基因庫(GenBank);
6.政府媒體網(wǎng)站
采集各國政府媒體網(wǎng)站及政府網(wǎng)站數(shù)據(jù):
新導(dǎo)報(xindb)、白俄羅斯電視臺(tvr.by) 歐洲華人報、德國新資訊(deumedia)、美聯(lián)社(ap.org)、英國衛(wèi)報(guardian)、美國財富雜志(fortune)、韓國中央日報(joins)等。
l 國內(nèi)外APP
ForeSpider爬蟲軟件不僅可以采集網(wǎng)頁上的公開數(shù)據(jù),還可以采集國內(nèi)外APP上的公開數(shù)據(jù)。
1.電商APP
淘寶、天貓、京東、蘇寧、唯品會、阿里巴巴、拼多多、美團(tuán)、餓了么、大眾點評、Depop、ASOS、Wish、Sockock、Groupon、亞馬遜、eBay等。
采集內(nèi)容:可采集直接可見或登錄后可見的電商APP數(shù)據(jù),字段包括商品類目、標(biāo)題、URL、價格(掛牌價與到手價)、銷量、交易額、庫存、評價、圖片、訪問量、發(fā)貨地、促銷活動、所在店鋪、店鋪等級等。
2.新聞APP
今日頭條、一點資訊、搜狐、新浪、騰訊、新京報、人民日報、澎湃新聞、網(wǎng)易、鳳凰新聞、中央新聞、環(huán)球TIME、天天快報、經(jīng)濟(jì)學(xué)人(The Economist)、紐約時報、南華早報(SCMP)、BBC News、雅虎 (News Digest)、CNN、韓聯(lián)社等
采集內(nèi)容:可抓取公開或登錄后可見的新聞APP中的數(shù)據(jù),例如新聞標(biāo)題、新聞發(fā)布時間、新聞來源、新聞?wù)?、新聞評論等。
3.社交媒體APP
微博、小紅書、抖音、火山、B站、Facebook、YouTube、PAGO、Yubo、Beeto等。
采集內(nèi)容:登錄/滾動/搜索/點擊等多種交互后展現(xiàn)的數(shù)據(jù)均可采集,具體包括賬號主頁文章/博文、搜索關(guān)鍵詞后得到的文章/博文、文章/博文評論、圖片、段視頻、點贊量、轉(zhuǎn)發(fā)量等。
4.地圖APP
高德地圖、百度地圖、騰訊地圖、谷歌地圖、谷歌地圖(Google Maps) 、Bing地圖 (Bing Maps)、雅虎地圖(Yahoo! Maps)等
采集內(nèi)容:可批量抓取在各地圖APP中搜索關(guān)鍵詞出來的商鋪、企業(yè)數(shù)據(jù),例如商鋪名稱、地址、電話、營業(yè)時間、評分、評論、口碑等。
*以上網(wǎng)站僅為展示ForeSpider數(shù)據(jù)采集分析引擎采集范圍及能力,請您在使用中,嚴(yán)格按照國家法律和對方網(wǎng)站的要求進(jìn)行合法的數(shù)據(jù)爬取,不要將數(shù)據(jù)用于違法用途。
l 前嗅簡介
前嗅大數(shù)據(jù),國內(nèi)領(lǐng)先的研發(fā)型大數(shù)據(jù)專家,多年來致力于為大數(shù)據(jù)技術(shù)的研究與開發(fā),自主研發(fā)了一整套從數(shù)據(jù)采集、分析、處理、管理到應(yīng)用、營銷的大數(shù)據(jù)產(chǎn)品。前嗅致力于打造國內(nèi)第一家深度大數(shù)據(jù)平臺!
掃描二維碼推送至手機(jī)訪問。
版權(quán)聲明:本文由信途科技轉(zhuǎn)載于網(wǎng)絡(luò),如有侵權(quán)聯(lián)系站長刪除。
轉(zhuǎn)載請注明出處http://macbookprostickers.com/xintu/66334.html