作者 | 前嗅 來源 | 前嗅大數(shù)據(jù)(xintu.forenose.com)
今天為大家介紹一下:如何在ForeSpider數(shù)據(jù)采集器中設(shè)置代理IP。
前嗅ForeSpider數(shù)據(jù)采集引擎,一款通用的數(shù)據(jù)采集系統(tǒng),還帶有數(shù)據(jù)挖掘、清洗分類及篩選導(dǎo)出的功能,能夠滿足絕大多數(shù)客戶的數(shù)據(jù)采集及數(shù)據(jù)挖掘需求。
ForeSpider爬蟲軟件采集速度可高達(dá)8000萬條/天,支持多線程并行采集。采集限制IP的網(wǎng)站時,為保證采集質(zhì)量及速度需要設(shè)置代理IP。
ForeSpider數(shù)據(jù)采集系統(tǒng)有成熟的代理IP接口,可接入市場上絕大多數(shù)的代理IP,兼容性強(qiáng),操作簡單,可自行設(shè)置調(diào)用IP的頻率,靈活控制調(diào)用頻率,有效降低成本,提高采集效率。
-01- 創(chuàng)建代理IP
打開ForeSpider數(shù)據(jù)采集引擎,IP代理設(shè)置,如下圖所示創(chuàng)建代理IP。
1.名稱:自定義即可,可由文字、字母、其他符號等組成;
2.類型:有靜態(tài)代理和動態(tài)代理,F(xiàn)oreSpider采集系統(tǒng)中動靜態(tài)與市場上不同,F(xiàn)oreSpider爬蟲軟件中代理IP動靜態(tài)代理可以通過代理IP接入形式來區(qū)分靜態(tài)和動態(tài)。
①動態(tài)代理:爬蟲使用的代理IP是變化的,一般情況是通過代理IP服務(wù)商提供的一個API鏈接來獲取代理IP,這種情況是動態(tài)代理。在系統(tǒng)中,在如下圖標(biāo)記位置填入API鏈接。
②靜態(tài)代理:爬蟲使用的代理IP是固定一個/多個IP地址,一般代理IP服務(wù)商會提供IP地址、端口、用戶名、密碼,這種情況是靜態(tài)代理IP。有的代理IP服務(wù)商只有IP地址和端口,這類也是屬于靜態(tài)代理,遇到這種情況時用戶名和密碼為空即可。
3.請求頻率:是指ForeSpider運(yùn)行時調(diào)用每個代理IP的頻率,爬蟲運(yùn)行時,線程數(shù)目=請求頻率*代理IP數(shù)。
比如:接入了一個每秒請求10個IP的代理,設(shè)置的請求頻率為5。那么爬蟲運(yùn)行時,每秒請求50次代理IP,這時候采集運(yùn)行速度中的線程數(shù)目最佳為50。
-02- 代理IP設(shè)置
1.動態(tài)代理IP設(shè)置
在ForeSpider爬蟲中,新建一個動態(tài)代理IP后,填寫以下幾個基本參數(shù):
①協(xié)議類型:默認(rèn)http/https,兩種協(xié)議均支持;
②返回格式:是指返回IP格式,包括TXT和未知格式,選擇TXT格式即可返回TXT格式,TXT格式可以不用寫腳本獲取IP;
③刷新周期:請求調(diào)用API的頻率,單位是毫秒,根據(jù)實際購買情況來填寫即可。
④請求地址:填寫API鏈接即可。
填寫完以上信息后可點(diǎn)擊【測試】按鈕進(jìn)行測試,測試結(jié)果會顯示在屏幕下方。測試成功后,確認(rèn)勾選所用代理IP,點(diǎn)擊保存按鈕,如下圖所示:
保存好之后,就可以開始進(jìn)行數(shù)據(jù)采集了。
2.靜態(tài)代理IP設(shè)置
在ForeSpider爬蟲中,新建一個靜態(tài)代理IP后,需要填寫以下參數(shù):
①IP地址:由代理IP服務(wù)商提供。
②端口:由代理IP服務(wù)商提供。
③類型:根據(jù)要采集網(wǎng)站類型來選擇,有http和https類型;
④有效時長:可理解為到期時長,非必填。
當(dāng)同時使用多個代理IP且到期時長不一致時可以根據(jù)實際情況填寫,有效期到則自動停止使用該代理IP;
當(dāng)有效時間在1天以內(nèi)時,建議填寫,防止出現(xiàn)代理IP到期,F(xiàn)oreSpider爬蟲還在運(yùn)行而導(dǎo)致采集失敗的情況。
如果不填寫,需要在代理IP到期之前手動關(guān)閉,否則會導(dǎo)致采集失敗。如下圖所示:
⑤用戶名:由代理IP服務(wù)商提供。
⑥密碼:由代理IP服務(wù)商提供。
填寫完之后在需要使用的代理IP前打上對勾,打開代理IP按鈕,后保存。如下圖所示:
-03- 腳本設(shè)置
在ForeSpider數(shù)據(jù)采集系統(tǒng)中,當(dāng)代理IP接入情況不屬于以上描述靜態(tài)/動態(tài)接入方式時,使用腳本設(shè)置代理IP。
腳本設(shè)置與動態(tài)設(shè)置類似,需要先把以下幾項根據(jù)實際情況來進(jìn)行設(shè)置,具體如下:
①協(xié)議類型:默認(rèn)http/https,兩種協(xié)議均支持;
②返回格式:選擇未知格式即可,腳本可獲取TXT格式。
③刷新周期:請求調(diào)用API的頻率,單位是毫秒,根據(jù)實際購買情況來填寫即可。
④請求地址:填寫代理商提供的API鏈接。
⑤POST DATA:根據(jù)代理不同,post請求的情況下填寫該內(nèi)容。
⑥代碼編輯區(qū):需要填寫一段腳本,以調(diào)用代理IP。代碼如下:
ips = DOWNDATA.Split('\n'); var t; for(i=0;i<ips.size;i++) { t = ips[i].TrimAll(); this.Insert(t,"","",60, "https"); //60秒有效期, 如果有效期為其他,則改相應(yīng)的數(shù)}將以上的代碼粘貼到編輯框后,通常僅需修改最后一句腳本,括號里分別填寫:IP地址+端口、用戶名、密碼、有效時長、http/https即可。
-04- 其他設(shè)置
ForeSpider爬蟲系統(tǒng)中,代理IP混用策略有以下三個:
1.采集禁用本地IP
設(shè)置后采集只用代理IP,如果代理IP失效或未開啟,則會采集失敗。
2.代理失敗使用本地IP
代理IP失效或者失敗后會直接使用本地IP進(jìn)行采集。
3.只使用本地IP
設(shè)置后采集時僅用本地IP。
注意事項①在采集過程中修改代理IP,需要暫停/停止采集然后再修改。
②當(dāng)請求代理IP的api地址是變化的,比如鏈接地址中有時間戳的情況時,F(xiàn)oreSpider中代理IP暫不支持接入。
③當(dāng)返回內(nèi)容不帶密碼,但要求必須提供密碼時,可以使用腳本設(shè)置來接入。
④在不知道代理IP的請求數(shù)時,請求頻率最好填1,也可填寫1-10中任意數(shù)。
⑤請求到一批新的代理IP時,在有效期內(nèi)的舊代理IP依然可以使用。
作者簡介
前嗅,企業(yè)級大數(shù)據(jù)供應(yīng)商,多年來致力于大數(shù)據(jù)技術(shù)研究與開發(fā),自主研發(fā)了一套數(shù)據(jù)采集、挖掘、清洗、分析及可視化的數(shù)據(jù)處理系統(tǒng),擁有上萬家企業(yè)用戶。熱衷于為大家解決各種數(shù)據(jù)問題,服務(wù)號“前嗅”,微博“@前嗅大數(shù)據(jù)”,歡迎關(guān)注。
掃描二維碼推送至手機(jī)訪問。
版權(quán)聲明:本文由信途科技轉(zhuǎn)載于網(wǎng)絡(luò),如有侵權(quán)聯(lián)系站長刪除。
轉(zhuǎn)載請注明出處http://macbookprostickers.com/xintu/15740.html