华南俳烁实业有限公司

python

當(dāng)前位置:中華考試網(wǎng) >> python >> python爬蟲 >> 文章內(nèi)容

python考點(diǎn):網(wǎng)頁(yè)爬蟲身份識(shí)別

來(lái)源:中華考試網(wǎng)  [2020年9月16日]  【

  網(wǎng)絡(luò)爬蟲身份如何識(shí)別?網(wǎng)絡(luò)爬蟲(web crawler)身份識(shí)別如下:

  網(wǎng)絡(luò)爬蟲通過(guò)使用http請(qǐng)求的用戶代理(User Agent)字段來(lái)向網(wǎng)絡(luò)服務(wù)器表明他們的身份。網(wǎng)絡(luò)管理員則通過(guò)檢查網(wǎng)絡(luò)服務(wù)器的日志,使用用戶代理字段來(lái)辨認(rèn)哪一個(gè)爬蟲曾經(jīng)訪問(wèn)過(guò)以及它訪問(wèn)的頻率。用戶代理字段可能會(huì)包含一個(gè)可以讓管理員獲取爬蟲更多信息的URL。郵件抓取器和其他懷有惡意的網(wǎng)絡(luò)爬蟲通常不會(huì)留任何的用戶代理字段內(nèi)容,或者他們也會(huì)將他們的身份偽裝成瀏覽器或者其他的知名爬蟲。

  對(duì)于網(wǎng)路爬蟲,留下用戶標(biāo)志信息是十分重要的;這樣,網(wǎng)絡(luò)管理員在需要的時(shí)候就可以聯(lián)系爬蟲的主人。有時(shí),爬蟲可能會(huì)陷入爬蟲陷阱或者使一個(gè)服務(wù)器超負(fù)荷,這時(shí),爬蟲主人需要使爬蟲停止。對(duì)那些有興趣了解特定爬蟲訪問(wèn)時(shí)間網(wǎng)絡(luò)管理員來(lái)講,用戶標(biāo)識(shí)信息是十分重要的。

責(zé)編:chenzhu
  • 會(huì)計(jì)考試
  • 建筑工程
  • 職業(yè)資格
  • 醫(yī)藥考試
  • 外語(yǔ)考試
  • 學(xué)歷考試
贡嘎县| 清涧县| 湘阴县| 甘泉县| 扎兰屯市| 双桥区| 镇雄县| 孟州市| 锡林浩特市| 河池市| 牡丹江市| 黄大仙区| 安福县| 高平市| 吴川市| 奉贤区| 洛扎县| 灵丘县| 锦屏县| 常州市| 梁山县| 平果县| 石阡县| 玉树县| 论坛| 盱眙县| 昌图县| 分宜县| 南汇区| 松滋市| 鄢陵县| 闽侯县| 平定县| 威信县| 山东省| 隆化县| 陆川县| 邢台市| 北安市| 保康县| 张家界市|