华南俳烁实业有限公司

python

當(dāng)前位置:中華考試網(wǎng) >> python >> python爬蟲 >> 文章內(nèi)容

python考點(diǎn):網(wǎng)頁爬蟲的高層體系結(jié)構(gòu)

來源:中華考試網(wǎng)  [2020年9月16日]  【

  網(wǎng)絡(luò)爬蟲(web crawler)的高層體系結(jié)構(gòu)如下:

  一個(gè)爬蟲不能像上面所說的,僅僅只有一個(gè)好的抓取策略,還需要有一個(gè)高度優(yōu)化的結(jié)構(gòu)。

  Shkapenyuk和Suel(Shkapenyuk和Suel,2002)指出:設(shè)計(jì)一個(gè)短時(shí)間內(nèi),一秒下載幾個(gè)頁面的頗慢的爬蟲是一件很容易的事情,而要設(shè)計(jì)一個(gè)使用幾周可以下載百萬級(jí)頁面的高性能的爬蟲,將會(huì)在系統(tǒng)設(shè)計(jì),I/O和網(wǎng)絡(luò)效率,健壯性和易用性方面遇到眾多挑戰(zhàn)。

  網(wǎng)路爬蟲是搜索引擎的核心,他們算法和結(jié)構(gòu)上的細(xì)節(jié)被當(dāng)作商業(yè)機(jī)密。當(dāng)爬蟲的設(shè)計(jì)發(fā)布時(shí),總會(huì)有一些為了阻止別人復(fù)制工作而缺失的細(xì)節(jié)。人們也開始關(guān)注主要用于阻止主要搜索引擎發(fā)布他們的排序算法的“搜索引擎垃圾郵件”。

  2.1 URL一般化

  爬蟲通常會(huì)執(zhí)行幾種類型的URL規(guī)范化來避免重復(fù)抓取某些資源。URL一般化也被稱為URL標(biāo)準(zhǔn)化,指的是修正URL并且使其前后一致的過程。這里有幾種一般化方法,包括轉(zhuǎn)化URL為小寫的,去除逗號(hào)(如‘.’ ‘..’等),對(duì)非空的路徑,在末尾加反斜杠。

責(zé)編:chenzhu
  • 會(huì)計(jì)考試
  • 建筑工程
  • 職業(yè)資格
  • 醫(yī)藥考試
  • 外語考試
  • 學(xué)歷考試
颍上县| 古交市| 南郑县| 牙克石市| 苏尼特右旗| 将乐县| 墨玉县| 股票| 奉化市| 达拉特旗| 安图县| 城市| 连城县| 武山县| 兰考县| 岳池县| 昔阳县| 安阳县| 崇左市| 巧家县| 敦煌市| 宽城| 通道| 错那县| 理塘县| 丰都县| 松滋市| 汕尾市| 邵东县| 顺昌县| 特克斯县| 双流县| 武汉市| 公主岭市| 夏河县| 固阳县| 冕宁县| 中卫市| 柳林县| 余姚市| 云和县|