华南俳烁实业有限公司

python

當(dāng)前位置:中華考試網(wǎng) >> python >> python爬蟲 >> 文章內(nèi)容

python爬蟲中BeautifulSoup有哪些種類?

來源:中華考試網(wǎng)  [2020年11月11日]  【

  作為python中優(yōu)秀獲取數(shù)據(jù)的工具,Beautiful Soup種類也比較多。每一個種類對應(yīng)著不同的知識點(diǎn),小伙伴們學(xué)習(xí)的時候要用心記憶。當(dāng)然知識不是一天就能學(xué)會的,就像羅馬也不是一天就建成的。勤學(xué)勤練才是進(jìn)階python大神的唯一路徑。接下來就開始我們今天對于Beautiful Soup的學(xué)習(xí)吧。

  一、Tag

  Tag 是什么?通俗點(diǎn)講就是 HTML 中的一個個標(biāo)簽,例如

  

  Elsie

  二、NavigableString

  既然我們已經(jīng)得到了標(biāo)簽的內(nèi)容,那么問題來了,我們要想獲取標(biāo)簽內(nèi)部的文字怎么辦呢?很簡單,用 .string 即可,例如

python課程免費(fèi)試聽預(yù)約

  • 地區(qū):
  • 姓名:
  • 手機(jī):

  print soup.p.string

  #The Dormouse's story

  三、BeautifulSoup

  BeautifulSoup 對象表示的是一個文檔的全部內(nèi)容。大部分時候,可以把它當(dāng)作 Tag 對象,是一個特殊的 Tag,我們可以分別獲取它的類型,名稱,以及屬性來感受一下

  print type(soup.name)

  #

  print soup.name

  # [document]

  print soup.attrs

  #{} 空字典

  四、Comment

  Comment 對象是一個特殊類型的 NavigableString 對象,其實(shí)輸出的內(nèi)容仍然不包括注釋符號,但是如果不好好處理它,可能會對我們的文本處理造成意想不到的麻煩。 我們找一個帶注釋的標(biāo)簽

  print soup.a

  print soup.a.string

  print type(soup.a.string)

  以上就是python爬蟲中Beautiful Soup的4個種類。

責(zé)編:fushihao
  • 會計(jì)考試
  • 建筑工程
  • 職業(yè)資格
  • 醫(yī)藥考試
  • 外語考試
  • 學(xué)歷考試
健康| 沙河市| 阿图什市| 广州市| 咸宁市| 揭西县| 井冈山市| 徐水县| 长葛市| 通州市| 德格县| 唐河县| 漯河市| 巨鹿县| 名山县| 荃湾区| 饶河县| 牟定县| 曲周县| 蓬溪县| 富平县| 界首市| 瓮安县| 榆社县| 正定县| 泽库县| 嘉义市| 通化市| 阿拉善右旗| 会泽县| 开远市| 江油市| 固阳县| 茶陵县| 阿城市| 南和县| 南康市| 湘潭县| 循化| 金秀| 揭西县|