作為python中優(yōu)秀獲取數(shù)據(jù)的工具,Beautiful Soup種類也比較多。每一個種類對應(yīng)著不同的知識點(diǎn),小伙伴們學(xué)習(xí)的時候要用心記憶。當(dāng)然知識不是一天就能學(xué)會的,就像羅馬也不是一天就建成的。勤學(xué)勤練才是進(jìn)階python大神的唯一路徑。接下來就開始我們今天對于Beautiful Soup的學(xué)習(xí)吧。
一、Tag
Tag 是什么?通俗點(diǎn)講就是 HTML 中的一個個標(biāo)簽,例如
二、NavigableString
既然我們已經(jīng)得到了標(biāo)簽的內(nèi)容,那么問題來了,我們要想獲取標(biāo)簽內(nèi)部的文字怎么辦呢?很簡單,用 .string 即可,例如
print soup.p.string
#The Dormouse's story
三、BeautifulSoup
BeautifulSoup 對象表示的是一個文檔的全部內(nèi)容。大部分時候,可以把它當(dāng)作 Tag 對象,是一個特殊的 Tag,我們可以分別獲取它的類型,名稱,以及屬性來感受一下
print type(soup.name)
#
print soup.name
# [document]
print soup.attrs
#{} 空字典
四、Comment
Comment 對象是一個特殊類型的 NavigableString 對象,其實(shí)輸出的內(nèi)容仍然不包括注釋符號,但是如果不好好處理它,可能會對我們的文本處理造成意想不到的麻煩。 我們找一個帶注釋的標(biāo)簽
print soup.a
print soup.a.string
print type(soup.a.string)
以上就是python爬蟲中Beautiful Soup的4個種類。
上一篇:python3爬蟲:常用網(wǎng)絡(luò)爬蟲模塊和技術(shù)
下一篇: 沒有了
初級會計(jì)職稱中級會計(jì)職稱經(jīng)濟(jì)師注冊會計(jì)師證券從業(yè)銀行從業(yè)會計(jì)實(shí)操統(tǒng)計(jì)師審計(jì)師高級會計(jì)師基金從業(yè)資格稅務(wù)師資產(chǎn)評估師國際內(nèi)審師ACCA/CAT價格鑒證師統(tǒng)計(jì)資格從業(yè)
一級建造師二級建造師消防工程師造價工程師土建職稱房地產(chǎn)經(jīng)紀(jì)人公路檢測工程師建筑八大員注冊建筑師二級造價師監(jiān)理工程師咨詢工程師房地產(chǎn)估價師 城鄉(xiāng)規(guī)劃師結(jié)構(gòu)工程師巖土工程師安全工程師設(shè)備監(jiān)理師環(huán)境影響評價土地登記代理公路造價師公路監(jiān)理師化工工程師暖通工程師給排水工程師計(jì)量工程師
人力資源考試教師資格考試出版專業(yè)資格健康管理師導(dǎo)游考試社會工作者司法考試職稱計(jì)算機(jī)營養(yǎng)師心理咨詢師育嬰師事業(yè)單位教師招聘公務(wù)員公選考試招警考試選調(diào)生村官
執(zhí)業(yè)藥師執(zhí)業(yè)醫(yī)師衛(wèi)生資格考試衛(wèi)生高級職稱護(hù)士資格證初級護(hù)師主管護(hù)師住院醫(yī)師臨床執(zhí)業(yè)醫(yī)師臨床助理醫(yī)師中醫(yī)執(zhí)業(yè)醫(yī)師中醫(yī)助理醫(yī)師中西醫(yī)醫(yī)師中西醫(yī)助理口腔執(zhí)業(yè)醫(yī)師口腔助理醫(yī)師公共衛(wèi)生醫(yī)師公衛(wèi)助理醫(yī)師實(shí)踐技能內(nèi)科主治醫(yī)師外科主治醫(yī)師中醫(yī)內(nèi)科主治兒科主治醫(yī)師婦產(chǎn)科醫(yī)師西藥士/師中藥士/師臨床檢驗(yàn)技師臨床醫(yī)學(xué)理論中醫(yī)理論