BeautifulSoup 安裝及其使用

nikybook 2015-02-18

展開(kāi)全文

BeautifulSoup 安裝及其使用

BeautifulSoup 是個(gè)好東東,。

官網(wǎng)見(jiàn)這里： http://www./software/BeautifulSoup/

下載地址見(jiàn)這里：http://www./software/BeautifulSoup/bs4/download/4.1/ ,，附件有4.1.2的安裝源碼

文檔見(jiàn)這里： http://www./software/BeautifulSoup/bs3/documentation.zh.html ,，是中文翻譯的,，不過(guò)文檔有點(diǎn)舊，是 3.0 的文檔版本,，看起來(lái)沒(méi)有什么意思,。

我推薦大家看個(gè)： http://www./software/BeautifulSoup/bs4/doc/ ，這個(gè)是 python 的官網(wǎng)英文版,，看起來(lái)要舒服,，清晰很多。

在 python 下,，你想按照 jquery 格式來(lái)讀取網(wǎng)頁(yè),，免除網(wǎng)頁(yè)格式、標(biāo)簽的不規(guī)范的困擾,，那么 BeautifulSoup 是個(gè)不錯(cuò)的選擇,。按照官網(wǎng)所說(shuō)， BeautifulSoup 是 Screen-Scraping 應(yīng)用,，旨在節(jié)省大家處理 HTML 標(biāo)簽,，并且從網(wǎng)絡(luò)中獲得信息的工程。 BeautifulSoup 有這么幾個(gè)優(yōu)點(diǎn),，使得其功能尤其強(qiáng)大：

1 ： Beautiful Soup provides a few simple methods and Pythonic idioms for navigating, searching, and modifying a parse tree: a toolkit for dissecting a document and extracting what you need. It doesn't take much code to write an application ,。關(guān)鍵詞： python 風(fēng)格、提供簡(jiǎn)單方法

2 ： Beautiful Soup automatically converts incoming documents to Unicode and outgoing documents to UTF-8. You don't have to think about encodings, unless the document doesn't specify an encoding and Beautiful Soup can't autodetect one. Then you just have to specify the original encoding ,。關(guān)鍵詞：編碼轉(zhuǎn)換,，使用 Python 的同學(xué)都會(huì)認(rèn)同 Python 編碼格式的繁瑣， BeautifulSoup 能簡(jiǎn)化這一點(diǎn),。

3 ： Beautiful Soup sits on top of popular Python parsers like lxml and html5lib , allowing you to try out different parsing strategies or trade speed for flexibility ,。關(guān)鍵詞：兼容其它 html 解析器，能夠讓你隨心替換,。

看完這幾個(gè)特性,，想必有人心動(dòng)了吧，我們先看下 BeautifulSoup 的安裝：

安裝方法：

1 ： apt-get install python-bs4

2 ： easy_install beautifulsoup4

3 ： pip install beautifulsoup4

4 ：源碼安裝： python setup.py install

根據(jù)不同的操作系統(tǒng),，選用不同的安裝方法,，這些方法都能安裝成功，不同點(diǎn)在于安裝的工具不同,。我自己的系統(tǒng)采用的是第四種安裝方法,，下面我來(lái)簡(jiǎn)要介紹下第四種安裝方法：

Python代碼

curl http://www./software/BeautifulSoup/bs4/download/4.1/beautifulsoup4-4.1.2.tar.gz >> beautifulsoup4-4.1.2.tar.gz
tar zxvf beautifulsoup4-4.1.2.tar.gz
cd beautifulsoup4-4.1.2
python setup.py install

Ok ，你就能看到安裝信息,，提示安裝成功,。

安裝成功，肯定想迫不及待的使用，你打開(kāi) python command 窗口,，你很 happy 的輸入：

Python代碼

from beautifulsoup import beautifulsoup

sorry ,， ImportError ，為什么會(huì)有這個(gè) import error ,，我都安裝好了的,。打開(kāi)官網(wǎng)，重新看下說(shuō)明,，原來(lái)安裝的是 BeautifulSoup 4.1 版本,，這個(gè) import 是 3.x 的說(shuō)法。重新打開(kāi) command ,，輸入：

Python代碼

from bs4 import BeautifulSoup

咦，沒(méi)有輸出提示,。恭喜你,， BeautifulSoup 包引入成功。

看文上篇博客,， http://isilic./blog/1733560 ,，想試下 dir 命令，看看 BeautifulSoup 提供了哪些方法：

Python代碼

dir(BeautifulSoup)

看到一堆的方法,，有點(diǎn)頭大,，將方法列出來(lái)會(huì)方便看許多。

Python代碼

>>> for method in dir(BeautifulSoup):
... print method
...

請(qǐng)仔細(xì)看下其中的 findXxx ,， nextXxx ,， previousXxx 方法，這些方法提供了 html 頁(yè)面的遍歷,、回溯,、查找、匹配功能,；這些功能已經(jīng)能夠提供獲取頁(yè)面信息的方法了。

我們以百度首頁(yè)為例，試用下 BeautifulSoup 的強(qiáng)大功能,。

Python代碼

>>> import urllib2
>>> page=urllib2.urlopen('http://www.baidu.com')
>>> soup=BeautifulSoup(page)
>>> print soup.title
>>> soup.title.string

看到結(jié)果顯示不錯(cuò),， helloworld 的教程讓人心里真是舒服啊。

想進(jìn)一步試用功能,，我想找出百度首頁(yè)上所有的鏈接,，這個(gè)貌似很難，需要各種正則匹配,，各種處理,；等等，我們現(xiàn)在是在談?wù)撨@個(gè) BeautifulSoup ，看看 BeautifulSoup 怎么實(shí)現(xiàn)這個(gè)功能,。

Python代碼

>>> for lind in soup.find_all('a'):
... print lind['href']
...

看到輸出了嗎,？是不是很簡(jiǎn)單。

對(duì)于熟悉 Jquery 和 CSS 的同學(xué),，這種操作就是個(gè)折磨,，需要不停的根據(jù)選擇出來(lái)的結(jié)果進(jìn)行遍歷?？吹缴厦娴妮敵?，看到有很多的 # 這些非正常的 URL ，現(xiàn)在想把這些 URL 全部過(guò)濾掉,，使用 select 語(yǔ)法就很簡(jiǎn)單了,。

Python代碼

>>> for link in soup.select('a[href^=http]'):
... print link['href'];
...

有人說(shuō)我根據(jù)判斷出來(lái)的 URL 做處理不行嘛，當(dāng)然可以,，我這里只是想試下 select 的語(yǔ)法,，至于 select 中的語(yǔ)法定義，大家可以自行度之,。準(zhǔn)確的說(shuō),，這個(gè) select 語(yǔ)法都能重新開(kāi)篇文章了。

再進(jìn)一步,，連接中的 / 或者 /duty 鏈接都是有含義的,，是相對(duì)于本站的絕對(duì)地址，這些 / 開(kāi)頭的怎么不被過(guò)濾掉,？如果是絕對(duì)地址的話,，又該怎么防止被過(guò)濾掉？ href 標(biāo)簽里面是個(gè) javascript 又該怎么過(guò)濾,？如果考慮 css 文件和 js 文件的話,，怎么把這些文件的 url 也給找出來(lái)？還有更進(jìn)一步的,，怎么分析出 js 中 ajax 的請(qǐng)求地址,？這些都是可以進(jìn)一步擴(kuò)展的一些要求。

好吧,，我承認(rèn)后面這些 URL 過(guò)濾已經(jīng)超出了 BeautifulSoup 的能力范圍了,，但是單純考慮功能的話，這些都是要考慮的內(nèi)容,，這些疑問(wèn)大家考慮下實(shí)現(xiàn)原理就行,，如果能做進(jìn)一步的學(xué)習(xí)的話，算是本文額外的功勞了,。

下面簡(jiǎn)單過(guò)下 BeautifulSoup 的用法：

Python代碼

DEFAULT_BUILDER_FEATURES
FORMATTERS
ROOT_TAG_NAME
STRIP_ASCII_SPACES：BeautifulSoup的內(nèi)置屬性
__call__
__class__
__contains__
__delattr__
__delitem__
__dict__
__doc__
__eq__
__format__
__getattr__
__getattribute__
__getitem__
__hash__
__init__
__iter__
__len__
__module__
__ne__
__new__
__nonzero__
__reduce__
__reduce_ex__
__repr__
__setattr__
__setitem__
__sizeof__
__str__
__subclasshook__
__unicode__
__weakref__
_all_strings
_attr_value_as_string
_attribute_checker
_feed
_find_all
_find_one
_lastRecursiveChild
_last_descendant
_popToTag：BeautifulSoup的內(nèi)置方法,，關(guān)于這些方法使用需要了解Python更深些的內(nèi)容,。
append：修改element tree
attribselect_re
childGenerator
children
clear：清除標(biāo)簽內(nèi)容
decode
decode_contents
decompose
descendants
encode
encode_contents
endData
extract：這個(gè)方法很關(guān)鍵，后面有介紹
fetchNextSiblings下一兄弟元素
fetchParents：父元素集
fetchPrevious：前一元素
fetchPreviousSiblings：前一兄弟元素：這幾個(gè)能夠?qū)Ξ?dāng)前元素的父級(jí)別元素和兄弟級(jí)別進(jìn)行查找,。
find：只找到limit為1的結(jié)果
findAll
findAllNext
findAllPrevious
findChild
findChildren：子集合
findNext：下一元素
findNextSibling：下一個(gè)兄弟
findNextSiblings：下一群兄弟
findParent：父元素
findParents：所有的父元素集合
findPrevious
findPreviousSibling
findPreviousSiblings：對(duì)當(dāng)前元素和子元素進(jìn)行遍歷查找,。
find_all_next
find_all_previous
find_next
find_next_sibling
find_next_siblings
find_parent
find_parents
find_previous
find_previous_sibling
find_previous_siblings：這些下劃線方法命名是bs4方法，推薦使用這類
format_string
get
getText
get_text：得到文檔標(biāo)簽內(nèi)的內(nèi)容,，不包括標(biāo)簽和標(biāo)簽屬性
handle_data
handle_endtag
handle_starttag
has_attr
has_key
index
insert
insert_after
insert_before：修改element tree
isSelfClosing
is_empty_element
new_string
new_tag
next
nextGenerator
nextSibling
nextSiblingGenerator
next_elements
next_siblings
object_was_parsed
parentGenerator
parents
parserClass
popTag
prettify：格式化HTML文檔
previous
previousGenerator
previousSibling
previousSiblingGenerator
previous_elements
previous_siblings
pushTag
recursiveChildGenerator
renderContents
replaceWith
replaceWithChildren
replace_with
replace_with_children：修改element tree 元素內(nèi)容
reset
select：適用于jquery和css的語(yǔ)法選擇,。
setup
string
strings
stripped_strings
tag_name_re
text
unwrap
wrap

需要注意的是，在BeautifulSoup中的方法有些有兩種寫(xiě)法,，有些是駝峰格式的寫(xiě)法,，有些是下劃線格式的寫(xiě)法，但是看其方法的含義是一樣的,，這主要是BeautifulSoup為了兼容3.x的寫(xiě)法,。前者是3.x的寫(xiě)法，后者是4.x的寫(xiě)法,，推薦使用后者,，也就是下劃線的方法。

根據(jù)這些方法,，應(yīng)該能夠得到遍歷、抽取,、修改,、規(guī)范化文檔的一系列方法。大家如果能在工作中使用 BeautifulSoup ,，一定會(huì)理解更深,。

BeautifulSoup 支持不同的 parser ，默認(rèn)是 Html 格式解析,，還有 xml parser ,、 lxml parser 、 html5lib parser ,、 html.parser ,，這些 parser 都需要響應(yīng)的解析器支持。

html,，這個(gè)是默認(rèn)的解析器

Python代碼

BeautifulSoup("<a></a>")
# <html><head></head><body><a></a></body></html>

xml格式解析器

Python代碼

BeautifulSoup("<a></a>", "xml")
# <?xml version="1.0" encoding="utf-8"?>
# <a></a>

lxml格式解析器

Python代碼

BeautifulSoup("<a>", "lxml")
# <html><body><a></a></body></html>

html5lib格式解析器

Python代碼

BeautifulSoup("<a>", "html5lib")
# <html><head></head><body><a></a></body></html>

html.parser解析器

Python代碼

BeautifulSoup("<a>", "html.parser")
# <a></a>

其中 parser 的區(qū)別大家看下這幾個(gè)例子就知道了,。

在使用 BeautifulSoup 解析文檔的時(shí)候，會(huì)將整個(gè)文檔以一顆大又密集的數(shù)據(jù)載入到內(nèi)存中,，如果你只是從數(shù)據(jù)結(jié)構(gòu)中獲得一個(gè)字符串,，內(nèi)存中保存一堆數(shù)據(jù)感覺(jué)就不劃算了。并且如果你要獲得指向某個(gè) Tag 的內(nèi)容,，這個(gè) Tag 又會(huì)指向其它的 Tag 對(duì)象,，因此你需要保存這棵樹(shù)的所有部分，也就是說(shuō)整棵樹(shù)都在內(nèi)存中。 extract 方法可以破壞掉這些鏈接,，它會(huì)將樹(shù)的連接部分?jǐn)嚅_(kāi),，如果你得到某個(gè) Tag ，這個(gè) Tag 的剩余部分會(huì)離開(kāi)這棵樹(shù)而被垃圾收集器捕獲,；當(dāng)然,，你也可以實(shí)現(xiàn)其它的功能：如文檔中的某一塊你本身就不關(guān)心，你可以直接把它 extract 出樹(shù)結(jié)構(gòu),，扔給垃圾收集器,，優(yōu)化內(nèi)存使用的同時(shí)還能完成自己的功能。

正如 BeautifulSoup 的作者 Leonard 所說(shuō),，寫(xiě) BeautifulSoup 是為了幫助別人節(jié)省時(shí)間,，減小工作量。一旦習(xí)慣使用上 BeautifulSoup 后,，一些站點(diǎn)的內(nèi)容很快就能搞定,。這個(gè)就是開(kāi)源的精神，將工作盡可能的自動(dòng)化,，減小工作量,；從某個(gè)程度上來(lái)說(shuō)，程序員應(yīng)該是比較懶惰的,，但是這種懶惰正好又促進(jìn)了軟件行業(yè)的進(jìn)步,。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布,，不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,，謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào),。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自： nikybook > 《Python》

舉報(bào)/認(rèn)領(lǐng)