久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

Beautiful Soup 中文教程 [Python俱樂部]

 蔣大培 2014-01-05

Beautiful Soup 中文教程

Beautiful Soup 是一個處理Python HTML/XML的模塊,,功能相當強勁,最近仔細的看了一下他的幫助文檔,,終于看明白了一些,。 準備好好研究一下,,順便將Beautiful Soup的一些用法整理一下,放到這個wiki上面,,那個文檔確實不咋地,。

Beautiful Soup 中文教程的官方頁面:http://www./software/BeautifulSoup/

BeautifulSoup 下載與安裝

下載地址為:
http://www./software/BeautifulSoup/

安裝其實很簡單,BeautifulSoup只有一個文件,,只要把這個文件拷到你的工作目錄,,就可以了。

from BeautifulSoup import BeautifulSoup          # For processing HTML
from BeautifulSoup import BeautifulStoneSoup     # For processing XML
import BeautifulSoup                             # To get everything

創(chuàng)建 BeautifulSoup 對象

BeautifulSoup對象需要一段html文本就可以創(chuàng)建了。

下面的代碼就創(chuàng)建了一個BeautifulSoup對象:

from BeautifulSoup import BeautifulSoup
doc = ['<html><head><title>PythonClub.org</title></head>',
       '<body><p id="firstpara" align="center">This is paragraph <b>one</b> of ptyhonclub.org.',
       '<p id="secondpara" align="blah">This is paragraph <b>two</b> of .',
       '</html>']
soup = BeautifulSoup(''.join(doc))

查找HTML內指定元素

BeautifulSoup可以直接用”.”訪問指定HTML元素

根據(jù)html標簽(tag)查找:查找html title

可以用 soup.html.head.title 得到title的name,,和字符串值,。

>>> soup.html.head.title
<title>PythonClub.org</title>
>>> soup.html.head.title.name
u'title'
>>> soup.html.head.title.string
u'PythonClub.org'
>>> 

也可以直接通過soup.title直接定位到指定HTML元素:

>>> soup.title
<title>PythonClub.org</title>
>>> 

根據(jù)html內容查找:查找包含特定字符串的整個標簽內容

下面的例子給出了查找含有”para”的html tag內容:

>>> soup.findAll(text=re.compile("para"))
[u'This is paragraph ', u'This is paragraph ']
>>> soup.findAll(text=re.compile("para"))[0].parent
<p id="firstpara" align="center">This is paragraph <b>one</b> of ptyhonclub.org.</p>
>>> soup.findAll(text=re.compile("para"))[0].parent.contents
[u'This is paragraph ', <b>one</b>, u' of ptyhonclub.org.']

根據(jù)CSS屬性查找HTML內容

soup.findAll(id=re.compile("para$"))
# [<p id="firstpara" align="center">This is paragraph <b>one</b>.</p>,
#  <p id="secondpara" align="blah">This is paragraph <b>two</b>.</p>]
 
soup.findAll(attrs={'id' : re.compile("para$")})
# [<p id="firstpara" align="center">This is paragraph <b>one</b>.</p>,
#  <p id="secondpara" align="blah">This is paragraph <b>two</b>.</p>]

深入理解BeautifulSoup

    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內容均由用戶發(fā)布,,不代表本站觀點,。請注意甄別內容中的聯(lián)系方式、誘導購買等信息,,謹防詐騙,。如發(fā)現(xiàn)有害或侵權內容,請點擊一鍵舉報,。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多