Beautiful Soup 4已经被移植到BS4了,所以要
1 from bs4 import BeautifulSoup
创建 beautifulsoup 对象
1 soup = BeautifulSoup(html, 'lxml' )
另外,我们还可以用本地 HTML 文件来创建对象,例如
1 soup = BeautifulSoup(open ('index.html'), 'lxml')
格式化输出:
1 2 3 4 5 6 7 8 9 10 11 12 13 html_doc = """ <html > <head > <title > The Dormouse's story</title > </head > <body > <p class ="title" > <b > The Dormouse's story</b > </p > <p class ="story" > Once upon a time there were three little sisters; and their names were<a href ="http://example.com/elsie" class ="sister" id ="link1" > Elsie</a > ,<a href ="http://example.com/lacie" class ="sister" id ="link2" > Lacie</a > and<a href ="http://example.com/tillie" class ="sister" id ="link3" > Tillie</a > ;and they lived at the bottom of a well.</p > <p class ="story" > ...</p > """
上面是示例文档,后面演示的都是搜索上面 html_doc
中的内容
1 2 from bs4 import BeautifulSoup soup = BeautifulSoup(html_doc)
BeautifulSoup 过滤器 这些过滤器可以被用在 tag 的 name 中,节点的属性中,字符串中或他们的混合中。
1.字符串 传入字符串,查找与字符串完整匹配的内容
2.正则表达式 传入正则表达式 re.compile(规则),通过正则表达式来匹配内容
3.列表 传入列表参数,如 [‘div’,’a’,’b’],返回与列表中任一元素匹配的内容。
4.True 匹配任何值
5.方法 还可以传入自定义函数
find_all 方法 搜索当前 tag 的所有子节点,并判断是否符合过滤器的条件。 返回的结果是所有符合条件的 tag 组成的列表。
语法:
1 find_all( name , attrs , recursive , string , **kwargs )
name 参数 查找所有名字为 name 的 tag name 参数的值可以使任一类型的 过滤器:字符串,正则表达式,列表,方法或是 True .
a. 给 name 参数传入字符串
1 2 3 4 5 6 7 8 soup.find_all("title" ) # [<title>The Dormouse's story</title>] soup.find_all('b ') # [<b>The Dormouse's story</b>] print soup.find_all('a ') #[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>, <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>, <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]
b.传入正则表达式
1 2 3 4 5 6 7 8 9 10 11 12 import re for tag in soup.find_all(re.compile("^b" )): print(tag .name) for tag in soup.find_all(re.compile("t" )): print(tag .name)
c.传入列表
1 2 3 4 5 6 # 找到文档中所有<a > 标签和<b > 标签: soup.find_all(["a", "b"]) # [<b > The Dormouse's story</b > , # <a class ="sister" href ="http://example.com/elsie" id ="link1" > Elsie</a > , # <a class ="sister" href ="http://example.com/lacie" id ="link2" > Lacie</a > , # <a class ="sister" href ="http://example.com/tillie" id ="link3" > Tillie</a > ]
d.传入True True 可以匹配任何值,下面代码查找到所有的tag
1 2 3 4 5 6 7 8 9 10 11 12 13 for tag in soup.find_all(True): print(tag.name) # html # head # title # body # p # b # p # a # a # a # p
keyword 参数 如果一个指定名字的参数不是搜索内置的参数名,搜索时会把该参数当作指定名字tag的属性来搜索 参数类型包括:字符串 , 正则表达式 , 列表, True .
1.传入字符串
1 2 3 # 找到所有属性名为 id 且属性值为 link2 的字符串 soup.find_all(id='link2') # [<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>]
2.传入正则表达式
1 2 soup.find_all(href=re.compile("elsie" )) # [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>]
3.True
1 2 3 4 5 # 查找所有包含 id 属性的tag,无论 id 的值是什么: soup.find_all(id=True ) # [<a class ="sister" href="http://example.com/elsie" id="link1" >Elsie</a>, # <a class ="sister" href="http://example.com/lacie" id="link2" >Lacie</a>, # <a class ="sister" href="http://example.com/tillie" id="link3" >Tillie</a>]
同时匹配多个属性
1 2 soup.find_all(href=re.compile("elsie" ), id='link1') # [<a class="sister" href="http://example.com/elsie" id="link1">three</a>]
想搜索 class 属性,但 class 是 python 关键字,所以用 class_
代替
1 2 3 4 soup.find_all("a" , class_="sister" ) # [<a class ="sister" href="http://example.com/elsie" id="link1" >Elsie</a>, # <a class ="sister" href="http://example.com/lacie" id="link2" >Lacie</a>, # <a class ="sister" href="http://example.com/tillie" id="link3" >Tillie</a>]
HTML5中的 data-* 属性在搜索不能使用
1 2 3 data_soup = BeautifulSoup('<div data-foo="value" >foo!</div >') data_soup.find_all(data-foo="value" )
可以通过 find_all() 方法的 attrs 参数定义一个字典参数来搜索包含特殊属性的tag
1 2 data_soup.find_all(attrs={"data-foo" : "value" }) # [<div data-foo="value">foo!</div>]
string 参数 匹配 文档 中的字符串内容,返回字符串列表 string 参数接受 字符串 , 正则表达式 , 列表, True 和方法
1 2 3 4 5 6 7 8 soup.find_all(text="Elsie" ) soup.find_all(text=["Tillie" , "Elsie" , "Lacie" ]) soup.find_all(text=re.compile("Dormouse" )) [u"The Dormouse's story" , u"The Dormouse's story" ]
可以与其它参数混合使用
1 2 3 # 搜索内容里面包含“Elsie”的<a>标签: soup.find_all("a" , string="Elsie" ) # [<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>]
limit 参数 设置匹配上限,当搜索到的结果数量达到 limit 的限制时,就停止搜索返回结果
1 2 3 4 # 文档树中有3 个tag符合搜索条件,但结果只返回2 个 soup.find_all("a" , limit=2 ) # [<a class ="sister" href="http://example.com/elsie" id="link1" >Elsie</a>, # <a class ="sister" href="http://example.com/lacie" id="link2" >Lacie</a>]
recursive 参数 find_all() 方法时默认检索当前 tag 的所有子孙节点,如果只想搜索tag的直接子节点,可以使用参数 recursive=False
一段简单的文档:
1 2 3 4 5 6 7 <html > <head > <title > The Dormouse's story </title > </head > ...
是否使用 recursive 参数的搜索结果:
1 2 3 4 5 soup.html.find_all("title" ) # [<title>The Dormouse's story</title>] soup.html.find_all("title" , recursive=False) # []
标签在 标签下, 但并不是直接子节点, 标签才是直接子节点. 在允许查询所有后代节点时能够查找到 标签. 但是使用了 recursive=False 参数之后,只能查找直接子节点,这样就查不到 标签了.
find_all() 几乎是Beautiful Soup中最常用的搜索方法,所以我们定义了它的简写方法.
下面两行代码是等价的:
1 2 soup.find_all("a" ) soup ("a" )
这两行代码也是等价的:
1 2 soup.title.find_all(string =True ) soup.title(string =True )
find() 方法 1 find( name , attrs , recursive , string , **kwargs )
find() 与 find_all() 区别:
find_all() 返回符合条件的所有 tag,find() 只返回符合条件的第一个 tag
find_all() 返回结果是列表,而 find() 方法直接返回结果.
find_all() 方法没有找到目标时返回空列表, find() 方法找不到目标时,返回 None .
1 2 3 4 5 soup.find_all('title', limit=1 ) # [<title>The Dormouse's story</title>] soup.find('title') # <title>The Dormouse's story</title>
标签的属性 attrs 把标签的所有属性打印输出了出来,结果为字典类型
1 2 print soup.p .attrs #{'class' : ['title' ], 'name' : 'dromouse' }
单独获取某个属性的值
1 2 3 4 5 print soup.p['class' ] #['title’] print soup.p.get ('class' ) #['title']
select() 方法 用 CSS 选择器 的语法来筛选元素,返回 tag 列表
CSS选择器语法: 标签名不加任何修饰,类名(class=”className”引号内即为类名)前加点,id名id=”idName”引号内即为id名)前加 #
通过 tag 名查找 1 2 3 4 5 print soup.select('title') #[<title>The Dormouse's story</title>] print soup.select('a ') #[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>, <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>, <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]
通过类名查找 1 2 print soup.select('.sister' ) #[<a class="sister" href="http://example.com/elsie" id="link1" >Elsie</a>, <a class="sister" href="http://example.com/lacie" id="link2" >Lacie</a>, <a class="sister" href="http://example.com/tillie" id="link3" >Tillie</a>]
通过 id 名查找 1 2 print soup.select('#link1') #[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>]
通过属性查找 查找时还可以加入属性元素,属性需要用中括号括起来
1 2 3 4 5 print soup.select('a [class ="sister" ]') #[<a class ="sister" href="http://example.com/elsie" id="link1" >Elsie </a>, <a class ="sister" href="http://example.com/lacie" id="link2" >Lacie </a>, <a class ="sister" href="http://example.com/tillie" id="link3" >Tillie </a>] print soup.select('a [href="http://example.com/elsie" ]') #[<a class ="sister" href="http://example.com/elsie" id="link1" >Elsie </a>]
是否存在某个属性来查找:
1 2 3 4 soup.select('a[href]' ) # [<a class ="sister" href="http://example.com/elsie" id="link1" >Elsie</a>, # <a class ="sister" href="http://example.com/lacie" id="link2" >Lacie</a>, # <a class ="sister" href="http://example.com/tillie" id="link3" >Tillie</a>]
多个查找条件属于同一 tag 的,不用空格隔开;
多个查找条件不属于同一 tag 的,用空格隔开。
(同时符合条件1和条件2的 tag) 选择标签名为 a,id 为 link2 的 tag:
1 2 soup.select('a #link2’) # [<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>]
tag 之间的包含查找 查找标签 p 中,id 等于 link1 的 tag,二者需要用空格分开
1 2 print soup.select('p #link1') # [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>]
找到某个tag标签下的直接子标签
1 2 3 4 5 6 7 8 9 10 11 12 13 soup.select("head > title" ) # [<title>The Dormouse's story</title>] soup.select("p > a" ) # [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>, # <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>, # <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>] soup.select("p > #link1" ) # [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>] soup.select("body > a" ) # []
同时用多种CSS选择器查询(符合条件1或条件2的tag):
1 2 3 soup.select("#link1,#link2" ) # [<a class ="sister" href="http://example.com/elsie" id="link1" >Elsie</a>, # <a class ="sister" href="http://example.com/lacie" id="link2" >Lacie</a>]
用 beautifulsoup 获取 HTML 网页源码里的内容,想删除或替换里面的
使用 \xa0
1 2 3 >>> soup = BeautifulSoup('<div>a b</div>' , 'lxml' )>>> soup.prettify()u'<html>\n <body>\n <div>\n a\xa0b\n </div>\n </body>\n</html>'
.text与.string 在用find()方法找到特定的tag后,想获取里面的文本,可以用.text属性或者.string属性。
在很多时候,两者的返回结果一致,但其实两者是有区别的
例如 html 像这样:
1 2 3 4 1、<td > some text</td > 2、<td > </td > 3、<td > <p > more text</p > </td > 4、<td > even <p > more text</p > </td >
.string 属性得到的结果
1 2 3 4 1 、some text2 、None3 、more text4 、None
.text 属性得到的结果
1 2 3 4 1 、some text 2 、more text 3 、even more text
.find和.string之间的差异:
第一行,td没有子标签,且有文本时,两者的返回结果一致,都是文本
第二行,td没有子标签,且没有文本时,.string返回None,.text返回为空
第三行,td只有一个子标签时,且文本只出现在子标签之间时,两者返回结果一致,都返回子标签内的文本
第四行,最关键的区别,td有子标签,并且父标签td和子标签p各自包含一段文本时,两者的返回结果,存在很大的差异:
.string返回为空,因为文本数>=2,string不知道获取哪一个
.text返回的是,两段文本的拼接。
使用 BeautifulSoup 提取网页内容 demo 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 """ 练习使用 BeautifulSoup 提取网页内容 @author: v1coder """ import requestsfrom bs4 import BeautifulSoupheaders = {'User-Agent' :'' } def biqukan_com () : url = 'https://www.biqukan.com/1_1094/5403177.html' req = requests.get(url) content_data = req.content soup = BeautifulSoup(content_data, 'lxml' ) texts = soup.find_all('div' , id="content" ) print(texts[0 ].text.replace('\xa0' *8 ,'\n' )) def tucaodahui_title () : url = 'https://v.qq.com/detail/8/80844.html' data = requests.get(url).text soup = BeautifulSoup(data, 'lxml' ) titles = soup.find_all('strong' , itemprop="episodeNumber" ) for title in titles: print(title.text) def jianshu () : url = 'https://www.jianshu.com/p/713415f82576' data = requests.get(url, headers=headers).text soup = BeautifulSoup(data, 'lxml' ) texts = soup.find_all('div' , class_="show-content-free" ) print(texts[0 ].text) def douban_TOP250 () : url = 'https://movie.douban.com/top250' data = requests.get(url, headers=headers).text soup = BeautifulSoup(data, 'lxml' ) comments = soup.find_all('span' , class_="inq" ) titles = soup.find_all('img' , width="100" ) for num in range(len(titles)): title = str(num+1 ) + '.' + '《' + titles[num].get('alt' ) + '》' comment = ' :' + comments[num].text print(title) print(comment) print() def dytt () : url = 'https://www.dytt8.net/' data = requests.get(url, headers=headers).content soup = BeautifulSoup(data, 'lxml' ) text = soup.find('div' , class_="co_content8" ) dates = text.find_all('font' ) names = text.select("td a" ) num = 1 for name in names[2 ::2 ]: print(name.text) print(dates[num].text) print() num += 1 def mmjpg () : url = 'http://www.mmjpg.com/' data = requests.get(url, headers=headers).content soup = BeautifulSoup(data, 'lxml' ) url_tags = soup.find_all('img' , width="220" ) for url_tag in url_tags: pic_url = url_tag['src' ] print(pic_url) def haopic_me () : url = 'http://www.haopic.me/tag/meizitu' data = requests.get(url, headers=headers).content soup = BeautifulSoup(data, 'lxml' ) url_tags = soup.find_all('div' , class_="post" ) for url_tag in url_tags: pic_url = url_tag.find('img' )['src' ] print(pic_url) def mzitu_com () : url = 'https://www.mzitu.com/' data = requests.get(url, headers=headers).content soup = BeautifulSoup(data, 'lxml' ) url_tags = soup.find_all('img' , class_='lazy' ) for url_tag in url_tags: pic_url = url_tag.get('data-original' ) print(pic_url)
鸣谢:Beautiful Soup的用法 | 静觅 Beautiful Soup 4.4.0 文档 BeautifulSoup解析网页
2018-12-27