python爬虫开发之PyQuery模块详细使用方法与实例全解

2023-07-29 14:02:04 429

python爬虫模块PyQuery简介

PyQuery库也是一个非常强大又灵活的网页解析库，如果你有前端开发经验的，都应该接触过jQuery,那么PyQuery就是你非常绝佳的选择，PyQuery是Python仿照jQuery的严格实现。语法与jQuery几乎完全相同，所以不用再去费心去记一些奇怪的方法了。

官网地址：http://pyquery.readthedocs.io/en/latest/

jQuery参考文档：http://jquery.cuishifeng.cn/

PyQuery模块初始化

初始化的时候一般有三种传入方式：传入字符串，传入url,传入文件

字符串初始化

html='''


firstitem
seconditem
thirditem
fourthitem
fifthitem


'''
frompyqueryimportPyQueryaspq
doc=pq(html)
print(doc)
print(type(doc))
print(doc('li'))

结果如下：



firstitem
seconditem
thirditem
fourthitem
fifthitem



firstitem
seconditem
thirditem
fourthitem
fifthitem

由于PyQuery写起来比较麻烦，所以我们导入的时候都会添加别名：

frompyqueryimportPyQueryaspq

这里我们可以知道上述代码中的doc其实就是一个pyquery对象，我们可以通过doc可以进行元素的选择，其实这里就是一个css选择器，所以CSS选择器的规则都可以用，直接doc(标签名)就可以获取所有的该标签的内容，如果想要获取class则doc(‘.class_name'),如果是id则doc(‘#id_name')….

URL初始化

frompyqueryimportPyQueryaspq
doc=pq(url="//www.nhooo.com",encoding='utf-8')
print(doc('head'))

文件初始化

我们在pq()这里可以传入url参数也可以传入文件参数，当然这里的文件通常是一个html文件，例如：pq(filename='index.html')

基本的CSS选择器

html='''


firstitem
seconditem
thirditem
fourthitem
fifthitem

''' frompyqueryimportPyQueryaspq doc=pq(html) print(doc('#container.listli'))

结果如下

firstitem
seconditem
thirditem
fourthitem
fifthitem

这里我们需要注意的一个地方是doc(‘#container.listli')，这里的三者之间的并不是必须要挨着，只要是层级关系就可以,下面是常用的CSS选择器方法：

.class .color 选择class="color"的所存元素 #id #info 选择id="info"的所存元素 * * 选择所有元素 element p 选择所杳的P元索 element,element div,p 选择所有div元素和所有p元素 elementelement divp 选择div标签内部的所有p元素 [attribute] [target] 选择带有targe属性的所有元索 [arrtibute=value] [target=_blank] 选择target="_blank"的所有元索

查找元素

子元素children,find

html='''


firstitem
seconditem
thirditem
fourthitem
fifthitem

''' frompyqueryimportPyQueryaspq doc=pq(html) items=doc('.list') print(type(items)) print(items) lis=items.find('li') print(type(lis)) print(lis)

结果如下



firstitem
seconditem
thirditem
fourthitem
fifthitem


firstitem
seconditem
thirditem
fourthitem
fifthitem

从结果里我们也可以看出通过pyquery找到结果其实还是一个pyquery对象，可以继续查找，上述中的代码中的items.find(‘li')则表示查找ul里的所有的li标签

当然这里通过children可以实现同样的效果,并且通过.children方法得到的结果也是一个pyquery对象

li=items.children()
print(type(li))
print(li)

同时在children里也可以用CSS选择器

li2=items.children(‘.active')print(li2)

父元素

parent,parents方法

通过.parent就可以找到父元素的内容，例子如下：

html='''


firstitem
seconditem
thirditem
fourthitem
fifthitem

python爬虫开发之PyQuery模块详细使用方法与实例全解

python爬虫模块PyQuery简介

PyQuery模块初始化

URL初始化

查找元素

父元素

parent,parents方法

兄弟元素

siblings

遍历

获取信息

获取属性

获取文本

获取html

DOM操作

addClass、removeClass

attr,css

remove

随机推荐

python爬虫开发之PyQuery模块详细使用方法与实例全解

python爬虫模块PyQuery简介

PyQuery模块初始化

URL初始化

查找元素

父元素

parent,parents方法

兄弟元素

siblings

遍历

获取信息

获取属性

获取文本

获取html

DOM操作

addClass、removeClass

attr,css

remove

热门推荐

随机推荐