Python如何使用队列方式实现多线程爬虫

2023-07-25 12:21:15 425
说明：糗事百科段子的爬取，采用了队列和多线程的方式，其中关键点是Queue.task_done()、Queue.join()，保证了线程的有序进行。
代码如下
importrequests
fromlxmlimportetree
importjson
fromqueueimportQueue
importthreading

classQsbk(object):
def__init__(self):
self.headers={
"User-Agent":"Mozilla/5.0(X11;Linuxx86_64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/81.0.4044.138Safari/537.36",
"Referer":"https://www.qiushibaike.com/"
}
#实例化三个队列，用来存放内容
self.url_queue=Queue()
self.html_queue=Queue()
self.content_queue=Queue()

defget_total_url(self):
"""
获取了所有的页面url，并且返回url_list
return:url_list
现在放入url_queue队列中保存
"""
url_temp="https://www.qiushibaike.com/text/page/{}/"
url_list=list()
foriinrange(1,13):
#url_list.append(url_temp.format(i))
#将生成的url放入url_queue队列
self.url_queue.put(url_temp.format(i))

defparse_url(self):
"""
发送请求，获取响应，同时etree处理html
"""
whileself.url_queue.not_empty:
#判断非空，为空时结束循环

#从队列中取出一个url
url=self.url_queue.get()
print("parsingurl:",url)
#发送请求
response=requests.get(url,headers=self.headers,timeout=10)
#获取html字符串
html=response.content.decode()
#获取element类型的html
html=etree.HTML(html)
#将生成的element对象放入html_queue队列
self.html_queue.put(html)
#Queue.task_done()在完成一项工作之后，Queue.task_done()函数向任务已经完成的队列发送一个信号
self.url_queue.task_done()

defget_content(self):
"""
解析网页内容，获取想要的信息
"""
whileself.html_queue.not_empty:
items=list()
html=self.html_queue.get()
total_div=html.xpath("//div[@class='col1old-style-col1']/div")
foriintotal_div:

author_img=i.xpath(".//a[@rel='nofollow']/img/@src")
author_img="https"+author_img[0]iflen(author_img)>0elseNone

author_name=i.xpath(".//a[@rel='nofollow']/img/@alt")
author_name=author_name[0]iflen(author_name)>0elseNone

author_href=i.xpath("./a/@href")
author_href="https://www.qiushibaike.com/"+author_href[0]iflen(author_href)>0elseNone

author_gender=i.xpath("./div[1]/div/@class")
author_gender=author_gender[0].split("")[-1].replace("Icon","").strip()iflen(author_gender)>0elseNone

author_age=i.xpath("./div[1]/div/text()")
author_age=author_age[0]iflen(author_age)>0elseNone

content=i.xpath("./a/div/span/text()")
content=content[0].strip()iflen(content)>0elseNone

content_vote=i.xpath("./div[@class='stats']/span[@class='stats-vote']/i/text()")
content_vote=content_vote[0]iflen(content_vote)>0elseNone

content_comment_numbers=i.xpath("./div[@class='stats']/span[@class='stats-comments']/a/i/text()")
content_comment_numbers=content_comment_numbers[0]iflen(content_comment_numbers)>0elseNone

item={
"author_name":author_name,
"author_age":author_age,
"author_gender":author_gender,
"author_img":author_img,
"author_href":author_href,
"content":content,
"content_vote":content_vote,
"content_comment_numbers":content_comment_numbers,
}
items.append(item)
self.content_queue.put(items)
#task_done的时候，队列计数减一
self.html_queue.task_done()

defsave_items(self):
"""
保存items
"""
whileself.content_queue.not_empty:
items=self.content_queue.get()
withopen("quishibaike.txt",'a',encoding='utf-8')asf:
foriinitems:
json.dump(i,f,ensure_ascii=False,indent=2)
self.content_queue.task_done()

defrun(self):
#获取urllist
thread_list=list()
thread_url=threading.Thread(target=self.get_total_url)
thread_list.append(thread_url)

#发送网络请求
foriinrange(10):
thread_parse=threading.Thread(target=self.parse_url)
thread_list.append(thread_parse)

#提取数据
thread_get_content=threading.Thread(target=self.get_content)
thread_list.append(thread_get_content)

#保存
thread_save=threading.Thread(target=self.save_items)
thread_list.append(thread_save)


fortinthread_list:
#为每个进程设置为后台进程，效果是主进程退出子进程也会退出
t.setDaemon(True)
t.start()

#让主线程等待，所有的队列为空的时候才能退出
self.url_queue.join()
self.html_queue.join()
self.content_queue.join()


if__name__=="__main__":
obj=Qsbk()
obj.run()
以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持毛票票。
Python如何使用队列方式实现多线程爬虫

热门推荐

随机推荐