python提取页面内url列表的方法
本文实例讲述了python提取页面内url列表的方法。分享给大家供大家参考。具体实现方法如下:
frombs4importBeautifulSoup
importtime,re,urllib2
t=time.time()
websiteurls={}
defscanpage(url):
websiteurl=url
t=time.time()
n=0
html=urllib2.urlopen(websiteurl).read()
soup=BeautifulSoup(html)
pageurls=[]
Upageurls={}
pageurls=soup.find_all("a",href=True)
forlinksinpageurls:
ifwebsiteurlinlinks.get("href")andlinks.get("href")notinUpageurlsandlinks.get("href")notinwebsiteurls:
Upageurls[links.get("href")]=0
forlinksinUpageurls.keys():
try:
urllib2.urlopen(links).getcode()
except:
print"connectfailed"
else:
t2=time.time()
Upageurls[links]=urllib2.urlopen(links).getcode()
printn,
printlinks,
printUpageurls[links]
t1=time.time()
printt1-t2
n+=1
print("totalis"+repr(n)+"links")
printtime.time()-t
scanpage("http://news.163.com/")
希望本文所述对大家的Python程序设计有所帮助。
热门推荐
10 新房开工吉日祝福语简短
11 经典送别祝福语大全简短
12 六一祝福语简短感动女生
13 生女儿的祝福语简短
14 离职横幅升职祝福语简短
15 娶嫂子的祝福语简短
16 整形机构开业祝福语简短
17 打牌翻盘祝福语简短
18 宝宝新生入学祝福语简短