python中django框架通过正则搜索页面上email地址的方法
本文实例讲述了python中django框架通过正则搜索页面上email地址的方法。分享给大家供大家参考。具体实现方法如下:
importre fromdjango.shortcutsimportrender frompattern.webimportURL,DOM,abs,find_urls defindex(request): """ findemailaddressesinrequestedurlorcontactpage """ error='' emails=set() url_string=request.GET.get('url','') EMAIL_REGEX=re.compile(r'[A-Z0-9._%+-]+@[A-Z0-9.-]+\.[A-Z]{2,6}',re.IGNORECASE) #useabsoluteurlordomainname url=URL(url_string)ifurl_string.startswith('http')elseURL(domain=url_string,protocol='http') ifurl_string: try: dom=DOM(url.download(cached=True)) exceptException,e: error=e else: contact_urls={url.string} #searchlinksofcontactpage forlinkindom('a'): ifre.search(r'contact|about',link.source,re.IGNORECASE): contact_urls.add( abs(link.attributes.get('href',''),base=url.redirectorurl.string)) forcontact_urlincontact_urls: #downloadcontactpage dom=DOM(URL(contact_url).download(cached=True)) #searchemailsinthebodyofthepage forlineindom('body')[0].content.split('\n'): found=EMAIL_REGEX.search(line) iffound: emails.add(found.group()) data={ 'url':url_string, 'emails':emails, 'error':error, } returnrender(request,'index.html',data)
PS:这里再为大家提供2款非常方便的正则表达式工具供大家参考使用:
JavaScript正则表达式在线测试工具:
http://tools.jb51.net/regex/javascript
正则表达式在线生成工具:
http://tools.jb51.net/regex/create_reg
希望本文所述对大家的Python程序设计有所帮助。