Python正则表达式匹配HTML页面编码
html页面一般都会指定一个编码,如何获取到是处理html页面的第一步,因为错误的编码必然带来后面处理的问题。这里我用python的正则表达式写了个:
importre a=["<metahttp-equiv="Content-Type"content="text/html;charset=utf-8"/>", '<metahttp-equiv=Content-Typecontent="text/html;charset=gb2312">', '<metahttp-equiv="Content-Type"content="text/html;charset=iso-8859-1">', '<metahttp-equiv="Content-Type"content="text/html;charset=gb2312"/>', '<metahttp-equiv="content-type"content="text/html;charset=utf-8"/>', '<metahttp-equiv="Content-Type"content="text/html;charset=gb2312"/>', '<metahttp-equiv="Content-Type"content="text/html;charset=gb2312"/>' ] b="<meta[]+http-equiv=["']?content-type["']?[]+content=["']?text/html;[]*charset=([0-9-a-zA-Z]+)["']?" B=re.compile(b,re.IGNORECASE) foraxina: r1=B.search(ax) ifr1: printr1.group() printr1.group(1),len(r1.group()) else: print'notmatch'
热门推荐
3 送蛇的祝福语简短
10 上班收到花束祝福语简短
11 关于好的祝福语简短
12 幼儿祝福语押韵句子简短
13 简短56岁生日祝福语
14 参加儿子大学祝福语简短
15 比较简短浪漫的祝福语
16 锡婚祝福语简短霸气
17 近代生日祝福语简短精辟
18 初升高祝福语家长简短