三 31 Python把HTML实体编码和Unicode编码\u转为中文汉字 Posted on 2018年3月31日 by 织梦先生 某模块把获取的汉字转为HTML实体了,形式如〹 解码方法如下: import HTMLParser char = r"织梦先生" # 十进制 t = HTMLParser.HTMLParser() uChar = t.unescape(char) # 扩展 char = r"\u7ec7\u68a6\u5148\u751f" # 十六进制 uChar = unichr(int(char.lstrip(r"\u"), 16)) 012345678 import HTMLParser char = r"织梦先生" # 十进制t = HTMLParser.HTMLParser()uChar = t.unescape(char) # 扩展char = r"\u7ec7\u68a6\u5148\u751f" # 十六进制uChar = unichr(int(char.lstrip(r"\u"), 16)) 这样就把实体码翻译成汉语了。 PS. 实体码中有的符号不是&#开头,而是&开头的,匹配的时候要注意。 PSS. 实体码最后的分号不能少!