某模块把获取的汉字转为HTML实体了,形式如〹 解码方法如下:
0 1 2 3 4 5 6 7 8 |
import HTMLParser char = r"织梦先生" # 十进制 t = HTMLParser.HTMLParser() uChar = t.unescape(char) # 扩展 char = r"\u7ec7\u68a6\u5148\u751f" # 十六进制 uChar = unichr(int(char.lstrip(r"\u"), 16)) |
这样就把实体码翻译成汉语了。
PS. 实体码中有的符号不是&#开头,而是&开头的,匹配的时候要注意。
PSS. 实体码最后的分号不能少!