Unicode | 织梦先生

某模块把获取的汉字转为HTML实体了，形式如〹 解码方法如下：

import HTMLParser  

char = r"&#32455;&#26790;&#20808;&#29983;&#65279;"  # 十进制
t = HTMLParser.HTMLParser()
uChar = t.unescape(char)

# 扩展
char = r"\u7ec7\u68a6\u5148\u751f"  # 十六进制
uChar = unichr(int(char.lstrip(r"\u"), 16))

import HTMLParser

char = r"织梦先生" # 十进制

t = HTMLParser.HTMLParser()

uChar = t.unescape(char)

# 扩展

char = r"\u7ec7\u68a6\u5148\u751f" # 十六进制

uChar = unichr(int(char.lstrip(r"\u"), 16))

这样就把实体码翻译成汉语了。

PS. 实体码中有的符号不是&#开头，而是&开头的，匹配的时候要注意。

PSS. 实体码最后的分号不能少！

织梦先生

一个从零开始并且为了自己心底的理想不断奋斗中的人

Tag Archives: Unicode

Python把HTML实体编码和Unicode编码\u转为中文汉字