编码转换 | 织梦先生

HTML字符集是CP936转UTF-8,GB2312转UTF-8,GBK转UTF-8,PHP采集HTML后中文乱码，转换编码为UTF-8的方法

这个任务最初是使用QueryList插件来采集分析页面的，但是后来发现采集入库的数据中有乱码，查看分析了一下，全部是源页面字符集为非utf-8的页面，那么就利用QueryList自有的方法来转码。

$result = $ql->get('http://'.$url, null, $options)
        ->rules($rules)
        ->encoding('UTF-8','GB2312')
        ->removeHead()
        ->query()
        ->getData();

$result = $ql->get('http://'.$url, null, $options)

->rules($rules)

->encoding('UTF-8','GB2312')

->removeHead()

->query()

->getData();

QueryList官方文档中介绍，使用encoding('UTF-8','GB2312')方法可以解决，但是实际情况是页面字符集多种多样，刚才测试了三个网站三种编码，CP936,EUC-CN,GBK，真是玩死朕了。那么官方还说如果还是不能解决乱码问题就把removeHead()函数也挂上，没挂之前我感觉它应该是不好使，那也要试一下才能真正的确定啊，试了一下，结果确实还是乱码。

QueryList有时有点诡异，采集时有时会缺内容，不知所以然。 Continue reading →

某模块把获取的汉字转为HTML实体了，形式如〹 解码方法如下：

import HTMLParser  

char = r"&#32455;&#26790;&#20808;&#29983;&#65279;"  # 十进制
t = HTMLParser.HTMLParser()
uChar = t.unescape(char)

# 扩展
char = r"\u7ec7\u68a6\u5148\u751f"  # 十六进制
uChar = unichr(int(char.lstrip(r"\u"), 16))

import HTMLParser

char = r"织梦先生" # 十进制

t = HTMLParser.HTMLParser()

uChar = t.unescape(char)

# 扩展

char = r"\u7ec7\u68a6\u5148\u751f" # 十六进制

uChar = unichr(int(char.lstrip(r"\u"), 16))

这样就把实体码翻译成汉语了。

PS. 实体码中有的符号不是&#开头，而是&开头的，匹配的时候要注意。

PSS. 实体码最后的分号不能少！

织梦先生

一个从零开始并且为了自己心底的理想不断奋斗中的人

Tag Archives: 编码转换

PHP采集HTML后中文乱码，转换编码为UTF-8的方法

Python把HTML实体编码和Unicode编码\u转为中文汉字