28

PHP采集HTML后中文乱码,转换编码为UTF-8的方法

HTML字符集是CP936转UTF-8,GB2312转UTF-8,GBK转UTF-8,PHP采集HTML后中文乱码,转换编码为UTF-8的方法

这个任务最初是使用QueryList插件来采集分析页面的,但是后来发现采集入库的数据中有乱码,查看分析了一下,全部是源页面字符集为非utf-8的页面,那么就利用QueryList自有的方法来转码。

QueryList官方文档 中介绍,使用encoding('UTF-8','GB2312')方法可以解决,但是实际情况是页面字符集多种多样,刚才测试了三个网站三种编码,CP936,EUC-CN,GBK,真是玩死朕了。那么官方还说如果还是不能解决乱码问题就把removeHead()函数也挂上,没挂之前我感觉它应该是不好使,那也要试一下才能真正的确定啊,试了一下,结果确实还是乱码。

QueryList有时有点诡异,采集时有时会缺内容,不知所以然。 Continue reading

06

CMD运行python项目中文乱码的解决方法

一般情况,原因是python项目编码是utf-8,面CMD默认编码是gbk,所以CMD运行python项目中文才会乱码的,那么我们如果不想修改python项目编码的话,那么就需要修改CMD的默认编码了,方法如下:

CMD窗口输入

如果返回当前CMD的编码

修改为utf-8编码的命令

现在运行python项目应该就不会乱码了。

假如还是乱码的话,那就把刚才的修改逆向改回去,再查原因吧,但是暂时我还没有发现这种情况。

 

08

Kali Rolling 解决中文乱码问题

1. 在命令行输入”dpkg-reconfigure locales”。进入图形化界面之后,(空格是选中/取消,Tab是切换),选中en_US.UTF-8和zh_CN.UTF-8,确定回车后,将en_US.UTF-8选为默认。
2. 安装中文字体,”apt-get install xfonts-intl-chinese “和” apt-get install ttf-wqy-microhei”
3. 重启 reboot
4. 这时发现网页不乱码,系统也不乱码,但是是英文的界面。打开系统设置,找到设置语言的地方,将语言再改为汉语(中国)。如果没有,或者找不到的输入如下命令:

5.重启。

6. 如果重启后界面没有变为中文,修改apt源并更新

总结:Kali系统的一些常见问题,搜索Debian的常见问题,往往能搜到更多的信息。毕竟,Kali是在Debian上进行一些修改的镜像。