07

[Python] – 爬虫之lxml库的用法

[Python] – 爬虫之lxml库的用法

HTML 示例代码

小试牛刀 Continue reading

16

用Python爬取金融市场数据

一、写在前面

由于在平时的工作中,需要对某信托网的信托在售和资管在售数据进行统计分析,但是一条一条的输入,显然太过耗时耗力,于是萌生了写个爬虫的想法。

一门计算机语言,可以当做是在模仿人的目的或意图来进行一系列行为或动作,所以在写代码之前,首先要弄清楚你要干什么,如果是你,你每一步的动作是什么,然后将这一步步的动作通过代码传递给计算机,让计算机高效的帮你完成即可。

本文结合正则表达式和比较流行的beautifulsoup(bs4),对网页进行解析并提取数据,因此在正式进行之前,有必要简单介绍下正则表达式和bs4. Continue reading

十二 11

网站日志分析点,Spider IP段详细介绍“技术篇”

网站日志,日志分析,蜘蛛,爬虫

一篇值得珍藏的Spider抓取,网站日志分析点,日志中常常看到一堆的IP以及状态码感觉特别懵逼,从中分析Spider的爬行规律,并且投其所好摒弃不足之处,与Spider谈恋爱,只有从细节开始~日志分析就是最好的一个突破点,定期观察能节约不少的优化成本。

日志的分析在SEO工作中是一种重要的内容之一,那么在什么情况下我们需要做日志分析。

网站刚搭建,可以使用日志分析Spider私发来爬行;

网站收录了,不过总的收录量并没有提升需要分析日志看Spider的活跃情况;

网站收录减少,需要分析日志看是否服务器出现问题;

网站首页被K,需要了解日志中Spider爬行首页的情况;

网站全部被K,通过日志我们可以分析Spider最近的动态; Continue reading