网站日志,日志分析,蜘蛛,爬虫
一篇值得珍藏的Spider抓取,网站日志分析点,日志中常常看到一堆的IP以及状态码感觉特别懵逼,从中分析Spider的爬行规律,并且投其所好摒弃不足之处,与Spider谈恋爱,只有从细节开始~日志分析就是最好的一个突破点,定期观察能节约不少的优化成本。
日志的分析在SEO工作中是一种重要的内容之一,那么在什么情况下我们需要做日志分析。
网站刚搭建,可以使用日志分析Spider私发来爬行;
网站收录了,不过总的收录量并没有提升需要分析日志看Spider的活跃情况;
网站收录减少,需要分析日志看是否服务器出现问题;
网站首页被K,需要了解日志中Spider爬行首页的情况;
网站全部被K,通过日志我们可以分析Spider最近的动态;
那么在分析日志的时候,一般我们需要看那些地方,分别需要得出什么样的结论,这样的日志数据对接下来的工作是否有意义;
网站日志分析的角度是从Spider角度分析,一般直观得到的数据是Spider访问次数、停留时间、返回码,可以从中计算出Spider的访问次数以及平均抓取量、重复抓取率;我们都知道网站的收录与Spider的赚钱息息相关,抓取的量大说明网站页面受到了Spider的喜欢。
所以抓取量与平均抓取量的提升或下降,从中我们可以看出这个网站的结构情况,Spider的总访问量说明网站的规模;平均停留时间说明Spider爬行一个页面所花费的时间,减少这个时间无疑是对网站有重要意义的,
Spider抓取量的数据,从中分析出网站是否让Spider不断的爬行无效页面,是否浪费很多Spider,从Spider的重复率可也是同理,重复抓取并不能是收录量提升,而收录量与网站的权重排名流量有很大的关系;
Spider抓取间隔时间,在日志中可以看到,会从间隔时间的变化分析出网站在服务器端的问题;
结合网站流量趋势以及Spider的爬行趋势,流量在大幅度减少这样是很不正常的,而在不正常的情况下,同时间段的Spider爬行也会出现异常,可以从返回码是否正价来判断服务器是否稳定;
还有一点就是在搜索引擎在更新算法的时候,Spider就会出现异常,而Spider的总访问量也会不断增加;
以上讲了日志分析的要点,下面就给大家一份曾道听途说的IP段分析,成与不成自己把握,毕竟IP段本身并不好记;
113.98.254.245
117.21.220.245
117.28.255.42站长工具模仿的百度Spider
117.34.74.66
118.122.188.194
119.147.114.213
119.63.196.9 百度竞价Spider
121.10.141.*114站长工具箱(这个是网站不稳定时常来的)
121.14.89.*新站考察:这个ip段作为度过新站考察期(很少来)
123.125.66.*预备抓取:代表百度Spider IP造访,准备抓取你东西,抓取网页的百度Spider
123.125.71.*低权重汇总:抓取内页收录的,权重较低,爬过此段的内页文章暂时被收录但不放出来(意思也就是说待定),因不是原创或采集文章
123.125.68.*这个Spider经常来,别的来的少,表示网站可能要进入沙盒了,或者被降权。
123.125.71.106低权重
123.125.71.117低权重
123.125.71.95低权重
123.125.71.97低权重
123.15.**.**百度图片爬虫
124.248.34.52搜外站长工具Spider
125.39.78.185百度竞价Spider天津联通
159.226.50.*百度Spider
180.149.130.*伪装百度Spider IP
180.76.5.*百度Spider北京联通
180.76.5.87百度Spider北京电信
183.91.40.144
203.208.60.*网站异常:这个IP段出现在新站及站点有不正常现象后
210.72.225.*巡逻:这个ip段不间断巡逻各站,就是路过一下
218.30.118.102
220.181.108.*权重Spider汇总:主要是抓取首页占80%,内页占30%,这此爬过的文章或首页,绝对24小时内放出来和隔夜快照的!一般成功抓取返回代码都是200 0 0返回304 0 0代表网站没更新,Spider来过,如果是200 0 64别担心这不是K站,可能是网站是动态的,所以返回就是这个代码
220.181.108.92权重抓取:同上98%抓取首页,可能还会抓取其他(不是指内页),属于权重IP段此段爬过的文章或首页基本24小时放出来
220.181.68.*每天这个IP 段只增不减很有可能进沙盒或K站。
220.181.7.*、123.125.66.* 代表百度Spider IP造访,准备抓取你东西。
121.14.89.*这个ip段作为度过新站考察期。
203.208.60.*这个ip段出现在新站及站点有不正常现象后。
210.72.225.*这个ip段不间断巡逻各站。
125.90.88.* 广东茂名市电信也属于百度Spider IP 主要造成成分,是新上线站较多,还有使用过站长工具,或SEO综合检测造成的。
220.181.108.95这个是百度抓取首页的专用IP,如是220.181.108段的话,基本来说你的网站会天天隔夜快照,绝对错不了的,我保证。
220.181.108.92 同上98%抓取首页,可能还会抓取其他 (不是指内页)220.181段属于权重IP段此段爬过的文章或首页基本24小时放出来。
123.125.71.106 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章,抓取频次不会太高。
220.181.158.107百度Spider
220.181.108.91属于综合的,主要抓取首页和内页或其他,属于权重IP 段,爬过的文章或首页基本24小时放出来。
220.181.108.75重点抓取更新文章的内页达到90%,8%抓取首页,2%其他。权重IP 段,爬过的文章或首页基本24小时放出来。
220.181.108.86专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。
123.125.71.95 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。
123.125.71.97 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。
220.181.108.89专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。
220.181.108.80专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。
220.181.108.77 专用抓首页IP 权重段,一般返回代码是304 0 0 代表未更新。
220.181.108.94专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。
220.181.108.97专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。
220.181.108.83专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。
123.125.71.117 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。
注:以上IP尾数还有很多,但段位一样的123.125.71.*段IP 代表抓取内页收录的权重比较低.可能由于你采集文章或拼文章暂时被收录但不放出来.(意思也就是说待定)。
220.181.108.*段IP主要是抓取首页占80%,内页占30%,这此爬过的文章或首页,绝对24小时内放出来和隔夜快照的,这点我可以保证!
61.129.45.72
61.135.162.*代表百度Spider IP造访,准备抓取你东西,抓取网页的百度Spider
61.135.165.134百度竞价Spider北京联通
61.135.168.*抓取图片的百度Spider
61.135.186.*(百度联盟爬虫),说白了就是百度统计61.147.98.146
61.188.39.16
当分析了解日志中的IP才能更好的知晓自己的网站处在Spider心目中的地位,从中我们可以找到相应解决办法,只有了解Spider动态与喜好才能更好的使把网站推送给Spider。