Baiduspider每次抓取耗时非常长是什么原因
Baiduspider抓取耗时哗弯非常长一般凸显以下这几点:
快照时常不更新
网站收录少
网站关键词排名低
而造成这种抓取耗时的原因,分为以下几种:
网站是新站,这类情况的话,抓取耗时长是正常的,有些新站一个月才被百度收录。
蜘蛛爬过站点,但是没有抓取带走站点数据,页面。这类情况,可以查看网站日志根据蜘蛛反馈的状态码查询原由。
站点充斥了太多富媒体文件,而且网站信息原创度不高,这类会导致蜘蛛对站点失去兴趣,从而不在抓取站点。
那么怎么解决呢?
提高站点原创度,网站更新频率稳定。
主关键词,副关键词分布合理。切勿堆砌关键词
查看网站日志,根据所反馈状态码,作出相应的解决方法。
蜘蛛反馈码一般分为以下几种:
200 0 0 成功访问该页面,0代表抓取成功并带回数据库。歼樱这个时候你就放心了,这个页面已经被bd收录,但是还没有释放出来,bd更新时就可能释放出来。
200 0 64 访问了该页面,但并没有任何抓取也没有带回数据库。这种原因多为空间不稳定、服乱改闷务器不稳定。
304 0 0这个返回码代表蜘蛛访问的页面没有更新,和他之前来的时候是一样的,所以看到这个不要担心,蜘蛛来过,只不过你没有更新,所以他也不愿意带走这个页面。
404 0 0这个是代表404页面,但是有个很严重的问题,这个返回码告诉我们,蜘蛛来到了404页面并把他带走了。
标签:Baiduspider,长是,抓取