关于百度站长平台网页抓取功能解析

福利公会app

关于百度站长平台网页抓取功能解析:

网页抓取功能主要包括索引量、Robots、链接提交、死链提交、抓取频次、抓取诊断、抓取异常等内容。我们通过索引量可以看到站点在一定时间内被索引的量和变化趋势,能及时掌握网站的实际情况,并且可以指定规则,检测某个频道或者专题被收录和索引的情况。

链接提交包括主动推送、自动推送、 Sitemap、手动提交四种提交方式。其中主动推送是最快捷的方式,能够确保当天新链接被收录进来。自动推送是最便捷的方式,把JS代码部署到每一页面,页面被浏览时自动推送到百度,一般都与主动推送结合使用。Sitemap提交慢于主动推送,需要定期更新。手动提交比较机械化,但是可以把链接一次性提交给百度。

百度站长平台网页抓取功能解析

死链提交主要是处理网站上已存在的死链,当网站死链数据累积过多,并且被展示到搜索结果页中时,对网站本身的访问体验和用户转化都产生了负面影响。另外,百度检查死链的流程也会为网站带来额外负担,影响网站其他正常页面的抓取和索引。死链提交方式包括文件提交和规则提交。

文件提交是将已制作好的死链文件上传至网站根目录,然后将死链文件地址提交。规则提交是指将相同链接前缀下的死链写成链接规则,且与其匹配的链接全部都是死链,然后将这个死链规则提交。目前支持两种死链规则:目录规则,以“”结尾的前缀;CGI规则,以“?”结尾的前缀。

Robots功能用于检测与更新网站的 robots. txt文件,如果网站长时间不被搜索引擎抓取,可能是 robots.txt文件出了问题,需要对其进行检测更新。需要注意的是,robots.xt文件最大不超过48k,目录不超过250个字符。

抓取频次功能可以监测蜘蛛抓取网站的频次和每次抓取所用时间。

抓取诊断功能可以监测蜘蛛抓取网站是否正常,是否能够正常抓取网站内容。每个站点每周最多能够抓取整段200次,通过抓取整段可以监测网站内容是否符合预期,是否被加了黑链,是否隐藏文本,连通是否正常等。

抓取异常监测可以监测网站异常和链接异常两个方面。网站异常会出现DNS异常、连接与抓取超时、链接错误的情况;链接异常会出现访问被拒、找不到页面、服务器错误、其它错误等情况。

本文由 书中自有黄金屋-潜龙之家-网络营销和自媒体 作者:qilong 发表,其版权均为 书中自有黄金屋-潜龙之家-网络营销和自媒体 所有,文章内容系作者个人观点,不代表 书中自有黄金屋-潜龙之家-网络营销和自媒体 对观点赞同或支持。如需转载,请注明文章来源。
61
qilong
网络营销和自媒体