Welcome to沈阳峰翔科技有限公司!

15840560486

黑龙江关键词排名

author:沈阳峰翔科技有限公司

【Font size: big medium smail

time:2019-11-09 11:05:58

Robots协议是放在根目录下的个协议,也是蜘蛛爬行网站的时需要访问的第一个文件,通过解读Robo文件的策略,蜘蛛可以知首哪些页面可以爬行,哪些不可以爬行。一般来说,网站都是可以开发给蜘蛛来抓取的,某些不允许抓取的页面或者频道,只需要在Robots里面设定Dsaw(禁止抓取的命令)就可以。但是在实际运营中,可能面临更复杂的情况,比如整站已经在 Https下,但是部分页面需要蜘蛛爬行,怎么办?有以下几个解决办法。(1)复制份到HTTP下。(2)使用user-agen判断来访者,将蜘蛛引导到HTTP页面关于 Robots文件,详细说明如下(1)特定页面已经不需要蜘蛛抓取,可以进行 Disallow。(2)某类集中的页面具有共同的∪RL参数,可以实现批量禁止抓取功能。

在操作批量禁止的时候,需要避免误伤,即具有同样URL特征的功能可能并不在禁止的目的之内,无意中被禁止了。关于同类特征的URL的一个特殊应用就是批量禁止动态URL的抓取。比如一个动态发布内容的网站,初始页面都是动态页面,从SEO角度考虑,这些动态页面全部批量生成了对应的静态页面,如下。