SEO学习网—免费网站SEO优化培训教程分享!

当前位置: 首页 > SEO视频 >

SEO视频:robots协议的应用

来源:网络SEO|栏目:SEO视频|发布:2015-10-08 16:24|浏览:

课程笔记:

robots的基本概念:

1.什么是robots?

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol)-百度官方

2.为什么会产生这个协议?

它属于国际的互联网道德协议,百度与360,谷歌等搜索引擎之间大家遵循的规章制度,不要过分窃取别人隐私。

robots协议作用:

1.网站作用

告知蜘蛛,该网站哪些页面抓,哪些不抓(抓与不抓,就是它对该页面的评价—与收录息息相关)

2.特定权重分散作用

权重:百度的信任值,第三方工具的统计流量预估值

权重分散:就是信任值在网站内不均匀,比如,网站A为总分100分,百度针对网站A的总分根据A站下的所有页面得分的总和(B,C,D内页+E,F,G外链)

权重与robots协议关系:

权重更多的是 百度的评价,百度怎么评价:

1.蜘蛛爬取

2.收录文章与信息

3.页面质量打分

与Robots协议关系:

1.防止垃圾页面被收录,减小扣分可能性。

2.提高页面质量,低质量页面防止被抓取。

写robots的注意事项:

1.是一个txt文本,必须放置在网站根目录下。

以:http://ke.likeseo.cn/robots.txt 形式访问

2.Robots协议的中注意的问题:

*并不是写了就能绝对性阻碍蜘蛛不去抓取

*网站搭建,robots是用来屏蔽掉不想抓的页面的

*网站上线(开张)前,robots就写好,上线了robots就必须在根目录。

*robots是在网站调试阶段,防止被收录的一种手段,但不是最佳手段(最佳-利用本地建站测试网站)。

robots.txt的基本语法:

内容项的基本格式:键: 值对 1) User-Agent键   

后面的内容对应的是各个具体的搜索引擎爬行器的名称。

如百度是Baiduspider,谷歌是Googlebot。   

一般我们这样写:   User-Agent: *   

表示允许所有搜索引擎蜘蛛来爬行抓取。

如果只想让某一个搜索引擎蜘蛛来爬行,在后面列出名字即可,如果是多个,则重复写。   

注意:User-Agent:后面要有一个空格。   在robots.txt中,键后面加: 号,后面必有一个空格,和值区分开。

robots.txt的基本语法:

2)Disallow键

该键用来说明不允许搜索引擎蜘蛛抓取的URL路径。   

例如:Disallow: /index.php 禁止网站index.php文件

3)Allow键   

该键说明允许搜索引擎蜘蛛抓取的URL路径   

例如:Allow: /index.php 允许网站的index.php

4)通配符*   

代表任意多个字符   

例如:Disallow: /*.jpg 网站所有的jpg文件被禁止了。

5)结束符$   

表示以前面字符结束的url。   

例如:Disallow: /?$ 网站所有以?结尾的文件被禁止。

写法中的注意点:

1.开头字母要大写

User_agent:

Disallow :

Allow:

2.优先级问题

Disallow : (第一优先级)

Allow: (第二优先级)

先写Allow,再添加Disallow 是冲突的 要先写Disallow,可以再添加allow规则。

robots和nofollow的区别:

robots是屏蔽内容,让蜘蛛按照你规矩来抓取页面。

nofollow是让蜘蛛不跟随此链接,这个标签的意义是告诉搜索引擎这个链接不是经过作者自己编辑的,所以这个链接不是一个信任票,即使这个链接存在,也是不能获得权重的分配的。(控制站内权重)

总结:

1.robots协议非绝对可行

2.robots协议与nofollow的区别

3.robots协议只是一个优化中”小沙袋增重作用”

4.不会写robots就不要乱动,用程序默认的就行。

(编辑:SEO学习网)

关键词:SEO视频robots

推荐文章

站长推荐

  • 百度VIP大讲堂移动端网站优化教程汇总

    百度VIP大讲堂移

  • SEO视频:超越竞争对手的网站标题优化

    SEO视频:超越竞争