老铁们,大家好,相信还有很多朋友对于robots.txt文件详细教程,每个SEO优化者和网站开发者都必须知道和的相关问题不太懂,没关系,今天就由我来为大家分享分享robots.txt文件详细教程,每个SEO优化者和网站开发者都必须知道以及的问题,文章篇幅可能偏长,希望可以帮助到大家,下面一起来看看吧!
robots.txt的作用是什么?
robots.txt 文件只有一项功能:阻止一个或多个搜索引擎收录您网站上的内容。默认情况下,网站允许任何搜索引擎抓取和包含页面,但出于某些目的,您可以阻止一个或多个搜索引擎在您的网站上包含页面。为了达成这个共识,robots协议顺利诞生,所有搜索引擎都遵循robots协议。
每个搜索引擎都有一个称为蜘蛛或机器人的程序,我们习惯称其为“蜘蛛”。在决定是否抓取您的网站页面时,蜘蛛会首先检查您网站的根目录。检查目录下是否有robots.txt文件。如果没有robots.txt,则表示允许所有抓取。如果存在robots.txt文件,蜘蛛会识别自己的名字是否在被拒绝的名字中,然后确定你的设置。那些内容是不允许抓取的,那么网页就会被抓取并收录。
如何编写robots.txt文件
基本语法
默认情况下,整个网站允许任何搜索引擎抓取和收录。 Robots.txt仅用于禁止搜索引擎收录,因此只需添加搜索引擎蜘蛛的名称(User-agent)和disallow(禁止收录)内容),特殊情况下也可以使用allow语法。
用户代理: *Disallow: /Allow: *.html$#seo
请注意第一个字母是大写的。在英语中,冒号后跟一个空格。使用“井号”来表示注释。支持’*’匹配0个或多个任意字符。 ‘#34;匹配行终止符。它区分大小写。敏感,因此请注意文件或文件夹名称的精确匹配。为了让搜索引擎更好地识别robots.txt文件,建议保存编码并设置为ANSI编码。以下示例说明了各种用法和设置。
robots.txt的各种写法
1、屏蔽所有的搜索引擎收录任何页面
要屏蔽搜索引擎,只需将user-agent设置为*即可,如下所示,disallow后面的斜杠表示根目录。不允许包含根目录以下的任何内容,两行代码即可。
User-agent: *Disallow:/
2、允许所有的搜索引擎收录所有页面
所有搜索引擎都允许。您可以删除robots.txt文件的所有内容,即只保留一个空文件。也可以用下面的代码来说明。
用户代理: *允许: /
3、仅允许指定的搜索引擎收录
需要在前面写上搜索引擎蜘蛛的名字,最后用*来匹配全部,代码如下。只允许收录百度、谷歌,其他搜索引擎一律禁止。
User-agent: baiduspiderAllow: /User-agent: googelebotAllow: /User-agent: *Disallow: /第五句和第六句禁止一切。前面允许指定的蜘蛛名称,所以除了允许的百度和谷歌蜘蛛外,其他搜索引擎都是不能收录的网站页面。
4、禁止指定的搜索引擎收录
如果你只是想有针对性的屏蔽一个或多个搜索引擎,比如禁止百度、谷歌蜘蛛,写法如下。
用户代理: baiduspiderDisallow: /用户代理: googelebotDisallow: /用户代理: *允许: /
由于默认是allow状态,所以5、6句一般不写。只写禁止部分。您可能已经发现,user-agent 后面只能跟特定的蜘蛛名称或星号,并且disallow 和allowed 后面的内容在整个站点中使用斜杠而不是其他符号,因为它们后面的内容指的是网站的目录。因此在指向目录时不能使用其他符号。例如,“disallow: *”是错误的。
下面举例说明禁止抓取和包含目录和文件的写入语法。
1、禁止搜索引擎收录指定的目录
User-agent: *Disallow: /asf/Disallow: /2020/表示禁止所有搜索引擎包含asf 和2020 文件夹中的任何内容。阻止文件夹时,请在末尾添加斜杠。如果写“Disallow: /2020”,末尾不带斜杠,则表示禁止根目录下所有以2020开头的URL,如/2020.html、/2020abc。 html 和/2020/df.html 是禁止包含的,所以disallow目录一定不要写错。
2、允许搜索引擎收录禁止目录中的特定URL
如果某个目录“df”被阻止,但您希望包含目录df 中指定的网页,该怎么办,只需使用以下语法即可。
User-agent: *Allow: /df/111.htmlAllow: /df/*22c.phpDisallow: /df/allow 应该写在前面,后面是被阻止的目录名称。这种写法比较少用。通常,如果直接阻止目录,则无需允许包含某些URL 或某些类型的URL。上面代码的第二句是指允许根目录的df文件夹中包含111。对于.html页面,第三句的意思是允许包含根目录df目录下所有包含“22c.php”的URL。第四句的意思是禁止包含df目录下的所有URL。允许包含的都写在前面。
3、使用星号来匹配某一类网址
星号可以匹配一类URL,大大提高了设置的便捷性。你必须熟练地使用它。如果你经常遇到SEO优化设置中屏蔽某类URL的情况,使用*很常见。
user-agent: *Disallow: /abc/Disallow: /*?*Disallow: /rt/jc*Disallow: /*.phpDisallow: /*ps*第三句禁止包含动态网址,第四句禁止包含jc开头的网址在rt目录下。第五句禁止包含含有“.php”的网址(包括禁止以.php结尾的网址,如h.php、as.php?id=2、dd.php23.html),第六句禁止包含URL 中包含“ps”的URL。
4、使用$来匹配URL结束
如果需要阻止以某种类型结尾的URL或文件,则需要使用结束匹配符号“$”。
User-agent: *Disallow: /abc/*ty.php$Disallow: /*.php$Disallow: /*.jpg$ 上面第二句禁止在abc目录下包含以ty.php结尾的网址,第三句禁止在整个站点中包含以ty.php 结尾的URL 对于以.php 结尾的URL,第四句禁止在整个站点中包含jpg 格式的图像。可以看到,如果要屏蔽特定类型的后缀URL,需要以$结尾。
5、禁止搜索引擎收录图片语法
$和*匹配字符主要用于禁止包含网站图片,写法也很简单。
原创文章,作者:小su,如若转载,请注明出处:https://www.sudun.com/ask/118209.html
用户评论
优雅的叶子
robots.txt 文件确实很重要! 我以前不知道它能起到这样的作用,现在终于明白应该好好学习一下了。
有20位网友表示赞同!
枫无痕
这个教程写的非常清晰易懂,很适合像我刚入门SEO优化的人阅读!之前对robots.txt不太了解,看了你的讲解豁然开朗,太感谢啦!
有6位网友表示赞同!
oО清风挽发oО
终于找到一个详细介绍robots.txt文件的教程了!之前在网上搜了好久才找到几篇零碎的信息,这个教程把所有内容都整理得很完整实用。 👍
有13位网友表示赞同!
虚伪了的真心
SEO优化和网站开发的确需要重视robots.txt文件,就像这篇文章说的那样它能影响爬虫的访问范围,从而影响搜索引擎的结果排名。
有10位网友表示赞同!
無極卍盜
对于我来说,学习机器人指令比SEO本身还更难! 但这个教程确实帮助我理解了很多,以后我会继续学习和实践。
有15位网友表示赞同!
花容月貌
这篇教程太棒了!详细讲解了robots.txt文件是如何工作的,还有很多实用的案例和应用场景。建议所有网站开发人员和SEO优化师都应该读读这本书。
有20位网友表示赞同!
羁绊你
我觉得教程中对不同Robots指令的解释还有些抽象,可以尝试用更多代码示例来辅助理解效果会更好一些!
有9位网友表示赞同!
予之欢颜
这个教程虽然很详细,但对于已经熟悉robots.txt文件的人来说可能有点过于基础了。希望能有更高级的教学内容针对有一定经验的人群。
有7位网友表示赞同!
浮殇年华
说得好啊!搜索引擎优化和网站开发确实离不开robots.txt文件的管理,学习它就是为了让我们网站在排名中获得更好的表现!
有9位网友表示赞同!
生命一旅程
作为一个SEO新手,这个教程让我对robots.txt文件有了更清晰的认识。 其实它并不复杂,只要理解了基本的指令就能对其运用!
有14位网友表示赞同!
一生荒唐
现在很多教程和文章都强调代码的重要性,但很少有把技术应用到实际场景的教程,幸好发现了这篇内容。
有12位网友表示赞同!
别留遗憾
以前对robots.txt文件了解很少,总以为它只是一个简单的设置清单。 看了这个教程才明白它的作用要远远不止于此!
有13位网友表示赞同!
孤廖
我觉得这篇文章写得很好,很能帮到我们做SEO优化的人。 robots.txt文件确实很重要,可以控制搜索引擎爬虫访问网站的部分页面。
有19位网友表示赞同!
秒淘你心窝
作为一个web开发人员,我需要学习如何有效使用robots.txt文件来确保我的网站的结构清晰易懂,并为搜索引擎理解网站内容做好准备!
有5位网友表示赞同!
敬情
这篇文章确实太实用啦!之前一直不知道怎么用 robots.txt 文件控制爬虫访问,现在终于明白了!感谢作者分享这个宝贵的知识!
有17位网友表示赞同!
失心疯i
robots.txt文件的确是SEO优化工作中的重要组成部分,掌握它能让你的网站排名更高。希望以后还有更多关于robots.txt文件使用的教程!
有9位网友表示赞同!
恰十年
虽然这篇文章讲解得详细,但我还是觉得对一些初学者来说有些复杂,需要用更通俗易懂的语言进行解释。
有20位网友表示赞同!