robots.txt文件详细教程,每个SEO优化者和网站开发者都必须知道

robots文件是网站和各大搜索引擎建立良好沟通的桥梁,也是网站从搜索引擎获得流量的开端第一步,因为robots的设置不当,很有可能会失去很大一部分的流量。对于

老铁们,大家好,相信还有很多朋友对于robots.txt文件详细教程,每个SEO优化者和网站开发者都必须知道和的相关问题不太懂,没关系,今天就由我来为大家分享分享robots.txt文件详细教程,每个SEO优化者和网站开发者都必须知道以及的问题,文章篇幅可能偏长,希望可以帮助到大家,下面一起来看看吧!

robots.txt的作用是什么?

robots.txt 文件只有一项功能:阻止一个或多个搜索引擎收录您网站上的内容。默认情况下,网站允许任何搜索引擎抓取和包含页面,但出于某些目的,您可以阻止一个或多个搜索引擎在您的网站上包含页面。为了达成这个共识,robots协议顺利诞生,所有搜索引擎都遵循robots协议。

每个搜索引擎都有一个称为蜘蛛或机器人的程序,我们习惯称其为“蜘蛛”。在决定是否抓取您的网站页面时,蜘蛛会首先检查您网站的根目录。检查目录下是否有robots.txt文件。如果没有robots.txt,则表示允许所有抓取。如果存在robots.txt文件,蜘蛛会识别自己的名字是否在被拒绝的名字中,然后确定你的设置。那些内容是不允许抓取的,那么网页就会被抓取并收录。

如何编写robots.txt文件

基本语法

默认情况下,整个网站允许任何搜索引擎抓取和收录。 Robots.txt仅用于禁止搜索引擎收录,因此只需添加搜索引擎蜘蛛的名称(User-agent)和disallow(禁止收录)内容),特殊情况下也可以使用allow语法。

用户代理: *Disallow: /Allow: *.html$#seo

请注意第一个字母是大写的。在英语中,冒号后跟一个空格。使用“井号”来表示注释。支持’*’匹配0个或多个任意字符。 ‘#34;匹配行终止符。它区分大小写。敏感,因此请注意文件或文件夹名称的精确匹配。为了让搜索引擎更好地识别robots.txt文件,建议保存编码并设置为ANSI编码。以下示例说明了各种用法和设置。

robots.txt的各种写法

1、屏蔽所有的搜索引擎收录任何页面

要屏蔽搜索引擎,只需将user-agent设置为*即可,如下所示,disallow后面的斜杠表示根目录。不允许包含根目录以下的任何内容,两行代码即可。

User-agent: *Disallow:/

2、允许所有的搜索引擎收录所有页面

所有搜索引擎都允许。您可以删除robots.txt文件的所有内容,即只保留一个空文件。也可以用下面的代码来说明。

用户代理: *允许: /

3、仅允许指定的搜索引擎收录

需要在前面写上搜索引擎蜘蛛的名字,最后用*来匹配全部,代码如下。只允许收录百度、谷歌,其他搜索引擎一律禁止。

User-agent: baiduspiderAllow: /User-agent: googelebotAllow: /User-agent: *Disallow: /第五句和第六句禁止一切。前面允许指定的蜘蛛名称,所以除了允许的百度和谷歌蜘蛛外,其他搜索引擎都是不能收录的网站页面。

robots.txt文件详细教程,每个SEO优化者和网站开发者都必须知道

4、禁止指定的搜索引擎收录

如果你只是想有针对性的屏蔽一个或多个搜索引擎,比如禁止百度、谷歌蜘蛛,写法如下。

用户代理: baiduspiderDisallow: /用户代理: googelebotDisallow: /用户代理: *允许: /

由于默认是allow状态,所以5、6句一般不写。只写禁止部分。您可能已经发现,user-agent 后面只能跟特定的蜘蛛名称或星号,并且disallow 和allowed 后面的内容在整个站点中使用斜杠而不是其他符号,因为它们后面的内容指的是网站的目录。因此在指向目录时不能使用其他符号。例如,“disallow: *”是错误的。

下面举例说明禁止抓取和包含目录和文件的写入语法。

1、禁止搜索引擎收录指定的目录

User-agent: *Disallow: /asf/Disallow: /2020/表示禁止所有搜索引擎包含asf 和2020 文件夹中的任何内容。阻止文件夹时,请在末尾添加斜杠。如果写“Disallow: /2020”,末尾不带斜杠,则表示禁止根目录下所有以2020开头的URL,如/2020.html、/2020abc。 html 和/2020/df.html 是禁止包含的,所以disallow目录一定不要写错。

2、允许搜索引擎收录禁止目录中的特定URL

如果某个目录“df”被阻止,但您希望包含目录df 中指定的网页,该怎么办,只需使用以下语法即可。

User-agent: *Allow: /df/111.htmlAllow: /df/*22c.phpDisallow: /df/allow 应该写在前面,后面是被阻止的目录名称。这种写法比较少用。通常,如果直接阻止目录,则无需允许包含某些URL 或某些类型的URL。上面代码的第二句是指允许根目录的df文件夹中包含111。对于.html页面,第三句的意思是允许包含根目录df目录下所有包含“22c.php”的URL。第四句的意思是禁止包含df目录下的所有URL。允许包含的都写在前面。

3、使用星号来匹配某一类网址

星号可以匹配一类URL,大大提高了设置的便捷性。你必须熟练地使用它。如果你经常遇到SEO优化设置中屏蔽某类URL的情况,使用*很常见。

user-agent: *Disallow: /abc/Disallow: /*?*Disallow: /rt/jc*Disallow: /*.phpDisallow: /*ps*第三句禁止包含动态网址,第四句禁止包含jc开头的网址在rt目录下。第五句禁止包含含有“.php”的网址(包括禁止以.php结尾的网址,如h.php、as.php?id=2、dd.php23.html),第六句禁止包含URL 中包含“ps”的URL。

4、使用$来匹配URL结束

如果需要阻止以某种类型结尾的URL或文件,则需要使用结束匹配符号“$”。

User-agent: *Disallow: /abc/*ty.php$Disallow: /*.php$Disallow: /*.jpg$ 上面第二句禁止在abc目录下包含以ty.php结尾的网址,第三句禁止在整个站点中包含以ty.php 结尾的URL 对于以.php 结尾的URL,第四句禁止在整个站点中包含jpg 格式的图像。可以看到,如果要屏蔽特定类型的后缀URL,需要以$结尾。

5、禁止搜索引擎收录图片语法

$和*匹配字符主要用于禁止包含网站图片,写法也很简单。

用户评论

robots.txt文件详细教程,每个SEO优化者和网站开发者都必须知道
优雅的叶子

robots.txt 文件确实很重要! 我以前不知道它能起到这样的作用,现在终于明白应该好好学习一下了。

    有20位网友表示赞同!

robots.txt文件详细教程,每个SEO优化者和网站开发者都必须知道
枫无痕

这个教程写的非常清晰易懂,很适合像我刚入门SEO优化的人阅读!之前对robots.txt不太了解,看了你的讲解豁然开朗,太感谢啦!

    有6位网友表示赞同!

robots.txt文件详细教程,每个SEO优化者和网站开发者都必须知道
oО清风挽发oО

终于找到一个详细介绍robots.txt文件的教程了!之前在网上搜了好久才找到几篇零碎的信息,这个教程把所有内容都整理得很完整实用。 👍

    有13位网友表示赞同!

robots.txt文件详细教程,每个SEO优化者和网站开发者都必须知道
虚伪了的真心

SEO优化和网站开发的确需要重视robots.txt文件,就像这篇文章说的那样它能影响爬虫的访问范围,从而影响搜索引擎的结果排名。

    有10位网友表示赞同!

robots.txt文件详细教程,每个SEO优化者和网站开发者都必须知道
無極卍盜

对于我来说,学习机器人指令比SEO本身还更难! 但这个教程确实帮助我理解了很多,以后我会继续学习和实践。

    有15位网友表示赞同!

robots.txt文件详细教程,每个SEO优化者和网站开发者都必须知道
花容月貌

这篇教程太棒了!详细讲解了robots.txt文件是如何工作的,还有很多实用的案例和应用场景。建议所有网站开发人员和SEO优化师都应该读读这本书。

    有20位网友表示赞同!

robots.txt文件详细教程,每个SEO优化者和网站开发者都必须知道
羁绊你

我觉得教程中对不同Robots指令的解释还有些抽象,可以尝试用更多代码示例来辅助理解效果会更好一些!

    有9位网友表示赞同!

robots.txt文件详细教程,每个SEO优化者和网站开发者都必须知道
予之欢颜

这个教程虽然很详细,但对于已经熟悉robots.txt文件的人来说可能有点过于基础了。希望能有更高级的教学内容针对有一定经验的人群。

    有7位网友表示赞同!

robots.txt文件详细教程,每个SEO优化者和网站开发者都必须知道
浮殇年华

说得好啊!搜索引擎优化和网站开发确实离不开robots.txt文件的管理,学习它就是为了让我们网站在排名中获得更好的表现!

    有9位网友表示赞同!

robots.txt文件详细教程,每个SEO优化者和网站开发者都必须知道
生命一旅程

作为一个SEO新手,这个教程让我对robots.txt文件有了更清晰的认识。 其实它并不复杂,只要理解了基本的指令就能对其运用!

    有14位网友表示赞同!

robots.txt文件详细教程,每个SEO优化者和网站开发者都必须知道
一生荒唐

现在很多教程和文章都强调代码的重要性,但很少有把技术应用到实际场景的教程,幸好发现了这篇内容。

    有12位网友表示赞同!

robots.txt文件详细教程,每个SEO优化者和网站开发者都必须知道
别留遗憾

以前对robots.txt文件了解很少,总以为它只是一个简单的设置清单。 看了这个教程才明白它的作用要远远不止于此!

    有13位网友表示赞同!

robots.txt文件详细教程,每个SEO优化者和网站开发者都必须知道
孤廖

我觉得这篇文章写得很好,很能帮到我们做SEO优化的人。 robots.txt文件确实很重要,可以控制搜索引擎爬虫访问网站的部分页面。

    有19位网友表示赞同!

robots.txt文件详细教程,每个SEO优化者和网站开发者都必须知道
秒淘你心窝

作为一个web开发人员,我需要学习如何有效使用robots.txt文件来确保我的网站的结构清晰易懂,并为搜索引擎理解网站内容做好准备!

    有5位网友表示赞同!

robots.txt文件详细教程,每个SEO优化者和网站开发者都必须知道
敬情

这篇文章确实太实用啦!之前一直不知道怎么用 robots.txt 文件控制爬虫访问,现在终于明白了!感谢作者分享这个宝贵的知识!

    有17位网友表示赞同!

robots.txt文件详细教程,每个SEO优化者和网站开发者都必须知道
失心疯i

robots.txt文件的确是SEO优化工作中的重要组成部分,掌握它能让你的网站排名更高。希望以后还有更多关于robots.txt文件使用的教程!

    有9位网友表示赞同!

robots.txt文件详细教程,每个SEO优化者和网站开发者都必须知道
恰十年

虽然这篇文章讲解得详细,但我还是觉得对一些初学者来说有些复杂,需要用更通俗易懂的语言进行解释。

    有20位网友表示赞同!

原创文章,作者:小su,如若转载,请注明出处:https://www.sudun.com/ask/118209.html

(0)
小su的头像小su
上一篇 2024年9月1日 上午10:17
下一篇 2024年9月1日 上午10:27

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注