Blog/ technical SEO/ Robots.txt 设置和分析:所有你需要知道的
Robos.txt 设置和分析:所有你需要知道的
SE Ranking的SEO和内容营销专家. Anna将行业经验和平台专业知识结合起来,在技术SEO,战略成长,以及AI搜索方面创建可操作的内容.
SE Ranking的SEO主管. Anastasia在网站技术和网页优化、链接建设和内容营销方面有着丰富的经验
总结此博客文章:
*机器人们。 txt文件是机器人的指南, 然而,机器人可以决定不服从.
*机器人们。 txt文件不能直接阻止索引,但它可以影响机器人爬行或忽略某些文件或文件的决定.
*虽然机器人.txt,元机器人,和x-机器人指示搜索引擎bots,但应用不同:机器人. txt控制爬行,元机器人标记在页面级别工作,X-Robots-Tag对索引提供了更多的颗粒控制.
- 隐藏无效指令的无益网站内容可节省爬行预算,防止不想要的内容在搜索时出现。
*遵循语法规则,确保搜索bots能够读懂和理解你的机器人. txt 文件正确 。
- 创造机器人。 txt文件可以使用支持UTF-8编码的文本编辑器,也可以通过WordPress,Magento,Shopify等流行CMS平台的内置工具.
*检查你的机器人。 txt文件有Google搜索控制台或SE Ranking等SEO平台等工具. 这有助于您识别潜在问题并确保文件如愿以偿。
- 常见问题包括格式不匹配、文件位置不正确、滥用指令和相互冲突指令。
记住机器人 txt指令对案件有敏感认识. 另外,确保每个指令都放置在一条新线上,使用通配符来显示灵活性,为不同的域创建单独的文件,并在更新机器人后测试您的网站. Txt 确保重要的 URL 不被意外封锁 。
AI 概览比较研究,SE Ranking
下载您的副本以了解AIO在推出后是如何变化的,
你们都准备好了!
点击我们在电子邮件中发送的链接确认您的电子邮件
并获得由SE Ranking撰写的AI概览研究
机器人是什么东西? txt 文件吗?
一个机器人。 txt文件是一个位于网站根目录的文本文档. 它包含的信息是专供搜索引擎爬行者使用的. 它指示它们爬行哪些URL,包括页面,文件,文件夹等,以及哪些内容不应该爬行. 虽然这个文件的存在对于一个网站的运行不是强制性的,但必须正确设置,以适合适当的SEO.
使用机器人的决定. txt是作为机器人排除标准的一部分于1994年完成的. 根据Google Search Central的说法,这个文件的首要目的不是从搜索结果中隐藏网页,而是将机器人提出的请求数量限制到网站,并减少服务器负荷.
一般来说,机器人的内容. txt文件应该被看作是对搜索爬行者的建议,它定义了网站爬行的规则. 访问网站机器人的内容。 txt文件,只需在浏览器中的域名之后输入“/robots.txt”。
机器人怎么样? TXT工作吗?
首先, 需要注意的是搜索引擎需要爬行, 为了完成这项任务,网络爬行者系统地浏览网络,从他们遇到的每个网页收集数据. 偶尔会使用“海盗”一词来描述这种爬行活动。
当爬行者到达一个网站时,他们会检查机器人. txt文件,其中包含如何爬行的指令和网站上的索引页面. 如果没有机器人。 txt文件,或不包括任何禁止用户代理活动的指示,搜索bots会继续爬行网站,直到到达爬行预算或其他限制.
你为什么需要机器人? TXT吗?
机器人的主要功能. txt文件是为了防止网页和资源文件的扫描,这样可以更有效地分配爬行预算. 绝大多数情况下都是机器人 txt文件隐藏了为网站访问者和搜索bots提供不值的信息. 还有机器人。 txt文件常被用来改进网络爬升资源的利用效率.
** 注:** 使用“robots.txt不允许”指令并不能保证某一网页不会被爬入或被排除在紧急应急方案之外。 Google保留在确定网页的关联性并将其纳入搜索结果时考虑各种外部因素的权利,如进入链接. 为了明确防止一个页面被索引,建议使用“noindex”机器人元标记或X-Robots-Tag HTTP头。 密码保护也可以用来防止索引.
优化爬行预算
爬行预算是指搜索机器人专门用来爬行的网站的网页数量. 为了更高效地使用爬行预算,搜索机器人只应被引导到网站最重要的内容,并被阻止访问无益信息.
优化爬行预算有助于搜索引擎高效分配其有限的资源,从而更快地对新内容进行索引,并提高搜索结果的能见度. 但重要的是要记住,如果你的网页的页数超过你分配的爬行预算允许的页数,一些网页可能会被拖走,从而无法索引。 在SERP上, 所以,如果您拥有一个庞大的网站或者相当比例的无索引网页,请考虑优化您的预算使用。 这将确保搜索引擎 覆盖所有重要的页面。
让我们考虑一下你的网站与其主页相比, 在此类情况下,您可以通过将不必要的资源排除在搜索爬行者“访问”名单之外来优化您的爬行预算。
例如,您可以使用“ Disallow” 指令以及“ Disallow: / *.pdf ” 等特定文件扩展名来防止搜索引擎在您的网站上爬行和索引任何 PDF 资源 。 这为隐藏此类资源并确保不将其纳入搜索引擎结果提供了有效途径。
使用机器人的另一个共同好处. txt是它解决您服务器上的内容爬行问题的能力,如果有的话. 例如,如果你有无限的日历脚本,在机器人频繁访问时可能会造成问题,你可以拒绝通过机器人爬行脚本. txt文件 (简体中文).
你也可能会怀疑使用机器人是否更好. txt 屏蔽关联链接来管理您网站的 craw 预算, 或者使用无索引标签来阻止搜索引擎对这些链接进行索引 。 答案很简单: 谷歌擅长自己识别和忽略附属链接,特别是如果这些链接被标记正确的话. 通过使用机器人。 Txt拒绝他们, 你保留了更多的控制 并有可能更有效地节省 爬行预算。
机器人的例子。 txt 内容
拥有具有最新指令的模板可以帮助您创建适当格式化的机器人. txt文件,指定所需机器人并限制相关文件的访问.
用户代理: [机器人名称]
否定 : /[路径到文件或文件夹]/
否定 : /[路径到文件或文件夹]/
否定 : /[路径到文件或文件夹]/
项目 : [项目 URL]
现在,让我们来探讨一下机器人的几个例子。 txt文件可能看起来像.
. ^ **1. 允许所有网络蜘蛛bot访问所有内容. 页:1
以下是机器人斧的基本例子。 txt 文件代码允许所有网络爬行者访问所有网站 :
用户代理 : *
拖车:10次
物品
项目:
在这个例子中,“用户代理”指令使用星号(*)将指令适用于所有网络爬行者。 Crawl-delay给予爬行者不受禁止的访问,但要求他们在请求之间等待10秒. 网站地图声明并不限制任何访问, 以尖锐符号开头的行是爬行者忽略的评论.
. ^ **2. 从特定网页上屏蔽特定的网络爬行器. 页:1
以下的例子指定了"Bingbot"用户代理的访问权限,这是微软搜索引擎Bing使用的网络爬行器. 它包括一个关闭供扫描的网站目录清单,以及一些允许在网站上访问的目录和网页.
** 3\\ n 屏蔽所有内容的网络爬行器 。 页:1
用户代理 : *
拒绝 : 页:1
在这个例子中,“用户代理人”指令仍然适用于所有网络爬行者。 然而,“Disallow”指令使用前斜线(/)作为其价值,表明任何网络爬行者都应封锁网站上的所有内容。 这有效地告诉所有机器人不要爬过网站的任何页面.
请注意, txt文件是一种极端措施,在大多数情况下不推荐. 只有当您的新网站正在开发中, 并且无法打开搜索引擎时, 才可能有用 。 在其他情况下,网站一般使用机器人. txt文件可以控制对其网站特定部分的访问,例如屏蔽某些目录或文件,而不是屏蔽所有内容.
如何寻找机器人。 页:1
说到机器人的位置 txt 网站上的文件,您可以使用几种方法:
要找到机器人.txt文件,请在您想要检查的网站域名中添加“/robots.txt”。 例如,如果网站的域名是“”,您会将“/robots.txt”输入您的网页浏览器地址栏。 这将带你直接到机器人。 txt 文件如果在网站上存在的话。
另一种使用较少,但仍为CMS用户常用的方法是寻找和编辑机器人. txt文件直接在系统内. 让我们看看一些流行的。
** WordPress中的机器人.txt* 页:1
寻找和修改机器人。 WordPress中 txt 文件,您可以手动创建一个或者使用插件.
手动创建一个:
- 创建名为 " robots.txt " 的文本文件
- 通过 FTP 客户端上传到您的根目录
使用 ** Yoast SIO** 插件 :
- 进入 " Yoast SEO " > " 工具 " _
- 点击 _ 文件编辑器_(确保您已启用文件编辑功能)
- 点击_创造机器人. txt 文件_ 按钮
- 查看或编辑机器人。 这里的txt
在 One SIO ** 插件中使用 ** 全部 :
- 转到 " 全部在单一的SEO " > 工具_
- 点击 Robots.txt 编辑器
- 单击切换器启用_海关机器人。 txt_ (英语).
- 查看或编辑机器人。 这里的txt
马根托的机器人.txt
马根托自动生成默认的机器人.txt文件.
要编辑 :
- 登录 Magento 管理员面板
- 转到_Content_ > Design > Contignation
- 点击_Edit_用于_主网站_
- 扩展 Search 引擎机器人 区域
5.编辑机器人_Edit自定义指令的内容. txt 文件_ 字段 - 保存配置
** Shopify的机器人.txt**
shopify 自动生成默认的机器人.txt文件.
要编辑 :
- 登录您的 Shopify 管理员面板
- Lick_Settings_ > 应用程序和销售渠道_
- 转到_在线存储_ > 主题
- 单击当前主题旁边的.按钮并选择_编辑代码_
- 点击_添加新模板_ > 机器人
- 点击_创建模板_
- 视需要编辑内容
- 保存您的更改
搜索引擎如何找到你的机器人. txt 文件
搜索引擎有发现和访问机器人的具体机制. 您网站上的 txt 文件 。 他们通常会发现:
1. ** 创建网站:** 搜索引擎爬行者不断穿越网络,访问网站并跟踪链接发现网页.
2. ** 请求机器人。 txt:** (中文(简体) ). 当一个搜索引擎爬行者访问一个网站时,它会寻找一个机器人的存在. txt文件在网站域名中添加了“/robots.txt”。
** 注:**在成功上传和测试你的机器人后. txt文件,Google的爬行者会自动检测并开始使用它的指示. 没有必要采取进一步行动。 然而,如果你已经修改了你的机器人。 txt 文件并想要迅速更新 Google, 你需要学习如何提交更新的机器人。 txt文件 (简体中文).
3. ** 检索机器人。 txt:** (中文(简体) ). 如果一个机器人。 txt文件存在于请求的位置,爬行者会下载和剖析文件以确定爬行指令.
4. ** 遵照指示:** 获得机器人后. txt文件,搜索引擎爬行器遵循其中概述的指令.
Robot机器人. txt vs meta 机器人对 x-机器人
机器人的时候 txt文件,机器人元标记,和X-Robots-Tag在指导搜索引擎蜘蛛bots方面有着相似的目的,它们在应用和控制领域上有所不同.
当涉及隐藏搜索结果的站点内容时,只依靠机器人. txt 文件可能不够. 如上所述,机器人。 txt文件主要是向网络爬行者推荐. 该网站告知他们可以访问网站的哪些领域。 然而,它并不能保证内容不会被搜索引擎索引. 为防止编制索引,网站管理员应采用其他方法。
机器人元标记
一个有效的技术是使用机器人元标记,放在页面HTML代码的 " 头 " 部分。 通过加入带有 " noindex " 指令的元标记,网站主管明确发出搜索引擎的信号,表示不应将页面内容编入索引。 与机器人的广泛指示相比,这种方法为单个页面及其索引状态提供了更精确的控制. txt文件 (简体中文).
以下是防止搜索引擎在页面一级索引的示例代码片段:
<meta name=“机器人”内容=“noindex”
与机器人.txt类似,这个元标记允许限制对特定bots的访问. 例如,为了限制特定的机器人(例如Googlebot),使用:
<meta name=“googlebot”内容=“noindex”
X-机器人塔格
您还可以使用网站配置文件中的 X- Robots- Tag 来进一步限制页面索引。 这种方法为在颗粒层管理索引提供了额外的控制层和灵活性.
为了更多地了解这个话题,阅读我们关于机器人元标记和X-Robots-Tag的完整指南.
通常通过机器人关闭的页面和文件. 页:1
. ^ **1. 管理仪表板和系统文件。 页:1
只有网站管理员或网站管理员才能与之互动的内部和服务文件.
. ^ **2. 只在特定用户动作后出现的辅助页面. 页:1
客户端在成功完成订单,客户端表格,授权或密码恢复页面后发送到的页面.
页:1 搜索页。 **
网站访问者进入搜索框查询后显示的页面通常与搜索引擎爬行者关闭。
页:1 过滤页。 **
使用应用过滤器显示的结果(大小、颜色、制造商等)是单独的页面,可视为重复内容。 SEO专家通常防止他们被爬行,除非他们为品牌关键词或其他目标查询驱动流量. 综合点可能是一个例外。
** 5⁄4 ̄ ̧漯B 某种格式的文件。 页:1
照片,视频,.PDF文件,JS文件等文件. 在机器人.txt的帮助下,可以限制对个人或扩展专用文件的扫描.
机器人.txt 语法
Webmasters必须了解机器人的语法和结构. txt文件来控制他们在搜索引擎上的网页的能见度. 机器人们 txt文件一般包含一套规则,决定一个域或子域上哪些文件可以被爬行者访问. 这些规则可以屏蔽或允许访问特定的文件路径. 默认情况下,如果在机器人中没有明确声明的话. txt文件,所有文件被假定允许爬行.
机器人们 txt文件由组组成,每个组包含多个规则或指令. 这些规则每行列出一次. 每组以用户代理行开头,指定规则的目标受众.
一个小组提供以下信息:
- 规则适用的用户代理。
- 允许用户代理访问的目录或文件。
- 不允许用户代理访问的目录或文件。
当处理机器人。 txt文件,爬行者遵循从上到下的方法. 用户代理只能匹配一个规则集. 如果有多个组针对同一个用户代理,这些组在被处理之前被合并成一个组.
以下是基本机器人的例子。 txt 文件有两个规则:
用户代理: Googlebot
拒绝 :/ nogooglebot/ 。
用户代理 : *
允许: /
列表: 互联网档案馆的存檔,存档日期2013-12-20.
如果您想要更精确地控制网络爬行者的行为,您可以同时使用灵活的爬行者指令的正则表达式.
机器人正则表达式中常用的符号. txt文件是星号(*),它起到通配符的作用,代表值的任何变化.
另一个符号可用于机器人的正则表达式. txt文件是美元符号($),表示URL路径的结束. 例如,如果您有“/blog/$”的URL模式,它只匹配以“/blog/”结尾的URL,例如“/blog/”或“/cate/blog/”。 它与“/博客/文章”或“/博客/网页2”等URL不符。
您也可以使用机器人中的模式“/实例/”访问特定目录下的所有URL。 txt文件 (简体中文). 这与“/例/page1.html”、“/例/子目录/page2.html”等URL相匹配,使网络机器人能够爬行这些URL。
让我们来看看机器人的不同元素。 txt语法比较详细.
用户代理指令
用户代理指令是强制性的,定义了规则适用的搜索机器人. 每个规则组如果有数个bots,则从此指令开始.
Google拥有多个bot负责不同类型内容.
- ** Googlebot:** 为桌面和移动设备爬行网站
- ** Googlebot 图像:** 爬行现场图像,以显示在“图像”部分和图像决定产品中
- ** Googlebot 视频:** 扫描和显示视频
- ** Googlebot News:** 为“新闻”部分选择有用和高质量的文章
- **谷歌检查 工具 : ** 一个 URL 测试工具, 通过爬行每个允许访问的页面来模仿 Googlebot
- 谷歌存储器 瓶: 扫描各种网页类型,如产品细节、推车和取出页面
- ** Google Other:** 从网站获取可公开获取的内容,包括用于内部研发的一次性爬行
- ** Google-CloudVertexBot:** 在建造Vertex AI代理公司时,按现场业主的要求爬过场地
- ** Google-Extend:** 用于管理网站是否帮助改进双子体Apps和Vertex AI基因API和未来模型的独立产品符号
包括AdSense、Google-Safetty等。 与普通爬行者相比,这些bots可能有不同的行为和权限.
Google机器人(用户代理)的完整列表可见于官方的Help文档.
其他搜索引擎也有相似的根,如Bingbot for Bing,Slurp for Yahoo!,Baiduspider for Baidu,还有更多. 有500多个不同的搜索引擎bots。
** 实例**
用户代理:适用于所有现有机器人.
用户代理:谷歌机器人适用于谷歌的机器人.
用户代理:宾博适用于宾的机器人.
*用户代理:Slurp适用于雅虎的机器人.
否定指令
Disallow是指示搜索引擎bots不扫描页面,文件或文件夹的密钥命令. 您想要限制访问的文件和文件夹名称在“/”符号后标明。
** 例1. ** 在Disallow之后指定不同的参数。
Disallow: /链接页面不允许访问特定的URL.
Disallow: /文件夹名/ 关闭文件夹的访问权限 。
Disallow: / *.png$关闭对PNG格式图像的访问.
否定:/. 在“/”符号之后没有任何指示,表明网站完全无法扫描,这在网站开发期间可能有用。
** 实例2 无法扫描全部 。 网站上的PDF文件.
用户代理: Googlebot
否定:/*.pdf$
允许指令
在机器人.txt文件中,通过允许访问网站内容,允许指令功能与Disallow相反. 这些命令经常一起使用,特别是当您需要在隐藏的媒体文件目录中打开像照片那样的特定信息的访问权限时.
**例. ** 使用允许扫描闭合相册中的一幅图像.
指定带有图像 URL 的允许指令,并在另一行中指定与文件所在文件夹名称一起的Disallow指令。 线的顺序很重要,因为爬行者从上到下处理组.
否定:/album/
允许:/album/picture1.jpg
“robots.txt允许所有”指令通常在搜索引擎没有具体限制或不允许的情况下使用。 然而,必须指出, " Allow: / " 指令并不是机器人的必要组成部分。 txt文件 (简体中文). 实际上,一些网站管理员选择完全不包含,完全依靠搜索引擎爬行者的默认行为.
"允许指令"不是原机器人.txt规格的一部分. 这意味着它可能没有得到所有bots的支持. 虽然Googlebot等许多受欢迎的爬行者承认并尊重允许指令,但其他人可能不会.
根据《机器人排除标准》,“未识别头被忽略”。 这表示对于不承认“Allow”指令的bots来说, 在创造机器人时记住这一点。 txt 文件 。
项目指令
机器人中的站点地图指令. txt 表示站点地图的路径 。 如果站点地图有标准名称,位于根目录中,可以通过链接“站点名称”/siteap.xml访问,类似于机器人,此指令可以省略. txt文件 (简体中文).
** 实例**
siteap: 互联网档案馆的存檔,存档日期2013-09-02.
机器人的时候 txt 文件主要用于控制您网站的扫描,网站地图帮助搜索引擎了解您内容的组织和层次结构. 通过在机器人中加入一个链接到你的站点地图。 txt文件,您为搜索引擎爬行者提供了查找和分析网站地图的简单方法,从而可以提高您网站的爬行和索引效率. 因此,在机器人中提及你的站点地图并不是强制性的,而是高度推荐的。 txt文件 (简体中文).
页:1
你可以给机器人添加评论. txt文件,用于解释具体指令,文档更改或对文件的更新,组织不同的章节,或为其他团队成员提供上下文. 注释是指以“#”符号开头的行。 Bots处理文件时忽略了这些行. 他们帮助你和其他团队成员理解文件, 以下是Wizzair机器人的例子。 txt文件 (简体中文).
为应对AI技术的兴起,Google现在正在寻找开发互补机器人的方法. txt协议. 目的是让网络出版商更多地控制其内容的使用,特别是在AI和研究使用案例中.
这一举措表明,网络标准正在演变,以应对人工智能技术带来的新挑战。 最好能随时了解这些发展,
如何创造机器人。 txt 文件
一个设计良好的机器人。 txt文件是技术SEO的基础.
由于文件有.txt扩展名,任何支持UTF-8编码的文本编辑器都足够了. 最简单的选项是Notepad(Windows)或TextEdit(Mac).
正如我们在前面提到的,大多数CMS平台也为创建机器人提供了解决方案. txt文件 (简体中文). 例如WordPress创建了一个虚拟机器人. txt文件默认,可通过将“/robots.txt”附加到网站域名来在线查看。 然而,要修改此文件,需要创建自己的版本. 这可以通过插件(如Yoast或All in One SEO Pack)或手动完成.
Magento和Wix作为CMS平台,也自动生成机器人. txt文件,但它只包含网络爬行者的基本指令. 因此建议制作定制机器人。 txt在这些系统内指示精确优化爬行预算.
您也可以使用 SE Ranking 的机器人等工具。 txt 生成自定义机器人的生成器. txt 文件基于指定的信息。 你可以选择创建机器人。 txt 文件从头开始或选择建议选项之一。
如果你创造了机器人。 txt文件从头开始,您可以以下列方式将文件个性化:
- 为爬行权限配置指令。
- 通过路径参数指定特定页面和文件。
- 决定哪些伙伴应遵守这些指示。
或者,可以选择原有的机器人.txt模板,包括广泛使用的一般指令和CMS指令. 也可以在文件中包含一个站点地图. 这个工具通过提供现成的机器人来节省时间. txt 文件下载.
文件标题和大小
机器人们 txt文件应准确如上提到的命名,不使用大写字母. 根据谷歌指南,文件大小不应超过500KiB. 超过这个限制可能导致部分处理,完全无法爬行网站,或者对网站内容进行全面扫描.
将文件放在哪里
机器人们 txt文件必须位于网站主机的根目录,可以通过FTP访问. 在做出任何修改之前,建议下载原始机器人. txt文件的原始形式.
如何检查你的机器人。 txt 文件
机器人的错误 txt文件可以导致重要的页面没有出现在搜索索引中,或者使整个网站无法进入搜索引擎. 相反,本来应该保密的不想要的网页也可能被编入索引。
你可以很容易地检查你的机器人。 使用 SE Ranking 的自由机器人.txt Test 的 txt 文件 。 只需输入最多100个URL即可测试和验证是否允许进行扫描.
或者,你可以访问机器人。 txt在Google搜索控制台内部报告. 要做到这一点,请前往 Settings > 爬行 > 机器人. txt.
打开机器人。 txt报告显示机器人。 txt 文件 Google 在您网站上找到的前20个主机, 当它最后一次检查时, 获取状态, 以及发现的任何问题 。 也可以使用这个报告要求Google重新绘制机器人. txt 文件,如果有紧急需要的话。
常见的机器人.txt问题
当你管理网站的机器人时。 txt 文件,有几个问题可以影响搜索引擎爬行者如何与您的网站交互. 一些共同问题包括:
- ** 格式不匹配:** 如果文件不是以.txt格式创建的, Web 爬行者无法检测和分析文件。
- 错误的安置:** 你们的机器人 txt文件应当位于根目录中. 例如,如果它位于子文件夹中,搜索bot可能无法找到并访问它。
- ** 在Disallow指令中取代“/”:** 一个没有任何内容的Disallow指令意味着bots有权限访问您网站上的任何网页. 带有“/”的Disallow指令会关闭您的网站 。 检查机器人总更好。 txt文件可以确保Disallow指令准确反映您的意向.
- 机器人中的线条。 txt 文件 : ** 确保指令之间没有空白线。 否则,网络爬行者可能难以解析文件. 唯一允许空白链接的情况是在显示新的用户代理之前。
-
** 打开机器人的页面。 txt 并增加“无索引”指令:** 这造成了相互冲突的信号。 搜索引擎可能不了解意图或完全无视“无索引”指示。 无论是机器人还是机器人, txt以阻塞爬行或“无索引”防止索引,但两者不能同时进行。
-
检查问题的其他工具/报告
有许多方法可以检查您的网站 可能的机器人。 txt 文件相关问题. 让我们回顾一下最广泛使用的。
. ^ **1. Google搜索控制台页面报告. 页:1
GSC的_Pages_部分包含了关于你的机器人的宝贵信息. txt文件 (简体中文).
检查您网站的机器人 。 txt文件正在阻止 Googlebot 爬行页面, 请遵循这些步骤 :
-
访问_Pages_区域并导航到_Not索引_类别。
-
查找被机器人标记的 _Blocked 错误,并选择它。
-
点击本节将显示您网站机器人目前封锁的网页列表。 txt文件 (简体中文). 确保这些是预定封锁的页面。
另外,请检查date=中的日期值 (帮助) 本节是否有以下问题:_Indexed,虽然被机器人封锁. 页:1
您也可以检查个人 URL 是否通过粘贴在 Google 搜索控制台的 URL 检查工具中的搜索框中进行索引 。 这可以帮助您发现由于指令冲突或配置错误的机器人导致的潜在索引问题. TXT规则.
以下是谷歌搜索控制台的完整指南,
. ^ 2. SE Ranking网站审计
SE Ranking网站审核工具(及其他类似工具)全面概述了你的机器人。 txt文件,包括被文件屏蔽的页面信息. 也可以帮助您检查索引和XML网站地图相关议题.
来了解你的机器人 txt 文件,从探索工具生成的_Issue Report_开始. 在分析的超过120个度量中, 您可以在_ Crawling_ 区域下找到由 robots. txt_ 参数 。 点击它会显示一个被禁止爬行的网页列表,以及问题描述和快速解决提示.
这个工具也便于识别您是否在机器人中添加了网站映射文件的链接. txt 文件 请检查access-date=中的日期值 (帮助) txt 文件_ 同一部分下的状况.
当导航到左手菜单上的_Crawed Pages_标签时,可以单独分析每个页面的技术参数. 应用过滤器,专注于解决最重要的页面上的关键问题. 例如,应用过滤器_由机器人锁定_txt > 是_ 将显示被文件封锁的所有页面 。
道德操守办公室的最佳做法
为确保网络爬行者准确索引您网站的内容,
- ** 确保机器人正确使用病例。 txt:** Web爬行者以案件敏感性解释文件夹和区名,因此使用适当的案件使用对于避免混淆并确保准确的爬行和索引至关重要.
- ** 在新线上开始每项指令,** 每条线只有一个参数。
- ** 在写指令时避免使用空格、引号或分号**。
- ** 使用 Disallow 指令将特定文件夹或目录中的所有文件封禁** 。 这一技术比单独列出每个文件更有效.
- 使用通配符字符,用于创建机器人时更灵活的指令. txt文件 (简体中文). 星号(*)表示价值的任何变化,而美元标志($)则起到限制作用,并指示URL路径的结束。
- ** 创建一个单独的机器人。 txt 每个域的文件 这为不同地点分别制定了爬行准则。
- ** 总是测试机器人。 txt文件**,以确保重要的URL不被它屏蔽.
结论
我们覆盖了机器人的所有重要方面。 txt文件,从它的语法到最佳做法到常见问题. 现在你知道为什么一个造型良好的机器人。 txt文件对于有效的SEO和网站管理至关重要. 它优化了爬行预算,引导搜索引擎达到重要内容,保护敏感区域.
记得定期检讨和更新你的机器人. txt 文件随着您网站的演化。 使用我们讨论过的工具和技术,
Anna是SE Ranking的SEO及内容营销专家, 她的着眼点是写出准确,易懂,内容丰富的作品,这些作品将复杂的话题转化为吸引读者共鸣的叙事. 除工作外,她还享受伸展练习,锻炼,计划下一场旅行冒险,并与她心爱的猫女一起度过时光.