Blog / Technical SEO / 您的搜索引擎索引综合SEO指南
你的搜索引擎索引综合SEO指南
SE Ranking的SEO和内容营销专家,专攻AI Overviews,链接建设,Looker Studio报告,以及其他SEO相关话题.
SE Ranking的SEO专家. Ivanna在内容营销、技术SEO、建立和执行成功的SEO战略方面具有经验
总结此博客文章:
以及Google、Bing和其他人如何在几秒钟内为我们提供大量资讯?
这种闪电快的表现的秘密在于搜索索引. 它可以比作一个庞大的,完美订购的所有页面目录档案. 进入索引意味着搜索引擎已经看到了你的页面,评价了它,并记住它. 因此,它可以在搜索结果中显示这一页. 若无此阶段, 在您网站上工作是毫无意义的。 如果您的网页无法被索引, 也就无法在搜索结果和流量中排位。
让我们从零开始研究索引过程,
- 什么是搜索引擎索引以及如何索引您的网站
- 搜索引擎如何收集和储存来自数十亿网站的信息,包括你的网站
- 为什么指数化对机会均等司很重要
- 如何管理这一过程以确保搜索引擎更快地索引您的网站
- 如何限制网站索引
- 你需要了解的是使用影响索引编制的各种技术
-
如何检查您的网站索引
关键外卖
-
在搜索结果中,不能不编制索引,使网页成为任何SIO战略的重要第一步。
- 在索引编制过程中,根据质量和相关性在目录(搜索引擎索引)中添加页数。
- 搜索引擎使用反向索引系统存储数据并快速检索相关页面进行搜索查询.
-
您可以使用 Google 搜索控制台、 SE Ranking 和 site: 搜索操作员等工具来监视索引状态。 这些工具确保所有重要网页都有适当的索引。
*不同网络开发技术,如Flash,JavaScript,AJAX,和SPA,如何以各种方式影响搜索引擎索引网站内容.搜索引擎索引是什么?
搜索引擎索引是一个搜索引擎分析和存储网页以构建其索引(内容数据库)的过程. 这使得搜索引擎可以在SERPs中显示页面.
要参加SERP第一个职位的比赛,您的网站必须经过一个选拔过程:
** 步骤1 网络蜘蛛(或bots)扫描网站所有已知的URL. 这叫做**爬行
** 步骤2 bots收集并存储网页上的数据,这被称为**indexing
** 步骤3 最后,网站及其页面可以在游戏中进行竞争,尝试排名以进行特定查询.
简言之,如果用户想在Google或Bing上找到自己的网站,则需要索引:关于页面的信息应当添加到搜索引擎数据库中.
** 铭记** 索引和爬行是两个不同的过程。 爬行是指发现内容,索引是指存储所述内容. 如果您的页面已被爬行, 这并不意味着它被索引了 。
让我们看看搜索索引背后的方法。
搜索引擎索引工作如何?.
搜索引擎扫描您的网站以确定其目的,并识别其页面上的内容类型. 如果搜索引擎喜欢它所看到的,它可能会在搜索索引中存储页面副本. 搜索引擎存储每个页面的URL和内容信息. 以下是Google如何描述这一过程:
——“当爬行者找到网页时,我们的系统会像浏览器一样,使网页的内容产生效果。 我们注意到关键信号——从关键词到网站新鲜度——并在搜索索引中记录所有信息。
网页浏览器索引页及其内容,包括文本、内部链接、图像、音频和视频文件。 如果爬行者认为内容有价值和竞争性,搜索引擎会将页面添加到索引中. 然后将在“游戏”中竞争相关用户搜索查询的搜索结果职位。
在索引编制过程中,Google确定搜索中显示的页面是副本还是原件(canonical). 评估开始时将类似的网页分成几组。 然后,它赋予最具代表性者警犬地位。 其余则被视为替代版本,用于其他情况,包括移动搜索结果或特定查询. Google也注意到关于cononical页面的细节,如语言,位置,以及方便用户. 这个信息有帮助 Google决定搜索结果中显示哪些页面.
** 铭记:** Google只在索引中包含质量内容时才会添加页面. 使用低质量或垃圾邮件域进行诸如关键字填充或链接构建等可疑活动的页面将被标记或忽略。 Google算法更新,特别是核心更新,影响指数在SEO. 如果Google没有发现一个网站的相当一部分对搜索结果有价值,它可能决定不投入时间爬行和索引整个网站。
什么是搜索引擎指数?
一个搜索引擎索引是一个庞大的数据库,包含搜索引擎爬行,分析和存储(过一段时间)的所有页面信息. 索引载有每一页的简要信息和摘要。 输入搜索查询时,搜索引擎会快速扫描其保存内容列表,以拉动最相关的网页,在SRPs中显示. 就像图书馆员按字母顺序、主题和确切标题在目录中寻找书籍。
没有索引目录,搜索引擎无法立即对您的询问提供帮助页面。
什么是反向指数?
一个反向索引是一个帮助您尽可能高效地存储和搜索文本数据的系统.
在传统索引中,数据按文档排列,每页列出其包含的术语. 反向索引会反转,将每个术语与包含它的文档列表联系起来.
这种倒转结构使搜索引擎能够快速找到用于特定搜索查询的相关文档,方法是查阅每个术语并检索相应的文档列表.
这种高效的数据结构使得搜索引擎几乎瞬间返回查询结果,甚至跨越数十亿页.
为什么指数化对机会均等组织很重要?
答案很简单。 如果搜索引擎不索引一页,它就不会出现在搜索结果中。 因此,本页的排名和通过搜索获得有机流量的机会是零的。 没有适当的(或任何的)索引,即使一个本来最优化的网页在搜索中仍将是看不见的。
简言之,编制索引是任何小型和小型企业努力对有机搜索性能产生影响的关键的第一步。
使搜索引擎更快地索引您的网站
提供网站(或网站内的新网页)是引起搜索引擎关注的必经之路。 一些吸引搜索引擎关注的流行有效方法包括向Google和Bing提交一个网站地图或个人URL,内部链接,获取回路链接,以及参与社交媒体.
让我们更详细地探讨这些方法:
XML 站点地图
让我们首先回忆一下。 XML 网站地图是您网站所有页面的列表( 一个 XML 文件) 爬行者需要知道 。 它充当波茨的导航指南. 网站地图确实帮助您的网站以更高效的爬行率更快地获得索引.
闪烁作为搜索引擎爬行器的路线图. 他们可以将爬行者引导到网站被忽略的地区. Sitemaps 帮助您指定哪些页面是 SIO 索引的最高优先级 。 他们还将新的和更新的内容通知搜索引擎,以便索引。 对于大型网站,网站图确保不会在爬行过程中错过页面。
若您还没有网站地图, 请阅读我们成功的 SEO 绘图指南 。
一旦你准备好你的地图,去你的 Google 搜索控制台和 :
打开 ** itemaps QQ 报告 ** QQ 点击 ** 添加一个新的站点地图 ** 输入您的站点地图 URL( 通常它位于_ / siteap.xml_) __ 点击**提交 QQ 按钮。
您可以在 Bing Webmaster 工具中提交一个网站地图 。 打开 Sitemap ** 区域,点击 Submit sitemap ** 按钮,输入您的 sitemap URL,并按 **Submit
Google 搜索控制台中的 URL 检查工具
我们描述了如何添加一个网站地图,并附有许多网站链接。 但如果要添加一个或多个链接进行索引,可以使用另一个GCS选项. 使用URL检查工具,您可以请求爬行单个的URL.
到您的 __Google 搜索控制台仪表板, 点击 _ URL 检查_ 区域, 在行中输入想要的页面地址 :
如果一个页面是最近创建的,或正在经历技术问题,则可能不编制索引。 当这种情况发生时,您会收到一个显示问题的信息,您可以请求对 URL 进行索引. 只需按下按钮即可启动索引进程 :
所有有新内容或更新内容的URL都可以通过GSC在搜索引擎中以这种方式进行索引.
Google的API索引
通过索引API,您可以通知谷歌需要爬行的新URL.
Google认为,这种方法是使用站点地图的绝佳替代品. 通过利用索引API,Googlebot可以快速爬行你的页面,而无需等待网站地图更新或ping Google. 然而,Google仍然建议提交一个网站地图来覆盖整个网站.
要使用索引 API,为您的客户端和服务账户创建项目,验证搜索控制台的所有权,并获得访问令牌. 这份文件为如何做到这一点提供了逐步指导。
设置后,您可随相关 URL 发送请求以通知 Google浏览新网页,
** 注:**索引化API对于经常主机短命网页的网站特别有用,如工作帖或直播视频. 通过推动个人更新,索引化API确保内容在搜索结果中保持新鲜和最新.
QQ 在 Bing 网页主工具中提交 URL
这个网站索引工具类似于Google Console的_URL检查工具_. 它允许您每天提交最多10,000个URL,用于即时爬行和索引.
点击 ** 提交 URL **,每行增加一个 URL,并按 ** 提交
URL立即被评价为搜索索引. 如果符合质量标准,它们也会出现在Bing搜索结果中. 这对快速编制重要内容索引很有帮助。
QQ 现在的Bing指数
Bing's IndexNow是一个ping协议,允许您立即通知搜索引擎新的内容变化或更新. 您可以发送最多10,000个URL来绕过Bing的爬行者.
IndexNow被整合到Wix,Duda,和xenForo中. 如果您正在使用另一个 CMS, 您必须安装插件 。 另外,如果您的 API 密钥文件没有列出的系统支持, 您必须在您的网站的根处安装它 。 然后,您还必须通过在新线上指定每个地址来向Bing提交相应的URL.
在这里找到所有的指示。
这将使搜索引擎能够更快地爬行和索引(或重新索引)这些特定页面,从而加快这些新变化在搜索结果中的出现.
所有提交的URL数据将在Bing Webmaster工具的IndexNow部分显示。
• 内部链接
在整个网站架构中实施深思熟虑的内部链接策略,为爬行者发现和索引您的页面提供了清晰的路径.
当一个搜索引擎爬行者在您的网站上登陆时,内部链接充当引导爬行者发现新页面的路径. 一个结构良好的内部链接(即网站结构)系统使得爬行者更容易在您的网站上找到和爬行所有页面.
没有来自您核心页面的内部链接,搜索爬行者可能难以查找和索引与主页相距几公里的页面,或者没有链接导致它们.
优化网站内部链接结构时考虑如下:
- 确认您页面上的所有链接都为用户带来价值并正常工作。
- 提供说明性和相关的主页文本。
- 重复检查您的404链接的页面内容,并用正确的链接更新。
外部链接
反链路对于搜索引擎如何决定页面的重要性是不可或缺的。 他们向Google表示,该资源是有用的,值得在SERP上排名.
约翰·穆勒(John Mueller)说,“acklinks是让Google编制内容索引的最佳途径。” 他声称,向全球供应链提交附有URL的网址图是良好做法。 对于Google没有现有信号或信息的新网站,通过网站地图为搜索引擎提供URL是启动的好方法. 这并不能保证Google会对包含的URL进行索引。
约翰·穆勒(John Mueller)也建议网站管理员与不同的博客和资源合作,以获得指向他们网站的链接. 这种方法远比前往搜索控制台并说_我希望这个URL立即索引_更有效,更合乎道德.
以下是获得质量回路的方法:
社会信号
搜索引擎旨在提供符合用户搜索意图的高质量内容. Google通过评价社交信号,包括喜欢,股票,以及社交媒体的贴文视图来实现这一目标.
这些信号告知搜索引擎内容是否满足用户的需求,是否相关和权威. 如果用户积极分享自己的页面, 这凸显了活跃在社交媒体上的重要性. 另外,Google表示社会信号不是一个直接的排名因素,但可以间接帮助SEO.
社交信号包括Facebook,Twitter,Pinterest,LinkedIn,YouTube等所有活动. 使用Facebook,您可以为您的重要链接创建一个帖子. 在YouTube上,您可以在视频描述中添加一个链接. 您也可以使用LinkedIn提高您的网站和公司的信誉. 了解如何使用您所选择的每个平台有助于您调整您的方法, 以最大化您网站的效能 。
作为拇指的常规,你创造的社会热点 围绕你的网站, 它会得到更快的索引。
如何检查网站的索引?
您已经提交您的网页索引 。 你怎么知道索引编制成功 必要页面已经排行? 让我们看看您可以用来检查的方法。
- 分析全球供应链中的索引报告
谷歌搜索 控制台允许您监视您的网页中哪些网页是索引的,哪些不是,以及为什么。 我们会告诉你如何检查。
点击_Indexing_区域开始,然后转到_Pages_报告。
在_Indexed_标签上, 您可以在网站上找到所有已索引页面的信息 。 点击关于索引页的_查看数据_按钮。
您可以在网站图中看到所有已提交的页面, 并在“ 所有已提交的页面” 行下显示索引 。
向下滚动以查看所有索引页面列表 。 从这里,你甚至可以找出谷歌最后一次爬行页面的时间.
下一步,从下拉菜单中选择 _Un提交页面_选项。 您可以在网站上看到未提交的索引页。 您可能想要把它们添加到您的网站地图中,因为Google认为它们是高质量的页面.
现在,让我们进入下一个阶段。
_ Not Indexed_ tab 显示由于索引错误等各种原因无法索引的页面.
在页没有索引的表格中, 您可以找到每个问题的具体细节, 并尝试修正它 。
仔细查看所有这些页面, 因为您可能找到可以修补的 URL 。 这将确保谷歌对它们进行索引,从而改进排名。 使用Google网站的排名检查器来查看您的努力是否有效,以及您的排名是否有所改善.
向下滚动到显示已索引的页面的标签页,但有些问题可能是您有意的. 点击表格中的警告行来查看这个问题的细节,然后尝试使用这个新的信息来修正它. 这会帮助你更好排序。
也可以为视频获取同类索引数据. 请参看_视频页_在_Indexing_部分内的报告。
使用“ site:” 搜索操作员
检查网站索引的另一种流行方式是通过网站:命令. 这个Google搜索运营商展示了网站的页面列表. 然而,无法保证谷歌会提供完整名单.
大部分SEO专家都使用它, 这在Google的2024年3月核心更新后特别有用,看到许多带有AI内容的网站被解码.
在 Google 搜索栏中输入此命令并输入网站的域名 。
** 网站:** 互联网档案馆的存檔,存档日期2013-12-21.
在Google的SERP中, 然而,返回的URL列表并不总是宽泛的. 更大型的网站不应该在结果中看到所有的URL。
也可以验证单个URL的索引状态. 只需输入_site: yourpage.com_进入搜索引擎.
如果 URL 不在 _ site:_ 查询中显示, 您可以使用 URL 检查工具来查看 URL 是否被索引 。
使用 SE Ranking 的工具
使用 SE 系统 Ranking,你可以运行一个网站SEO审计,并查找索引信息.
跳转到_Overview_并滚动到_Page索引_块.
在这里,您可以看到索引页面而不是索引页面的数量和百分比比例。 这个仪表板也显示一些问题,
通过点击绿线,你会看到索引页面列表及其参数:_issues,总流量,__状态代码,被机器人封锁. txt,参考页面,x-robots-tag,标题,描述,_等.
您也可使用 SE Ranking 的Index状态检查器查看页面索引。 只需选择搜索引擎并输入URL列表.
一旦你解决了任何索引问题,您就可以使用军衔检查器来监控您网站的性能并跟踪改进情况.
也可以查看一个扩展的手选列表,列出最佳的军衔跟踪软件.
以学习有效的技术来分析您网站在搜索引擎上的性能,
不同的技术如何影响网站索引
现在,我们已对谷歌和Bing索引网站如何、如何提交索引网页以及如何检查它们是否出现在SERP中感到迷惑不解,让我们开始讨论一个同样重要的问题:网络开发技术如何影响网站内容索引。
闪光内容
Flash曾一度被用于同时制作游戏和全功能网站,但Flash已不再活跃. 在其20年的开发中,Flash有许多缺点,包括CPU负载高,闪存播放器错误,以及索引问题.
2019年,Google停止索引闪存内容,对一个时代的结束发表了声明.
搜索引擎建议网站不要使用Flash。 但如果你的网站是用这种技术设计的,则创建网站的文本版本. 这将对尚未安装Flash(或已安装过时的Flash程序)和移动设备用户(这些设备不显示Flash内容)的用户有用.
QQ Java 脚本
在JavaScript开始主导网页开发之前,搜索引擎只爬行像HTML这样的基于文本的内容. 随着联署材料越来越受欢迎,搜索引擎提高了索引这类内容的能力。
然而,JavaScript渲染是一个资源繁重的过程. 搜索引擎如何在网页上处理JavaScript可能会出现延迟. 在渲染完成之前,搜索引擎可能难以访问客户端装载的所有JS内容. 为了揭示JavaScript内部的内容,通常看起来像JS文件的单一链接,bots需要先将其制作出来. 只有在这一步骤之后,搜索引擎才能在HTML标记中看到所有内容并快速扫描.
Google在索引JavaScript发布内容方面越来越快. JavaScript中60%的内容在HTML索引后24小时内进行索引. 然而,这仍然留下40%的联署材料,这可能需要更长的时间。
注意注入JavaScript的页面段落可能包含内部链接. 如果搜索引擎不能使 JavaScript 成像, 它无法跟踪链接 。 这意味着搜索引擎无法索引这些页面,除非它们链接到其他页面或包含在网站地图中。
如果您有 JavaScript- havevy 网站, 请尝试调整 JavaScript 的调用, 让内容先加载, 然后看看这样做是否改善了网页索引 。 阅读我们的综合指南,了解关于改进联署网站索引的更多信息。
阿贾克斯
AJAX通过与服务器交换少量数据,使页面能够连续更新. 使用AJAX的网站的签名特征之一是,内容由一个单一的连续脚本加载,而不将其分割成单独的网页,并有独特的URL. 因此,网站的网页在URL中往往有一个标签(QQ)**。
这样的页面在历史上没有被搜索引擎索引. 而不是扫描_ URL,爬行者会前往** 因此,爬行者无法扫描网站的所有内容。
从2019年开始,拥有AJAX的网站被渲染,爬行,并由Google直接索引. 这意味着bots可以扫描和处理#! URL,模仿用户行为. 现在,网页管理员不再需要创建每页的HTML版本,但你还是应该检查你的机器人. txt允许AJAX脚本扫描. 如果被拒绝,则只打开其搜索索引**。
• SPA
单页应用程序(SPA)是一个比较新的趋势,将JavaScript纳入网站. 与传统网站通过在需要时从服务器中分别请求加载HTML,CSS和JS不同,SPA只需要一个单一的初始加载. 因为超过此点, 他们不会与服务器接触, 然而,虽然SPA网站加载速度较快,但其背后的技术可能会伤害你的SIO.
在扫描SPA时,爬行者无法识别内容被动态加载. 搜索引擎随后将它视为一个尚未填充的空页.
SPA也不遵循404错误页面和其他非200服务器状态代码背后的传统逻辑. 在浏览器渲染内容时,服务器会返回每个请求的200 HTTP 状态代码. 搜索引擎无法分辨某些页面是否有效,
为了了解如何优化单页应用程序,请阅读我们有关SPA的博客文章.
- 框架
JavaScript框架用于促进动态网站互动. 使用React,Angular,Vue等JavaScript框架构建的网站,都默认设定为客户端渲染. 这往往导致各种框架充满了以下高级管理制度的挑战:
- ** 爬行者看不到页面上的内容。 搜索引擎的索引内容有困难,需要您点击它来加载.
- 预测是一个主要障碍**。 Google爬行页面未刷卡. 最初的负载可能是阴沉和有问题的.
-
** 客户端编码使已定稿的DOM更加复杂。 ** 它需要更多来自搜索引擎爬行器和客户端设备的CPU资源.
如何限制网站索引
您可能不希望搜索引擎索引某些页面 。 并非所有页面都有必要排列和出现在搜索结果中。
哪些内容往往受到限制?
内部和服务文件: 仅应由网站管理员或网站主管查看的文件,例如登记时指定的用户数据文件夹:/wp-login.php;/wp-register.php.
* ** 不适合在搜索结果中显示的页面 或用户与资源的第一个熟人:谢谢页面,注册表等.
** 有个人资料的传单: 访客在订货和登记期间离开的联系信以及付款卡号码;
* 特定类型的文件,例如pdf文件。
* ** 重复内容 :** 例如,你正在做A/B测试。
因此,您可以屏蔽对用户没有价值且不影响网站排名的信息,以及被索引的机密数据.
你可以解决两个问题:
- 减少某些页面被爬行的可能性,包括索引和在搜索结果中出现。
- 节省爬行预算——每个网站一个机器人可以爬行的有限数量的URL.
让我们看看如何限制网站内容。
机器人元标记
Meta机器人是添加搜索bots命令的标记. 它们影响了页面的索引化以及其元素在搜索结果中的显示. 标签放置在网页文档的QQ头QQ中,以便在机器人开始爬行页面前指示它.
Meta机器人是管理索引的更可靠方式,与机器人.txt不同,它只作为爬行者的推荐. 在元机器人的帮助下,可以在页面代码中直接为机器人指定指令(指令). 它应添加到所有不应索引的页面中。
阅读我们的终极指南 找出如何在您的网站上添加元标记机器人 。
X-机器人塔格
由于并非所有的页面都有HTML格式和QQ头QQ部分(例如PDF文档),一些内容无法与机器人元标记进行索引。 这时X-Robots Tag的帮助。
X-Robots-Tag被用作给定URL的HTTP头响应的一个元素. 当指示爬行者不要索引一个页面时,您用 X- Robots- Tag 的 HTTP 响应会看起来像这样:
这里是您需要使用_noindex_规则的地方,类似于机器人元标记. 更多信息请参考Google指南。
QQ 服务器侧
也可以限制网站内容服务器侧索引. 要做到这一点,请在您网站的根目录中查找htaccess**文件,并添加必要的代码来限制特定搜索引擎的访问.
此规则允许您屏蔽可能构成潜在威胁或仅仅是对服务器过度请求的不想要的用户代理.
设置网站访问密码
防止网站索引化的另一种方法是通过htaccess文件设置网站访问密码. 设置密码,并将代码添加到htaccess文件中.
密码必须由网站所有者设置,所以您需要通过添加用户名来识别自己. 这意味着您需要将用户包含在密码文件中 。
这将导致机器人不再能够爬行网站并索引.
Google 搜索控制台中的删除工具
您也可以使用“移除”工具来阻止您网站的 URL 出现在 Google 搜索结果中 。 然而,它只暂时从Google搜索结果中移除页面(6个月),并不影响它们在其他搜索引擎上的存在.
要用此工具清理不必要的内容, 请到 ** Google 搜索控制台 ** _ _ _ 转到 ** Removals 工具 ** _ _ 点击 ** 新请求按钮 ** _ _ 并提交页面 。
** 注:**在试图阻止索引化时,不要依赖机器人. txt文件,因为它只指示bots不要爬行这些页面. 此文件不能保证您的页面不会出现在搜索结果中 。 例如,如果这些页面之前已经爬过,它们可能仍然出现在SERPs中.
结论
需要很长一段时间才能在SERP中出现。 了解搜索引擎索引的出入可以帮助您避免有害的错误,这些错误会损害您的网站的SEO。
通过优化内部链接和只创建高质量,有用的内容来正确设置您的站点地图. 这将防止搜索引擎忽略您的网站 。
现在,让我们快速回顾一下我们覆盖的搜索引擎索引方面:
- 利用GSC和Bing Webmaster工具中的功能,利用内部和外部链接,通过创建网站地图,对新网站或网页的搜索引擎进行更新。
- 使用Ajax、JavaScript、SPA和框架的索引网站的具体内容。
*在机器人元标记,X-Robots-Tag,清除工具以及访问密码的帮助下限制网站索引.
请注意,虽然高指数化率不等于高搜索引擎排名,但它是进一步优化网站的基础. 在采取进一步的措施之前,请检查您的页面索引状态,以验证其索引性。
Daria是SE Ranking的SEO和内容营销专家. 她的兴趣横跨着SEO和数字营销. 她喜欢用简单的语言描述复杂的事物. 在她的空闲时间里,达里亚享受了环游世界,学习摄影艺术,参观美术馆.