抓取与索引编制-谷歌SEO优化搜索引擎原理(一)

查询之旅甚至在您输入搜索字词之前就已经开始了,因为我们要抓取网上的数万亿份文档并将其编入索引。

搜索原理

这些过程奠定了搜索的基础;正是靠着这些过程,我们才能收集和整理网上信息,进而能够向用户返回最有用的结果。我们的索引规模已超过 1 亿千兆字节,花费了超过 1 百万个计算小时才构建成。要详细了解这些基础信息,请观看这部短片。

抓取与索引编制-谷歌SEO优化搜索原理(一)

通过抓取查找信息

我们使用称为“网页抓取工具”的软件来查找公开网页。最著名的抓取工具是“Googlebot”。抓取工具会查看网页并访问这些网页上的链接,就像您在浏览网页内容时所做的操作一样。它们从一个链接跳转到另一个链接,并向 Google 服务器返回相应网页的相关数据。

系统会从以前抓取的一系列网页地址和网站所有者提供的站点地图开始抓取。访问这些网站时,我们的抓取工具会查找其他网页的链接以进行访问。该软件会特别注意新的网站、现有网站所发生的更改和无效链接。

计算机程序会决定要抓取的网站、抓取的频率以及要从各网站抓取的网页数量。Google 不会为了收费而将任何网站更频繁地抓取到我们的网络搜索结果中。我们更关心如何尽可能提供最佳结果,因为从长远来看,这才是对用户最有利的,也正是我们业务的立足之本。

提供给网站所有者的选择

大部分网站无需针对抓取、编入索引或提供信息设置任何限制,因此它们的网页无需任何额外工作即可出现在搜索结果中。也就是说,通过网站站长工具和称为“robots.txt”的文件,网站所有者可在许多选项中选择让 Google 如何抓取他们的网站并将其编入索引。借助 robots.txt 文件,网站所有者可以选择阻止 Googlebot 抓取其网站,也可以提供关于如何处理其网站网页的更详尽说明。

网站所有者可以有很多选择,并可选择要如何逐页将内容编入索引。例如,他们可以选择显示自己的网页但不显示摘要(显示在搜索结果中的标题下方的网页摘要)或缓存版本(存储在 Google 服务器中的备用版本,以便在实际网页无法访问时使用)。网站站长还可以选择通过自定义搜索将搜索内容集成到自己的网页。

以索引形式整理信息

网络就像一个藏有数十亿本图书的公共图书馆,其藏书量一直在不断增加,却没有中枢文件整理系统。Google 在抓取过程中基本收集了这些网页并创建了索引,因此我们确切知道如何找出所需内容。与图书后面的索引类似,Google 索引也包含一些字词及其位置的信息。当您执行搜索时,在最基本的情况下,我们的算法会在索引中查找您搜索的字词,从中找到相应的网页。

搜索过程要比这复杂得多。在搜索“狗狗”时,您可能并不希望看到有几百个“狗狗”字样的网页,而可能希望获得相关的图片、视频或品种信息。Google 的索引系统会注明网页的发布时间、是否包含图片和视频等多方面的信息。借助知识图,我们的搜索服务将继续使用包括关键字匹配在内的方法,以便更好地了解您所关心的人物、地点和事件等信息。

欢迎转载,转载时请您以链接形式注明来源! 本文地址:http://www.seobn.com/384.html
上一篇:英文外贸网站谷歌SEO优化都需要哪些服务
下一篇:Google算法-谷歌SEO优化搜索引擎原理(二)