你如何让搜索引擎知道什么是重要的?
泉州SEO要怎么做?这是我们今天要讨论的话题!下面从:如何让搜索引擎知道网站哪里是重要的?这个问题来展开讨论~
当搜索引擎程序抓取网站时,我们实际上可以启动相关文件。
对搜索引擎蜘蛛的简单理解将链接到您网站上的信息。但他们也在浏览网站代码和目录中的特定文件,标签和元素。我们来看看这些元素是什么。
robots.txt:
当搜索引擎蜘蛛抓取网站时,首先要抓住robots.txt文件。
对于复杂的网站,robots.txt文件至关重要。对于只有几页的小型网站,可能不需要robots.txt文件。没有它,搜索引擎蜘蛛会抓取网站上的所有内容。
有两种主要方法可以使用robots.txt文件来指导搜索引擎蜘蛛。
1.首先,您可以使用“禁止”命令。这将导致蜘蛛忽略特定的URL文件,文件扩展名甚至整个站点的一部分:
User-agent: Googlebot
Disallow: /example/
虽然disallow指令阻止蜘蛛抓取您网站的特定部分(从而节省预算),但它并不一定会阻止该网页被编入索引并显示在搜索结果中,如下所示:
2.另一种方法是使用noindex指令。 Noindex不会阻止对页面或文件进行爬网,但会阻止对其进行索引(或从索引中删除)。此robots.txt命令由Google非正式支持,完全不受百度/ Bing的支持:
User-agent:Googlebot
Noindex:/ example /
User-agent:*
Disallow:/ example /
显然,由于这些网页仍在被抓取,因此它们仍会使用您的抓取预算。
这是一个经常被忽视的问题:disallow指令实际上撤消了搜索引擎蜘蛛noindex标记的工作。这是因为disallow阻止蜘蛛访问页面内容,从而阻止查看和遵守元标记。
robots.txt协议的另一个用途是告诉搜索引擎可以抓取哪些页面以及哪些页面无法抓取。当然,并非所有蜘蛛都表现良好,有些甚至会忽略您的指示(尤其是寻找漏洞的恶意机器人)。
XML站点地图:
XML站点地图可帮助蜘蛛了解站点的基础结构。请注意,蜘蛛使用站点地图作为线索而不是权威指南来学习如何索引网站。机器人还会考虑其他因素(例如您的内部链接结构)来确定您的网站的内容。
使用可扩展标记语言(XML)站点地图最重要的是确保发送到搜索引擎的消息与您的robots.txt文件一致。
不要将robots.txt阻止的文件内容发送到搜索引擎;考虑到网站的爬行预算,我们不能在这里犯错误。
第二个重要的事情是确保XML站点地图仅包含规范URL,因为百度/谷歌会将XML站点地图视为规范化信号。
URL规范化:
如果网站上有重复内容(我们应该避免重复内容),那么rel =“canonical”链接元素会告诉蜘蛛哪个URL应该被视为主要版本。
如果您不使用规范标签,那么网站上具有不同网址但相同内容的网页将包含在搜索引擎中,这将导致搜索引擎将网站误认为是多个重复页面,从而降低了对网站。
分页:
正确设置rel =“next”和rel =“prev”链接元素很重要。如果电子商务网站在每个类别中都有很多产品,如果您想避免陷入搜索引擎的重复内容过滤器,那么rel = next和rel = prev非常重要。
假设该网站有50种不同的型号可供选择。在主类别页面上,用户可以查看前10个产品,每个产品都有产品名称和缩略图。然后,他们可以点击“下一页”查看接下来的10个结果,依此类推。
这些页面中的每一个都具有相同或非常相似的标题,元描述和页面内容,因此主类别页面的头部应该具有rel =“next”(没有rel =“prev”,因为它是第一页)Hypertext标记语言(HTML)。将rel =“next”和rel =“prev”链接元素添加到每个后续页面会告知爬网程序您要将这些页面用作序列。
或者,如果我们有此内容的“查看全部”页面,我们可以将其标准化为所有分页页面上的“查看全部”页面,并完全跳过rel = prev / next。缺点是“查看全部”页面可能会出现在搜索结果中。如果页面加载时间太长,搜索访问者的跳出率会很高,这不是一件好事。如果没有rel =“canonical”,rel =“next”和rel =“prev”链接元素,这些页面将相互竞争并存在重复内容过滤的风险。正确实施,rel = prev / next将指示Google将序列视为页面,或者rel = canonical将所有权重新分配给“查看全部”页面。 (关于分页优化技巧,学生可以查看这篇文章:页面分页优化技巧)。
常见的编码问题:
想要获得良好排名的网站取决于许多因素。其中一个很重要:包含干净代码的页面很重要(谷歌的移动优先索引)。这将使搜索引擎更容易识别页面上的重要内容。很可能一个小错误会导致爬虫混淆蜘蛛并导致搜索结果出现严重问题。
以下是一些基本的注意事项:
1.无限空间(又名蜘蛛陷阱)。
糟糕的编码有时会无意中产生“无限空间”或“蜘蛛陷阱”。诸如指向相同内容的无限URL或以多种方式呈现相同信息的页面或在不同日期具有无限日历的日历等问题可能导致蜘蛛卡住并且可能快速耗尽爬网预算。
在404错误页面的超文本传输协议安全性(HTTP)标头中错误地提供200状态代码是另一种呈现方式,因此正确的页面状态代码也非常重要,并且还可以保存爬网预算。
当蜘蛛遇到大量精简或重复的内容时,它最终会放弃,这可能意味着它永远不会获得最佳内容,并且会在索引中生成一堆无用的页面。
2.嵌入内容。
如果您希望蜘蛛有效地抓取您网站的内容,最好让事情变得更容易。搜索引擎蜘蛛经常遇到JavaScript,Framework,Flash和异步JavaScript和XML(AJAX)的问题。尽管百度/谷歌在捕捉Javascript和AJAX等格式方面做得越来越好,但使用HTML是最安全的。
一个常见的例子是使用无限滚动的网站。虽然它可能会提高可用性,但可能会使搜索引擎难以正确抓取和索引您的内容。确保每个文章或产品页面都具有唯一的URL,并通过传统的链接结构进行连接,即使它以滚动格式显示也是如此。
文章评论 (0)