机器可读百度通过一个叫做Baiduspider的程序

花享团 次浏览

摘要:建议使用文字而不是flash、图片、Javascript等来显示重要的内容或链接,搜索引擎暂时无法识别Flash、图片、Javascript中的内容,这部分内容无法搜索到;仅在flash、Javascript中包含链接指向的网页,百度可能无法收录。

百度使用一个名为Baiduspider的程序来抓取互联网上的网页,并在处理后将其构建为索引。 目前Baiduspider只能读取文本内容。 Flash、图片等非文本内容暂时无法处理。 百度无法识别flash中的文字和图片。

建议使用文本而不是flash、图片、Javascript等来显示重要内容或链接。 搜索引擎暂时无法识别Flash、图片、Javascript中的内容,无法搜索到这部分内容; 仅包含 Flash 和 Javascript 的链接。 网页可能不会被百度收录。

建议:

网站结构

网站应该有清晰的结构和清晰的导航,可以帮助用户快速从你的网站找到自己需要的内容,也可以帮助搜索引擎快速了解网站中每个网页的结构层次。

网站结构建议采用树形结构。 树形结构通常分为以下三个层次:首页-频道-文章页。 就像一棵大树一样,首先有主干(主页),然后是树枝(频道),最后是叶子(普通内容页面)。 树形结构更具可扩展性。 当网站内容增多时,可以通过细分分支(频道)轻松应对。

理想的网站结构应该是扁平化的,从首页到内容页的层次尽可能少,这样更容易被搜索引擎处理。

同时,网站还应该具有网络结构。 网站上的每个网页都应该有上下网页及相关内容的链接:首页有频道页的链接,频道页有首页和一般内容的链接? 普通内容页面有上级频道和主页的链接,内容相关的网页之间有相互链接。

网站中的每个网页都应该是网站结构的一部分,并且应该通过其他网页链接到。

综上所述,合理的网站结构应该是扁平的树状网状结构。

建议:

网站应该有简洁、清晰的导航,可以让用户快速找到自己需要的内容,也有助于搜索引擎更好地理解网站的结构。

建议:

百度网站收录_百度新网站收录_网站改版百度不收录

域名和目录的选择

选择使用子域名或目录来合理分发网站内容,将对网站在搜索引擎中的表现产生很大影响。

1、在频道内容还不够丰富,无法作为独立站点存在之前,采用目录格式; 等到频道中积累了​​足够的内容,然后将其转换为子域名。

一个网页能否排在搜索结果的前面,“出处”非常重要。 如果来自网站权重较高的网站,则其排名靠前的可能性就越大,反之亦然。 一般情况下,主站的权重最高,子站会继承主站的部分权重。 继承的数量取决于子站点的质量。

在内容丰富到可以作为独立站点使用之前,将内容放在主站点下的目录中可以在搜索引擎中获得更好的性能。

2、对于内容差异较大、相关性较低的内容,采用分站格式。

搜索引擎将识别网站的主题。 如果网站中的内容相关性不高,可能会导致搜索引擎错误识别。 将相关性较低的内容放在不同的子域下可以帮助搜索引擎更好地理解网站的主题。

3、域名之间的内容应设置权限,并相互分开。 下的内容。 无法通过 b 访问 example.com。 example.com。

子域名之间的内容可以互相访问,并且可以被搜索引擎作为重复内容进行去重。 保留的URL不一定是正常域名下的。

4.不要滥用子域名。

滥用大量内容不丰富的子域名会被搜索引擎视为作弊,并受到惩罚。

标准且简单的 URL

百度新网站收录_网站改版百度不收录_百度网站收录

创建一个描述性良好、标准化、简单的URL将有助于用户更容易记住和判断网页内容,也将有助于搜索引擎更有效地抓取您的网站。 在网站设计之初,就应该有一个合理的URL规划。

1、网站上的同一网页只对应一个URL。 如果网站上的多个URL都可以访问相同的内容,就会存在以下危险:

如果您的网站上已经存在多个URL表单,建议按如下方式处理:

2.允许用户从URL判断网页内容和网站结构信息,并预测他们将看到的内容。

3. URL应尽可能短。

长 URL 不仅难看,而且还使用户难以获取其他有用的信息。 另一方面,短网址还可以帮助减小页面大小,加快网页打开速度,提高用户体验。

4、普通的动态URL对搜索引擎没有影响。

URL是动态还是静态对搜索引擎没有影响,但建议尽量减少动态URL中包含的可变参数。 这不仅有助于减少URL的长度,还可以降低搜索引擎陷入黑洞的风险。

5. 不要将系统无法自动识别的字符添加为 URL 的组成部分。

域名修改/变更

随着互联网的快速发展,网站改版、域名变更在所难免,但处理不当会造成重大的流量损失。

修改或更换域名时首先要考虑的一点是如何保证老用户不流失。 当用户访问旧内容时,可以引导他们到新网站上的相应内容,避免用户无法访问以前收集的网页的情况。

网站改版百度不收录_百度网站收录_百度新网站收录

我们建议在修改或更换域名时,将旧网页永久重定向301到内容对应的新网页。 这将更容易检测到变化并将旧网页的累积权重快速转移到相应的新网页。

合理的返回码

百度爬虫在抓取和处理时,会根据http协议规范来设置相应的逻辑,所以站长也要尽量参考http协议中返回码的定义来设置。

百度蜘蛛对于常用的http返回码的处理逻辑如下:

1.404

404返回码的含义是“NOT FOUND”。 百度会认为该网页已经过期,因此通常会从搜索结果中删除该网页,并且短期内蜘蛛如果再次找到该网址,就不会再次抓取该网址。

2.503

503返回码的含义是“服务不可用”。 百度会认为该网页暂时无法访问。 这种情况通常发生在网站暂时关闭或带宽受限的情况下。 对于返回503的网页,百度蜘蛛不会直接删除该网址,短期内会再次访问。 如果此时网页已经恢复,则可以正常抓取; 如果继续返回503,短期内就会被访问多次。 但如果网页长时间返回503,该URL仍会被百度认为是无效链接,并从搜索结果中删除。

3.403

403返回码的含义是“禁止”网站改版百度不收录,百度会认为该网页当前被禁止访问。 这种情况下,如果是新发现的URL网站改版百度不收录,百度蜘蛛暂时不会抓取,短期内会再次检查; 如果是已经被百度收录的网址,不会直接删除,短期内还会再次访问。 如果此时允许访问该网页,则该网页将被频繁抓取; 如果仍然不允许访问,短期内会多次访问。 但如果网页长时间返回403,百度也会认为其为无效链接,并从搜索结果中删除。

4.301

301返回码的含义是“永久移动”,百度会认为网页当前正在跳转到新的URL。 当遇到网站迁移、域名变更、网站改版等情况时,建议使用301返回码,尽量减少改版带来的流量损失。 虽然现在百度蜘蛛对于301跳转的响应周期较长,但我们还是建议大家这样做。

建议:

随机内容