GitHub禁掉百度爬虫的解决办法网上有几种说法

花享团 次浏览

摘要:然而,提交给谷歌后不久就被收录了,但是百度却迟迟没有收录。在知道这个问题的原因之后,第一时间想到的是就是搞一个云服务器,将博客部署到云服务器上。这样就能同时将博客内容推到GitHub和Coding上。完成了博客的部署后,就需要去弄个域名并添加解析。

解决方案

这个问题网上有多种解决方案,大致可以分为三种:

知道这个问题的原因后,我首先想到的就是搭建一个云服务器百度收录域名关系,并将博客部署到云服务器上。 不过考虑到云服务器只部署博客,有点吃亏,而且暂时没有其他需要用到云服务器的地方,所以就放弃了,打算部署在GitHub上。

百度收录和域名关系_收录域名百度关系怎么填_百度搜索的域名

第二种使用CDN代理GitHub Pages上的博客的方法并不能很好地解决这个问题百度收录和域名关系,因为如果附近的节点不缓存的话,爬虫仍然会爬取GitHub Pages上的内容。

因此,经过综合考虑,我们最终采用了第三种方法,同时部署到GitHub和Coding上,通过域名解析的方式将国内请求解析到Coding上。

将操作流程部署到Coding

百度搜索的域名_收录域名百度关系怎么填_百度收录和域名关系

首先在Coding上注册一个账号并配置SSH Key,然后创建一个.coding.me仓库,然后将仓库的地址添加到hexo配置文件中,如下所示。

# Deployment
## Docs: https://hexo.io/docs/deployment.html
deploy:
  type: git
  repo:
    - git@github.com:hezhii/hezhii.github.io.git
    - git@git.coding.net:hezhou/hezhou.coding.me.git
  branch: master

这样博客内容就可以同时推送到GitHub和Coding上。 Coding上选择Project-->Code-->Pages Service,然后选择对应的分支即可完成部署。 这样就可以通过.github.io和.coding.me访问博客了。

收录域名百度关系怎么填_百度收录和域名关系_百度搜索的域名

这里有一个问题需要注意。 如果使用Travis CI进行自动部署并通过SSH登录,则需要在ssh_config文件中添加Coding相关配置。 ssh_config的内容如下。

Host github.com
User git
StrictHostKeyChecking no
IdentityFile ~/.ssh/id_rsa
IdentitiesOnly yes
Host git.coding.net
User git
StrictHostKeyChecking no
IdentityFile ~/.ssh/id_rsa
IdentitiesOnly yes

域名申请与解析

完成博客部署后,需要获取域名并添加解析。 我在万网申请了域名。 申请完成后,我添加了4条CNAME记录,分别解析Coding和GitHub的国内和国外请求,如下图。

随机内容