前言
Sitemap 可方便网站管理员通知搜索引擎他们网站上有哪些可供抓取的网页。最简单的 Sitemap 形式,就是XML 文件,在其中列出网站中的网址以及关于每个网址的其他元数据(上次更新的时间、更改的频率以及相对于网站上其他网址的重要程度为何等),以便搜索引擎可以更加智能地抓取网站。
简易信息聚合(也叫聚合内容)是一种RSS基于XML标准,在互联网上被广泛采用的内容包装和投递协议。RSS(Really Simple Syndication)是一种描述和同步网站内容的格式,是使用最广泛的XML应用。RSS搭建了信息迅速传播的一个技术平台,使得每个人都成为潜在的信息提供者。发布一个RSS文件后,这个RSS Feed中包含的信息就能直接被其他站点调用,而且由于这些数据都是标准的XML格式,所以也能在其他的终端和服务中使用,是一种描述和同步网站内容的格式。
可以看出,sitemap可以使得博客被搜索引擎抓取,增加博客受众;rss则提供了订阅博客的一种方式。为此,对本博客进行如下配置。
Hexo的sitemap 配置和RSS 配置
在hexo_config.yml中,做出如下配置:
配置后重启hexo server 进行测试,使用网站域名/sitemap.xml看是否正常。(下图为本地测试)
使用百度站长工具提交sitemap并抓取
1.登录站长平台,对网站进行CNAME验证
在个人域名的注册商系统做好如下配置
2.提交链接
3.出现抓取失败的问题
原因:博客是搭建在github服务器上的,github拒绝百度爬虫爬取。
相关解决方案:如何解决百度爬虫无法爬取搭建在Github上的个人博客的问题?
使用AZ Reader进行RSS订阅测试
AZ Reader是一款免费的rss阅读器,具备rss基本功能。
进行简单配置后,就可进行正常浏览: