网站地图sitem.xml文件中的格式详解

最近上线了几个网站,都遇到了为它们做sitemap的问题,所以借这个机会过一遍sitemap.xml文件的各个知识点,算是一种复盘,下一篇会出一个关于织梦sitemap手动生成的教程,这篇文章先作为预热篇公布出来。

 

网站地图sitem.xml文件中的格式详解

 

什么是sitemap.xml文件

 

sitemap.xml文件是严格按照xml语言编写的网站地图,用来引导搜索蜘蛛对本站点文章等内容的索引,它是由google提出来的概念,目前百度,yahoo,bing等已经公 开声明支持这种格式。

 

sitemap.xml文件的作用

 

一般WordPress博客都可以直接sitesmap.xml插件,它是向众多搜索引擎提供站点信息的一个非常好的方式。如果没有sitemap.xml文件,那么搜索引擎就会对你的网站一 页一页的抓去,效率不高且不友好。

 

sitemap.xml文件的写法

 

百度的“关于站点地图”提供了详细的sitemap.xml的写法,站点的网站地图样例如下(这是单一sitemap.xml格式的写法,一般企业站做一个就行了):

 

<?xml version=”1.0″ encoding=”utf-8″?>

<!– XML文件需以utf-8编码–>

<urlset xmlns=”http://www.sitemaps.org/schemas/sitemap/0.9″>

<!–必填标签–>

<url>
<!–必填标签,这是具体某一个链接的定义入口,每一条数据都要用<url>和</url>包含在里面,这是必须的 –>
<loc>http://www.yoursite.com/yoursite.html</loc>
<!–必填,URL链接地址,长度不得超过256字节–>
<lastmod>2009-12-14</lastmod>
<!–可以不提交该标签,用来指定该链接的最后更新时间–>
<changefreq>daily</changefreq>
<!–可以不提交该标签,用这个标签告诉此链接可能会出现的更新频率 –>
<priority>0.8</priority>
<!–可以不提交该标签,用来指定此链接相对于其他链接的优先权比值,此值定于0.0-1.0之间–>
</url>
<url>
<loc>http://www.yoursite.com/yoursite2.html</loc>
<lastmod>2010-05-01</lastmod>
<changefreq>daily</changefreq>
<priority>0.8</priority>
</url>
</urlset>

 

很多人看到这里就头大了,其实其中的语法很简单。

 

  • loc,是指页面对应的URL
  • priority,是指相对于其他页面的优先权
  • lastmod,是指更新的时间
  • changefreq,是指内容更新的频率

 

有了这些设置,就等于告诉搜索引擎机器人,你的网站的更新情况如何,以及希望搜索引擎优先收录哪些内容。

 

sitemap.xml文件中的格式含义

 

1、首尾格式

 

如下:

 

<?xml version=”1.0″ encoding=”utf-8″?>

<urlset xmlns=”http://www.sitemaps.org/schemas/sitemap/0.9″>

 

这两句代码类似Html标签是死的,写的时候照抄即可,文件最后会有</urlset>

 

2、<loc></loc>

这两个标签中间的地址必填。格式为:http://www.xixinseo.com/jishu,此网址应以协议开始(例如:http)并以斜线结尾。此值应少于 2048 个字符。

 

3、<lastmod>

 

可选标签

标签含义:该文件上次修改的日期。

此日期应采用 W3C Datetime 格式。如果需要的话,此格式允许省略时间部分,而仅使用YYYY-MM-DD,比如:2014-07-16。

虽然这个是可选标签,但是一般来说这个很重要。

搜索引擎爬虫会在索引此链接前先和上次索引记录的最后更新时间进行比较,如果时间一样就会跳过不再索引。

所以如果你的链接内容基于上次搜索引擎索引时的内容有所改变,应该更新该时间,让搜索引擎下次索引时会重新对该链接内容进行分析和提取关键字。

 

4、<changefreq>

可选标签

标签含义:页面可能发生更改的频率。此值为搜索引擎提供一般性信息,可能与搜索引擎抓取页面的频率不完全相关。有效值为:

always

hourly

daily

weekly

monthly

yearly

never

值“always”应当用于描述每次访问时都会改变的文档。

而值“never”应当用于描述已存档网址

 

5、<priority>

可选标签

此网址的优先级与您网站上其他网址的优先级相关。有效值范围从 0.0 到1.0。

此值不会影响您的网页与其他网站上网页的比较结果,只是告诉搜索引擎您认为您的那个网页最重要,从而它们对您页面的抓取可以按照您最喜欢的方式进行排序。一个网页的默认优先级为 0.6。

 

特别注意

 

xml文件必须是utf-8的编码格式,可以用记事本打开xml然后另存为时选择编码(或转换器)为UTF-8。

 

sitemap.xml简单制作

 

了解这些标签的作用我们就可以根据自己网站的情况做出适合自己站点sitemap.xml通过以上的知识我们可以知道:

 

如果要想添加(http://www.xixinseo.com)的xml站点地图的话,只需要增加如下代码即可:

 

<url>

<loc>http://www.xixinseo.com/</loc>

<lastmod>2018-01-12T18:31:43+00:00</lastmod>

<changefreq>weekly</changefreq>

<priority>0.3</priority>

</url>

 

提交Sitemap.xml

 

Sitemap.xml制作完成后,就需要将xml文件提交到相关搜索引擎。

 

提交后,一般在几个小时之内,系统就开始下载处理了。

 

Sitemap.xml的校验

 

至于你的网站地图是否符合标准,最方便有效的手段就是使用百度站长工具了。

 

在搜索引擎接收你的sitemap.xml后几天内,百度的管理员工具就会将详细的分析结果反馈回来,包括:sitemap.xml中包含了多少地址,百度已将多少地址加入索引,sitemap.xml中出现了哪些错误,甚至蜘蛛采集过程中遇到的各种问题,比如哪些网页有 404,500错误都会详细的罗列出来,非常方便。

 

如果你提交的xml文件一切无误,那么接下来,你就是等着让它的搜索蜘蛛来爬了,sitemap的文件告知了文件更新的频率,这样搜索蜘蛛来得更勤快,页面被收录当然也就更快。

本文欢迎转载:北京SEO » 网站地图sitem.xml文件中的格式详解

赞 (0)

评论 0

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
<友情连结> 探索者SEO顾问团队/ 上海翼好SEOdafa8888公司/ 雨中漫步网络/ Zhejiang GBF Basalt Fiber Co., LTD./ Ekoloski pokret/