百度站长工具-平台工具使用手册
1. 网页验证
为什么要验证网站
搜索资源平台推荐站长添加主站(您网站的链接也许会使用www 和非 www 两种网址,建议添加用户能够真实访问到的网址),添加并验证后,可证明您是该域名的拥有者,可以快捷批量添加子站点,查看所有子站数据,无需再一一验证您的子站点。
如何验证网站
百度搜索资源平台提供两种验证方式(百度统计的导入方式已下线):文件验证、html标签验证。
-
文件验证:您需要下载验证文件,将文件上传至您的服务器,放置于域名根目录下。
-
html标签验证:将html标签添加至网站首页html代码的标签与标签之间。
验证完成后,我们将会认为您是网站的拥有者。为使您的网站一直保持验证通过的状态,请保留验证的文件、html标签,我们会去定期检查验证记录。
网站验证常见错误及解决办法
| 常见错误 | 推荐解决办法 |
|---|---|
| 无法解析您网站的域名 | 请检查网站的DNS设置是否正确,并更新您网站自己的DNS |
| 无法连接到您网站的服务器 | 请检查网站服务器设置是否正确,是否可正常访问 |
| 获取验证文件或网页发生错误 | 请检查服务器设置,或者稍后重试 |
| 您网站跳转次数过多 | 请检查服务器设置,是否设置了多次跳转,如果设置了多次跳转,请取消跳转后重新尝试验证您的网站 |
| 服务器检查结果为空 | 请检查服务器是否对百度做了特殊的设置(例如:对百度进行了封禁),或者稍后重试 |
| 我们无法访问您的网站 | 请检查服务器设置是否正确,可能是您的网站是否对百度做了UA/IP封禁,如果做了封禁请解除封禁后重新尝试验证您的网站 |
| 找不到验证的html标签或者验证的html标签内容错误 | 请检查html标签内容是否正确 |
| 验证的文件内容错误 | 请检查html标签内容是否正确 |
| 没有找到对应的DNS CNAME记录 | 请检查您网站的DNS设置是否正确 |
| 您的网站跳转到另一个域名下 | 请检查服务器是否设置了跳转,如果设置了请去掉跳转后重新尝试验证您的网站 |
2. 普通收录
普通收录工具是网站主动向百度搜索推送数据的工具,本工具可缩短爬虫发现网站链接时间,网站时效性内容建议使用普通收录工具,实时向搜索推送数据。普通收录工具主要包含API推送/sitemap/手动提交三种提交方式。
如何选择普通收录方式
API推送:最为快速的提交方式,建议您将站点当天新产出链接立即通过此方式推送给百度,以保证新链接可以及时被百度收录。
sitemap:您可以定期将网站链接放到Sitemap中,然后将Sitemap提交给百度。百度会周期性的抓取检查您提交的Sitemap,对其中的链接进行处理,但收录速度慢于API推送。
手动提交:如果您不想通过程序提交,那么可以采用此种方式,手动将链接提交给百度。
使用API推送功能会达到怎样效果
及时发现:可以缩短百度爬虫发现您站点新链接的时间,使新发布的页面可以在第一时间被百度收录
保护原创:对于网站的最新原创内容,使用API推送功能可以快速通知到百度,使内容可以在转发之前被百度发现
如何使用API推送功能
1. 需要网站制作数据推送接口,进入API推送工具后,会看到接口调用地址的token,token是由16个英文数字组合的字符串
2. 下面提供一些推送示例
2.1 curl推送示例
将要提交的url数据写入一个本地文件,比如urls.txt,每个url占一行,然后调用curl命令:
curl -H 'Content-Type:text/plain' --data-binary @urls.txt "http://data.zz.baidu.com/urls?site=www.example.com&token=edk7yc4rEZP9pDQD"
使用php、python、java等可以参照这个过程推送结构化数据。
2.2 post推送示例
POST /urls?site=www.58.com&token=edk7ychrEZP9pDQD HTTP/1.1
User-Agent: curl/7.12.1
Host: data.zz.baidu.com
Content-Type: text/plain
Content-Length: 83
http://www.example.com/1.html
http://www.example.com/2.html
2.3 php推送示例
$urls = array(
'http://www.example.com/1.html',
'http://www.example.com/2.html',
);
$api = 'http://data.zz.baidu.com/urls
site=www.58.com&token=edk7ychrEZP9pDQD';
$ch = curl_init();
$options = array(
CURLOPT_URL => $api,
CURLOPT_POST => true,
CURLOPT_RETURNTRANSFER => true,
CURLOPT_POSTFIELDS => implode("\n", $urls),
CURLOPT_HTTPHEADER => array('Content-Type: text/plain'),
);
curl_setopt_array($ch, $options);
$result = curl_exec($ch);
echo $result;
2.4 ruby推送示例
require 'net/http'
urls = ['http://www.example.com/1.html', 'http://www.example.com/2.html']
uri = URI.parse('http://data.zz.baidu.com/urls
site=www.xxx.com&token=eTk7ychrWZP1pDQD')
req = Net::HTTP::Post.new(uri.request_uri)
req.body = urls.join("\n")
req.content_type = 'text/plain'
res = Net::HTTP.start(uri.hostname, uri.port) { |http| http.request(req) }
puts res.body
如何查看推送反馈
您可以通过推送后返回的状态码和字段来判断数据是否推送成功。
- 状态码为200,表示推送成功,可能返回以下字段:
| 字段 | 是否必选 | 参数类型 | 说明 |
|---|---|---|---|
| success | 是 | int | 成功推送的url条数 |
| remain | 是 | int | 当天剩余的可推送url条数 |
| not_same_site | 否 | array | 由于不是本站url而未处理的url列表 |
| not_valid | 否 | array | 不合法的url列表 |
// 成功返回示例:
{
"remain":4999998,
"success":2,
"not_same_site":[],
"not_valid":[]
}
- 状态码为4XX或500,表示推送失败,返回字段有:
| 字段 | 是否必选 | 参数类型 | 说明 |
|---|---|---|---|
| error | 是 | int | 错误码,与状态码相同 |
| message | 是 | string | 错误描述 |
常见的推送失败返回示例说明:
| error | message | 含义 |
|---|---|---|
| 400 | site error | 站点未在站长平台验证 |
| 400 | empty content | post内容为空 |
| 400 | only 2000 urls are allowed once | 每次最多只能提交2000条链接 |
| 400 | over quota | 超过每日配额了,超配额后再提交都是无效的 |
| 401 | token is not valid | token错误 |
| 404 | not found | 接口地址填写错误 |
| 500 | internal error, please try later | 服务器偶然异常,通常重试就会成功 |
API推送功能常见问题
- 和原来的sitemap提交接口有什么区别?
答:状态反馈更及时了,原来提交后需要登录到搜索资源平台查看提交是否成功。目前只要根据提交后返回的数据就可以判断了。
- 已经存在的提交sitemap数据的程序代码需要做什么修改?
答:主要修改两点。第一点,提交的接口需要修改;第二点,需要处理下接口返回的信息,失败后需要根据错误进行相应处理,报错的链接是无法提交成功的
- 为什么提交成功后看不到数据变化?
答:我们反馈的是新提交链接的数量,如果您提交的链接在之前提交过(即重复提交)是不会被统计到的
- 在什么时机使用API推送提交功能效果最明显?
答:页面链接产生或发布时立即提交,这样效果是最好的
- 每次提交一条数据和多条数据有什么区别?
答:没有区别
- 重复提交已经发布的链接会有什么问题?
答:会有两个影响。第一,将浪费您提交的配额,每个站点每天可提交的数量是有限制的,如果您都提交了旧链接,当有新链接时可能因为配额耗尽无法提交。第二,如果您经常重复提交旧链接,我们会下调您的配额,您可能会失去API推送功能的权限
- API推送可以推多少条链接?
答:API推送可提交的链接数量上限是根据您提交的新产生有价值链接数量而决定的,百度会根据您提交数量的情况不定期对上限额进行调整,提交的新产生有价值链接数量越多,可提交链接的上限越高。
什么是Sitemap
Sitemap(即站点地图)就是您网站上各网页的列表。创建并提交Sitemap有助于百度发现并了解您网站上的所有网页。您还可以使用Sitemap提供有关您网站的其他信息,如上次更新日期、Sitemap文件的更新频率等,供百度Spider参考。
百度对已提交的数据,不保证一定会抓取及索引所有网址。但是,我们会使用Sitemap中的数据来了解网站的结构等信息,这样可以帮助我们改进抓取策略,并在日后能更好地对网站进行抓取。
此外,Sitemap 与搜索排名没有关系。
百度Sitemap支持哪些格式
百度Sitemap协议支持文本格式和xml格式,可以根据自己情况来选择任意一种格式组织sitemap。具体格式说明及示例如下:
1. 第一种格式样例:txt文本格式
在一个txt文本列明需要向百度提交的链接地址,将txt文本文件通过搜索资源平台进行提交
http://www.example.com/repaste/101562698_5230191316.html
http://www.example.com/repaste/101586283_5230215075.html
http://www.example.com/repaste/101639435_5230310576.html
此文本文件需要遵循以下指南:
· 文本文件每行都必须有一个网址。网址中不能有换行。
· 不应包含网址列表以外的任何信息。
· 您必须书写完整的网址,包括 http。
· 每个文本文件最多可包含 50,000 个网址,并且应小于10MB(10,485,760字节)。如果网站所包含的网址超过 50,000 个,则可将列表分割成多个文本文件,然后分别添加每个文件。
· 文本文件需使用 UTF-8 编码或GBK编码。
2. 第二种格式样例:xml格式
单个xml数据格式如下:
<?xml version="1.0" encoding="utf-8"?>
<!-- XML文件需以utf-8编码-->
<urlset>
<!--必填标签-->
<url>
<!--必填标签,这是具体某一个链接的定义入口,每一条数据都要用<url>和</url>包含在里面,这是必须的 -->
<loc>http://www.yoursite.com/yoursite.html</loc>
<!--必填,URL链接地址,长度不得超过256字节-->
<lastmod>2009-12-14</lastmod>
<!--可以不提交该标签,用来指定该链接的最后更新时间-->
<changefreq>daily</changefreq>
<!--可以不提交该标签,用这个标签告诉此链接可能会出现的更新频率 -->
<priority>0.8</priority>
<!--可以不提交该标签,用来指定此链接相对于其他链接的优先权比值,此值定于0.0-1.0之间-->
</url>
<url>
<loc>http://www.yoursite.com/yoursite2.html</loc>
<lastmod>2010-05-01</lastmod>
<changefreq>daily</changefreq>
<priority>0.8</priority>
</url>
</urlset>
上述Sitemap向百度提交了一个url:http://www.yoursite.com/yoursite.html
若有多条url,按照上述格式重复
创建Sitemap时有哪些注意事项?
. 第一,一个Sitemap文件包含的网址不得超过 5 万个,且文件大小不得超过 10 MB。如果您的Sitemap超过了这些限值,请将其拆分为几个小的Sitemap。这些限制条件有助于确保您的网络服务器不会因提供大文件而超载。
. 第二,一个站点支持提交的sitemap链接个数必须小于5万个,多于5万个后会不再处理,并显示“链接数超”的提示。
. 第三,如果验证了网站的主域,那么Sitemap文件中可包含该网站主域下的所有网址。
. 第四,搜索资源平台sitemap文件提交已不再支持索引型文件形式,历史提交的索引型文件已不再进行抓取,建议站长及时删除,重新进行资源提交。
如何提交Sitemap
. 第一步,将需提交的网页列表制作成一个Sitemap文件,文件格式请阅读百度Sitemap协议都支持哪些格式。
. 第二步,将Sitemap文件放置在网站目录下。比如您的网站为example.com,您已制作了一个sitemap_example.xml的Sitemap文件,将sitemap_example.xml上传至网站根目录即example.com/sitemap_example.xml
. 第三步,登录百度搜索资源平台,确保提交Sitemap数据的网站已验证归属。
. 第四步,进入Sitemap工具,点击“添加新数据”,文件类型选择“URL列表”,填写抓取周期和Sitemap文件地址
. 最后,提交完之后,可在Sitemap列表里看到提交的Sitemap文件,如果Sitemap文件里面有新的网站链接,可以选择文件后,点击更新所选,即对更新的网站链接进行了提交。
如何查看sitemap文件提交配额
为了提升站点提交的优质资源的处理效率,搜索资源平台对平台工具的sitemap文件提交配额进行限制,包括“资源提交-普通收录-sitemap提交”,平台将基于站点资源质量和搜索用户喜欢程度综合评估计算站点提交配额;站点不同,提交配额也可能不同。
在平台工具“资源提交-普通收录-sitemap提交”界面,可查看普通收录工具的天级提交配额和存量文件配额。 如果提交资源中存在大量重复、违规、低质等无效资源,平台将基于影响程度降低配额。请开发者基于自身资源情况合理分配额度,持续提交优质资源。 针对当前存量sitemap文件超出配额的站点,建议及时删除超额的文件,避免后续系统自动清除,对站点资源造成影响。
什么是移动Sitemap协议,如何提交移动Sitemap协议
百度推出了移动Sitemap协议,用于将网址提交给移动搜索收录。百度移动Sitemap协议是在标准Sitemap协议基础上制定的,增加了<mobile:mobile/>标签,它有四种取值:
<mobile:mobile/> :移动网页
<mobile:mobile type="mobile"/> :移动网页
<mobile:mobile type="pc,mobile"/>:自适应网页
<mobile:mobile type="htmladapt"/>:代码适配
下方样例相当于向百度移动搜索提交了一个移动网页:http://m.example.com/index.html,向PC搜索提交了一个传统网页:http://www.example.com/index.html,同时向移动搜索和PC搜索提交了一个自适配网页http://www.example.com/autoadapt.html:
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9" xmlns:mobile="http://www.baidu.com/schemas/sitemap-mobile/1/">
<url>
<loc>http://m.example.com/index.html</loc>
<mobile:mobile type="mobile"/>
<lastmod>2009-12-14</lastmod>
<changefreq>daily</changefreq>
<priority>0.8</priority>
</url>
<url>
<loc>http://www.example.com/index.html</loc>
<lastmod>2009-12-14</lastmod>
<changefreq>daily</changefreq>
<priority>0.8</priority>
</url>
<url>
<loc>http://www.example.com/autoadapt.html</loc>
<mobile:mobile type="pc,mobile"/>
<lastmod>2009-12-14</lastmod>
<changefreq>daily</changefreq>
<priority>0.8</priority>
</url>
<url>
<loc>http://www.example.com/htmladapt.html</loc>
<mobile:mobile type="htmladapt"/>
<lastmod>2009-12-14</lastmod>
<changefreq>daily</changefreq>
<priority>0.8</priority>
</url>
</urlset>
按照移动Sitemap协议做好Sitemap后,在Sitemap工具点击添加新数据提交,与提交普通Sitemap方式一致。
我提交时填写的周期是什么含义?
百度Spider会参考设置周期抓取Sitemap文件,因此请根据Sitemap文件内容的更新(比如增加新url)来设置。请注意若url不变而仅是url对应的页面内容更新(比如论坛帖子页有新回复内容),不在此更新范围内。Sitemap工具不能解决页面更新问题。
Sitemap提交后,多久能被百度处理?
Sitemap数据提交后,一般在1小时内百度会开始处理。在以后的调度抓取中,如果您的sitemap支持etag,我们会更频繁抓取sitemap文件,从而及时发现内容更新;否则抓取的周期会比较长。
提交的Sitemap都会被百度抓取并收录吗?
百度对已提交的数据,不保证一定会抓取及收录所有网址。是否收录与页面质量相关。
XML格式的 Sitemap 中,“priority”提示会影响我的网页在搜索结果中的排名吗?
不会。Sitemap 中的“priority”提示只是说明该网址相对于您自己网站上其他网址的重要性,并不会影响网页在搜索结果中的排名。
网址在 Sitemap 中的位置是否会影响它的使用?
不会。网址在 Sitemap 中的位置并不会影响百度对它的识别或使用方式。
Sitemap中提交的url能否包含中文?
因为转码问题建议最好不要包含中文。
3. 快速抓取
什么是快速抓取
站长可通过快速抓取工具,向百度spider主动推送资源,缩短爬虫发现网站链接的时间,通过快速抓取提交的资源将优先抓取,对是否收录及线上展现效果不保证。
快速抓取资源如何提交
快速抓取包含手动提交和API提交两种方式,使用API提交时请使用平台提供的最新接口进行推送。
(1)手动提交
快速抓取 -> 资源提交 -> 手动提交
(2)API提交
快速抓取 -> 资源提交 -> API提交
4. 死链提交
什么是死链&死链的标准
页面已经无效,无法对用户提供任何有价值信息的页面就是死链接,包括协议死链和内容死链两种形式:
1)协议死链:页面的TCP协议状态/HTTP协议状态明确表示的死链,常见的如404、403、503状态等。
2)内容死链:服务器返回状态是正常的,但内容已经变更为不存在、已删除或需要权限等与原内容无关的信息页面。
目前内容死链召回存在召回率的风险,所以建议各位站长尽量使用协议死链,以保证平台工具更好地发挥其作用。
为什么要使用死链工具
当网站死链数据累积过多时,并且被展示到搜索结果页中,对网站本身的访问体验和用户转化都起到了负面影响。另一方面,百度检查死链的流程也会为网站带来额外负担,影响网站其他正常页面的抓取和索引。
如何使用死链工具
第一步,处理网站已存在的死链,制作死链文件筛查网站内部存在的死链,并将这些死链页面设置成为404页面,即百度访问它们时返回404代码。将需提交的死链列表制作成一个死链文件,制作方法请参阅帮助文档(与sitemap格式及制作方法一致)
第二步,将死链文件放置在网站根目录下 比如您的网站为example.com,您已制作了一个silian_example.xml死链文件,则将silian_example.xml上传至网站根目录即example.com/silian_example.xml。特别提醒,索引型死链sitemap文件不予处理,请勿提交索引型死链sitemap文件。
第三步,登录百度搜索资源平台
第四步,提交网站并验证归属:具体验证网站归属方法可见帮助文档
第五步,提交死链数据
1.通过搜索资源平台-搜索服务-资源提交-死链提交,到达操作页面;
2.填写死链文件更新周期,可选“每隔xx小时/天更新一次”;
3.填写死链文件地址,请留意提交框右侧的配额提示;
4.管理已提交的死链列表,可查看死链文件状态和死链处理状态。
提交完之后,可在死链工具列表里看到提交的死链文件,如果死链文件里面有新的死链,可以选择文件后,点击更新所选,即对更新的死链链接进行了提交。整体流程如下图:
死链提交工具常见问题
问:百度不是会自动识别死链吗?这个工具有什么附加作用?
答:Baiduspider发现并处理死链是需要时间的,使用工具可以将最耗时的“发现”过程缩到最短。同时死链提交工具还可以与其它平台工具配合使用。
问:死链提交工具的生效周期是怎样的?
答:死链抓取后生效时间为一周,如超时未生效,请在反馈中心提交反馈。
问:百度死链提交支持这种形式吗?*.a.example.com
答:不支持,需要做成xml或txt文件上传提交。
问:提交死链的文件和sitemap中的URL列表有冲突会不会有负面影响
答:如果该url为死链,不会通过sitemap收录该url;如果该url为活链,有可能影响死链文件的整体生效。
问:死链提交工具直接提交一整个目录吗?
答:不可以,目前没有此功能。
问:死链提交工具支持索引型sitemap文件吗?
答:不支持,请勿提交索引型死链sitemap文件。
5. 网站改版
当一个站点的域名或者目录发生变化时,如果想让百度快速收录变化之后的新链接、用以替换之前的旧链接,那么您就需要使用百度搜索资源平台的网站改版工具来提交您的改版关系,加速百度对已收录链接的新旧替换。
使用网站改版工具前,站点应该做哪些工作
1)首先您要将改版前的旧链接全部通过301跳转到改版后的新链接,并且这种跳转必须是一一对应的关系,不能出现多条旧链接跳转到一条新链接,或者一条旧链接在不同时间内跳转到不同新链接的情况。
2)如果改版后产生新的站点,无论是www主站点还是二级域名,都需要将新站点在百度搜索资源平台进行验证,以保证明您拥有该站点的管理权限。
网站改版工具如何使用
目前网站改工具支持以下方式的改版:
1)换域名:仅域名发生了变换,如www.a.com变为www.b.com,而目录结构没有任何变化。可以在网站改版工具的“添加改版规则”——“站点改版”处,添加改版前后的两个域名,提交即可。注意此处提交的前后域名必须是不同的。
2)目录结构改版:不管域名是否改变,目录结构发生了变化,如www.a.com/a变为www.a.com/b,或又如www.a.com/c变为c.a.com。可以在网站改版工具的“添加改版规则”——“规则改版”处,提交新旧目录正则式,正则式的书写方式详见下方说明
3)部分URL改版:当您的网站点仅有部分URL发生了改版,正则式不能满足改版形式的表达,或前两种方式提交的规则校验失败,您还可以通过提交url对文件,将已经改版的旧链接和对应的新链接提交给百度:文件格式为每行前后两个url,分别是改版前旧链接和跳转后新链接,中间用空格分隔,一个文件最多可以提交5万对url,您可以提交多个文件。另外您还可以在输入框中直接输入url对,格式与文件相同,但这处一次性仅限提交2000对url。
在您提交改版规则后, 网站改版工具会提供状态说明:
1)规则校验中:百度搜索资源平台会对管理员提交的改版规则进行校验,当认为实际情况与您提交的规则相符时,才会对规则进行生效处理,这个校验时间最长为2小时。
a、涉及的改版url较多,校验时间长,建议使用规则改版,否则可能影响改版正常校验任务。
b、改版规则混乱,一条链接同时存在于多个改版形式中,需自查规则,并删除改版文件,重新提交改版;
2)校验失败:当百度搜索资源平台发现站点存在如下问题时,会判为校验失败,不会进行后续的生效处理。您可以点击查看具体错误原因,优化后重新提交改版规则。
a、提交重复规则:提示“同时存在A规则与B规则中”,当前提交的规则包含了正在生效的规则(状态为改版中或改版完成),则认定新提交的规则无效,您需要删除旧规则后再提交新规则,或者直接修改新规则。
b、未设置301跳转:对于存在改版关系的url对,我们要求旧链接单级301跳转到新链接。
c、旧链抓取失败:改版规则中旧链接无法正常访问。
d、新链抓取失败:改版规则中新链接、即跳转过去的链接无法正常访问。
e、跳转关系与规则不符:您提交的三种规则必须是真实的url对跳转关系,否则不予通过。
f、url与所提交站点不匹配:三种规则都会要求您填写新旧链接对应的站点信息,如果提交的url对与站点信息不匹配会报此错误信息。
g、非单级301跳转:存在非301跳转状态码,如存在200状态码;存在多级跳转码,301状态码和403状态码同时存在,301状态码和301状态码同时存在。
h、正则格式不正确:请按照规定的格式进行填写,详见:“正则格式说明”。
i、url对文件格式不正确:要求的url对文件格式为:每行有两个url,用空格分隔,最多5万行。
j、多跳一:链接跳转关系中出现了多条链接跳转到一条链接的情况。
k、一跳多:一条旧链接在不同时间内跳转到不同新链接等情况。
这些错误信息会抽样展示在错误详情页面中。
3)部分改版中:部分url校验失败,您可以点击查看具体错误原因,优化后重新提交。
4)无需改版:网站改版工具只适用于改版前的旧链接已被百度收录,对于未收录的旧链接,我们无法进行处理。
5)改版进行中:您提交的改版规则通过校验后,百度搜索资源平台会进行生效处理,这个过程最长为48小时。
6)改版完成:百度已经根据您提交的改版规则对新旧链接进行了替换。
请注意,改版完成后,请尽可能长时间(至少三个月)保持新旧链接的跳转关系,流量会逐渐转到新网站,待新站流量完全稳定,网站避免出现校验失败原因中的问题。
网站改版工具注意事项
1)改版规则中的新旧链接一定要使用301的方式进行跳转,否则会导致校验失败,您可以按如下方式进行自查:
终端输入:curl -I -L+改版前旧链接,如出现单级跳转301,即符合改版规则,如存在非301跳转或多级跳转,则不符合改版规则,建议优化网站跳转关系。
2)建议您尽量使用站点改版和规则改版,会有比较短的处理周期,也缩短后续您反馈问题的追查用时。
3)百度搜索资源平台将在72小时内对改规则进行校验并推送生效。
4)改版完成后不要立即清除跳转关系,保持跳转关系至少三个月,网站避免出现校验失败原因中的问题。
网站改版其他参考文档 :
(1)《网站改版的影响》
(2)《网站改版注意事项》
(3)《网站改版工具如何使用》
正则格式说明
以站点news.a.com改版到站点a.com/news为例:
改版前url地址为http://news.a.com/09/1001/07/5KH8DE1F000120GR.html,
其对应的改版后url地址为http://a.com/news/09/1001/07/5KH8DE1F000120GR.html
步骤一:确定改版前链接中的可替换参数或者路径,得到其位置序号和类型。
改版前页url: http://news.a.com/09/1001/07/5KH8DE1F000120GR.html
根据网站自身url的层次结构,其中09,1001,07和5KH8DE1F000120GR为动态可替换的路径。除5KH8DE1F000120GR为字母和数字混合外,其余均为纯数字。
步骤二:根据可替换参数或路径的类型,得到改版后链接的表达形式。 使用正则匹配符号(\d+)或者(\w+)表示该路径或参数。(\d+)表示纯数字字符串,(\w+)表示字母数字下划线组成的字符串。
步骤三:根据改版后url,以及可替换参数在步骤一中的位置序号,依次用'${1},${2},……表示替换掉改版前url中的可替换参数或路径,得到改版后链接pattern形式。
至此,便得到了改版前后的规则:
http://news.a.com /(\d+)/(\d+)/(\d+)/(\w+).html
http://a.com/news/${1}/${2}/${3}/${4}.html
6. 索引量
什么是站点索引量
站点中有多少页面可以作为搜索候选结果,就是一个网站的索引量。站点内容页面需要经过搜索引擎的抓取和层层筛选后,方可在搜索结果中展现给用户。页面通过系统筛选,并被作为搜索候选结果的过程,即为建立索引。
如何使用百度索引量工具
第一步,注册并登录百度搜索资源平台;
第二步,提交网站并验证归属,具体验证网站归属方法可见帮助文档;
第三步,选择“搜索服务-数据统计-索引量”,制定百度索引量查看规则
第四步,得到站点的百度索引量数据。
索引量仅指被百度搜索引擎建立了索引的网页总量,表示网站中有多少页面可以作为搜索候选结果,不同网页因内容重要性、稀缺性不同,被展现的几率有很大差别。也就是说网站有1亿个网页被建立索引,也许真正能获得流量的仅有100个页面。所以站长不必过份关注索引量,正确的做法是索引量与流量结合起来看:当发现流量发生较大变化时可以从索引量数据分析原因。反之即使索引量有巨大波动,只要流量没有发生巨大变化也不必激动。
百度索引量工具常见问题
问:工具里展示的数据是每天更新吗?怎么有时过了两天还没有更新?
答:百度索引数据最快每天更新一次,最迟一周更新一次,不同站点的更新日期可能不同
问:索引量数据会保存多久?
答:您可以查询到近一年中每天的索引量数据,一年前的索引量数据为每月索引量数据
问:索引量下降常见原因及解决方案有哪些?
答:可参考索引量下降常见原因及解决方案内容
关于索引量,你必须知道的事
网站被Baiduspider抓取后,经过一系列计划才得以建入索引库,有了和搜索用户见面的机会。所以,索引量一直是站长们关注的焦点,但我们发现,依然有很多站长对索引量存在误读。于是学院整理了一些常见问题,纠正一些错误的看法。
误:站长可以通过site查询站点收录量
正:索引量数据以百度搜索资源平台索引量工具为准,SITE仅为估值
误:索引量增加了,流量就会多;索引量减少,流量危险
正:索引量分多个层级,进入上层索引库才有更多与搜索用户见面的机会;进入下层库机会渺茫。所以,索引量总体的增加减少并不能说明流量会有什么变化
误:站长应该每天查看索引量数据,发现不符合预期的变化就反馈
正:当流量发生巨大变化时,索引量数据可以作为排查原因的渠道之一,其余时间没有必要天天关注
误:索引量只能增加不能减少
正:索引量上下浮动10%,甚至更多,都可能属于正常。只要流量变化不大就不用紧张。
7. 流量与关键词
流量与关键词工具,提供站点的热门关键词在百度搜索结果中的展现及点击量数据,同时提供关键词定制功能,方便网站根据需求设置需要重点关注的关键词,通过对关键词表现情况的监控,帮助网站更好进行优化,工具旨在全面帮助站长了解网站在百度搜索引擎中的表现,决定页面及网站的优化方向,为网站运营决策提供分析依据。
搜索关键词工具里出现的展现量、点击量、点击率、排名都是什么?
展现量:搜索用户在百度搜索引擎查询某关键词时,看到您网站的次数;
点击量:仅统计从百度搜索结果页点击进入您网站的次数;
点击率:点击量和展现量的比值,在一定程度上表征了网站的优化空间,点击率越小,网站的优化空间越大;
排名:在热门关键词和热门页面列表中给出的排名是平均排名,表征在相应时间段内,搜索用户在查询某关键词时,落地页在百度搜索结果页的平均排名,是统计数据。
热门关键词和热门页面分别指什么?
热门关键词:用户在百度搜索引擎中进行查询时,您网站获得流量(点击量)较多的关键词。工具最多可以提供5W个关键词,默认按点击量降序排序。您可以通过热门关键词,查看用户通过相应的关键词访问了哪些页面。
热门页面:用户在百度搜索引擎中进行查询时,您网站中获得流量(点击量)较多的URL。工具最多可以提供5W个热门页面,默认按点击量降序排序。您可以通过热门页面,查看到达相应页面的关键词。
使用搜索关键词工具能给您带来什么?
搜索关键词工具不仅能够提供网站天级、周级及月度展现量、点击量数据,还能够提供站点的热门关键词在百度搜索结果中的展现及点击量数据,及网站热门关键词在今天(有大约5小时的数据延迟)、昨天、最近7天、最近30天、30天内自定义时间段等不同时间维度的展现量及点击量数据,最高可展现5W条关键词数据。工具旨在全面帮助站长了解网站在百度搜索引擎中的表现,决定页面及网站的优化方向,为网站运营决策提供分析依据。
8. 抓取异常
什么是抓取异常
Baiduspider无法正常抓取,就是抓取异常。
抓取异常对网站有哪些影响
对于大量内容无法正常抓取的网站,搜索引擎会认为网站存在用户体验上的缺陷,并降低对网站的评价,在抓取、索引、权重上都会受到一定程度的负面影响,最终影响到网站从百度获取的流量。
抓取异常的原因有哪些
一、网站异常
1、dns异常
当Baiduspider无法解析您网站的IP时,会出现DNS异常。可能是您的网站IP地址错误,或者域名服务商把Baiduspider封禁。请使用WHOIS或者host查询自己网站IP地址是否正确且可解析,如果不正确或无法解析,请与域名注册商联系,更新您的IP地址。
2、连接超时
抓取请求连接超时,可能原因服务器过载,网络不稳定
3、抓取超时
抓取请求连接建立后,下载页面速度过慢,导致超时,可能原因服务器过载,带宽不足
4、连接错误
无法连接或者连接建立后对方服务器拒绝
二、链接异常
1、访问被拒绝
爬虫发起抓取,httpcode返回码是403
2、找不到页面
爬虫发起抓取,httpcode返回码是404
3、服务器错误
爬虫发起抓取,httpcode返回码是5XX
4、其他错误
爬虫发起抓取,httpcode返回码是4XX,不包括403和404
8. 抓取诊断
什么是抓取诊断
抓取诊断工具,可以让站长从百度蜘蛛的视角查看抓取内容,自助诊断百度蜘蛛看到的内容,和预期是否一致。每个站点每周可使用70次,抓取结果只展现百度蜘蛛可见的前200KB内容。
抓取诊断工具能做什么
目前抓取诊断工具有如下作用:
1、诊断抓取内容是否符合预期,譬如很多商品详情页面,价格信息是通过JavaScript输出的,对百度蜘蛛不友好,价格信息较难在搜索中应用。问题修正后,可用诊断工具再次抓取检验。
2、诊断网页是否被加了黒链、隐藏文本。网站如果被黑,可能被加上隐藏的链接,这些链可能只在百度抓取时才出现,需要用此抓取工具诊断。
3、检查网站与百度的连接是否畅通,若是IP信息不一致,可以报错通知百度更新IP。
抓取诊断工具常见错误类型解析
1、url规范
百度支持抓取的url长度不超过1024,如果您的链接长度过长,请在保证正常访问的情况下,适当精简,保证链接能被百度正常抓取和收录。
2、重定向错误
重定向是指百度spider访问链接时发生了跳转,如果跳转后的链接超长或者连续跳转的次数超过5次,就会发生重定向错误而导致抓取失败。
3、服务器连接错误
这种情况是指,由于服务器响应过慢或您的网站屏蔽了百度spider,而导致百度无法访问您的网站。从而会导致百度无法正常收录或者更新您网站的内容。您可能看到以下具体错误:连接超时、连接失败、连接被拒、无响应、响应遭到截断、连接重置、标头遭到截断、超时。
- 如何处理服务器连接错误?
(1)减少动态网页请求的过多网页加载。如果网站为多个网址提供相同内容,则会被视为动态提供内容(例如,www.example.com/shoes.php?color=red&size=7与www.example.com/shoes.php?size=7&color=red提供的内容相同)。动态网页的响应时间可能会很长,并会因此导致超时问题。或者,服务器可能会返回超载状态,要求百度spider放慢抓取该网站的速度。一般来说,建议您尽量使用简短的参数并谨慎使用。
(2)确保您网站的托管服务器没有停止运行、超载或配置不当。如果连接问题、超时问题或响应问题仍然存在,请与您的网站托管服务提供商联系,并考虑增强您的网站处理流量的能力。
(3)检查网站是否不小心屏蔽了百度spider的IP。您可能会由于系统级问题而阻止了百度访问,例如DNS配置问题、配置不当的防火墙或DoS防护系统、内容管理系统配置问题。防御系统是保证托管服务正常运行的关键因素之一,并且这些系统通常会配置为自动阻止超量的服务器请求。由于百度spider发出的请求通常要比普通用户多,因此可能会触发这些防御系统,导致它们阻止百度spider访问并抓取您的网站。要解决此类问题,您需要确定网站基础架构中的哪个部分在阻止百度spider,然后取消该阻止。如果您没有控制防火墙的权限,就需要与您的托管服务提供商联系解决此问题。
4、robots封禁问题
在抓取诊断工具中如果返回的抓取失败结论是robots封禁,请确认您是否对该网址设置了robots,阻止百度spider抓取网站的某些内容,如果您未使用robots文件屏蔽百度,请点击旁边的报错链接,百度会立即更新您站点的robots信息;如果是您的误操作导致了封禁,请及时修改robots文件,避免造成您的网站在百度收录量和流量的下降。
5、DNS问题
DNS错误是指由于服务器停止运行或DNS到您网域的路由存在问题,导致百度spider无法与DNS服务器通信。
- 如何处理DNS错误?
(1)确保百度能够抓取您的网站。对重要网页(例如您的首页)采用抓取诊断工具,如果它能顺利返回您的首页内容,那么您就可以认为百度能够正常访问您的网站。
(2)对于持续的或反复出现的DNS错误,请与您的DNS提供商联系。通常情况下,您的DNS提供商即为网站托管服务提供商。
(3)配置您的服务器,使其能够以404或500等HTTP错误代码对不存在的主机名作出响应。
6、404错误
一般情况下,当百度spider访问到不存在的网页(因为您删除或重命名了网页且没有将旧网址重定向到新网页,或者链接中存在拼写错误)时,就会出现“未找到”状态错误(通常是404 HTTP状态代码)。
7、访问遭拒绝
一般情况下,百度会通过跟踪网页间的链接来查找内容。百度spider必须能够访问某个网页才能抓取该网页。如果您意外地看到了“访问遭拒”错误,可能是由于以下几种原因导致的:
(1)百度spider无法访问您网站上的网址,因为您网站上的所有或部分内容要求用户登录后才能查看。
(2)您的服务器要求用户使用代理进行身份验证,或者您的托管服务提供商阻止百度spider访问您的网站。
8、参数错误
由于请求的语法格式有误,不符合服务器对请求的某些限制,或者请求本身存在一定的错误,服务器无法理解此请求,导致抓取失败。
9、socket读写错误
当百度spider访问服务器,进行tcp通信的时候,socket读写发生异常,导致数据不能正常返回。请检查服务器连接状况和防火墙设置是否符合预期。
10、读取http头或者页面内容时失败
您的服务器收到了我们的完整请求,但是返回信息时不完整,http头或者响应正文发生了截断,导致网页内容不能正常读取。
10. robots
什么是robots文件
Robots是站点与spider沟通的重要渠道,站点通过robots文件声明本网站中不想被搜索引擎抓取的部分或者指定搜索引擎只抓取特定的部分。
搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。spider在访问一个网站时,会首先会检查该网站的根域下是否有一个叫做 robots.txt的纯文本文件,这个文件用于指定spider在您网站上的抓取范围。您可以在您的网站中创建一个robots.txt,在文件中声明 该网站中不想被搜索引擎抓取的部分或者指定搜索引擎只抓取特定的部分。
请注意,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎抓取网站上所有内容,请勿建立robots.txt文件。
robots.txt文件放在哪里?
robots.txt文件应该放置在网站根目录下。举例来说,当spider访问一个网站时,首先会检查该网站中是否存在http://www.***.com/robots.txt这个文件,如果 Spider找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。您可以通过robots工具来创建、校验、更新您的robots.txt文件,或查看您网站robots.txt文件在百度生效的情况。
robots工具目前支持48k的文件内容检测,请保证您的robots.txt文件不要过大,目录最长不超过250个字符。如需检测未验证站点的robots设置,请点击此处进行检测。
robots.txt文件的格式
robots文件往往放置于根目录下,包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示:<field>:<optional space><value><optionalspace>在该文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow和Allow行,详细情况如下:
User-agent: 该项的值用于描述搜索引擎robot的名字。在”robots.txt”文件中,如果有多条User-agent记录说明有多个robot会受到”robots.txt”的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则对任何robot均有效,在”robots.txt”文件中,“User-agent:*“这样的记录只能有一条。如果在”robots.txt”文件中,加入”User-agent:SomeBot”和若干Disallow、Allow行,那么名为”SomeBot”只受到”User-agent:SomeBot”后面的 Disallow和Allow行的限制。
Disallow: 该项的值用于描述不希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的非空前缀,以Disallow项的值开头的URL不会被 robot访问。例如”Disallow:/help”禁止robot访问/help.html、/helpabc.html、/help/index.html,而”Disallow:/help/“则允许robot访问/help.html、/helpabc.html,不能访问/help/index.html。“Disallow:“说明允许robot访问该网站的所有url,在”/robots.txt”文件中,至少要有一条Disallow记录。如果”/robots.txt”不存在或者为空文件,则对于所有的搜索引擎robot,该网站都是开放的。
Allow: 该项的值用于描述希望被访问的一组URL,与Disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀,以Allow项的值开头的URL 是允许robot访问的。例如”Allow:/hibaidu”允许robot访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。一个网站的所有URL默认是Allow的,所以Allow通常与Disallow搭配使用,实现允许访问一部分网页同时禁止访问其它所有URL的功能。
使用"*"and"$”: Baiduspider支持使用通配符”*“和”$“来模糊匹配url。
”*” 匹配0或多个任意字符
”$” 匹配行结束符。
最后需要说明的是:百度会严格遵守robots的相关协议,请注意区分您不想被抓取或收录的目录的大小写,百度会对robots中所写的文件和您不想被抓取和收录的目录做精确匹配,否则robots协议无法生效。
robots.txt文件用法举例
robots.txt 配置示例说明
| 示例场景 | 配置内容 |
|---|---|
| 例1. 禁止所有搜索引擎访问网站的任何部分 | <br>User-agent: *<br>Disallow: /<br> |
| 例2. 允许所有的robot访问 (或者也可以建一个空文件 “robots.txt”) | <br>User-agent: *<br>Allow: /<br> |
| 例3. 仅禁止Baiduspider访问您的网站 | <br>User-agent: Baiduspider<br>Disallow: /<br>User-agent: Baiduspider<br>Allow: /<br> |
| 例4. 仅允许Baiduspider访问您的网站 | <br>User-agent: *<br>Disallow: /<br>User-agent: Baiduspider<br>Allow: /<br> |
| 例5. 仅允许Baiduspider以及Googlebot访问 | <br>User-agent: Googlebot<br>Allow: /<br>User-agent: *<br>Disallow: /<br> |
| 例6. 禁止spider访问特定目录 (该网站有三个目录对搜索引擎的访问做了限制,即robot不会访问这三个目录。需要注意的是对每一个目录必须分开声明,而不能写成”Disallow: /cgi-bin/ /temp/ /~joe/“) | <br>User-agent: *<br>Disallow: /cgi-bin/<br>Disallow: /~joe<br> |
| 例7. 允许访问特定目录中的部分url | <br>Allow: /tmphi User-agent: *<br>Allow: /~joe/look Allow: /cgi-bin/see<br>Disallow: /cgi-bin/<br>Disallow: /tmp/<br>Disallow: /~joe/<br> |
| 例8. 使用“*”限制访问url (禁止访问/cgi-bin目录下的所有以”htm”为后缀的URL(包含子目录)) | <br>User-agent: *<br>Disallow: /cgi-bin/*.htm<br> |
| 例9. 使用“$”限制访问url (仅允许访问以”.htm”为后缀的URL) | <br>Allow: /*.htm$ User-agent: *<br>Disallow: /<br> |
| 例10. 禁止访问网站中所有的动态页面 | <br>User-agent: *<br>Disallow: /*?*<br> |
| 例11. 禁止Baiduspider抓取网站上所有图片 (仅允许抓取网页,禁止抓取任何图片) | <br>User-agent: Baiduspider<br>Disallow: /*.jpg$<br>Disallow: /*.jpeg$<br>Disallow: /*.gif$<br>Disallow: /*.png$<br>Disallow: /*.bmp$<br> |
| 例12. 仅允许Baiduspider抓取网页和gif格式图片 (允许抓取网页和gif格式图片,不允许抓取其他格式图片) | <br>User-agent: Baiduspider<br>Allow: /*.gif$<br>Disallow: /*.jpg$<br>Disallow: /*.jpeg$<br>Disallow: /*.png$<br>Disallow: /*.bmp$<br> |
| 例13. 仅允许Baiduspider抓取jpg格式图片 | User-agent: Baiduspider Disallow: /*.jpg$ |
11. 反馈中心
什么是反馈中心
反馈中心是百度搜索资源平台开放给站长的沟通反馈渠道,站长管理的站点在百度网页搜索、移动搜索、新闻搜索中遇到问题,或是在使用百度搜索资源平台工具时遇到问题,可以通过反馈中心提交反馈。
如何使用反馈中心
当站点遇到问题时,首先请通过搜索资源平台工具或学院文章,对网站进行自查。 若自查后无法解决,请在反馈中心选择遇到问题的站点,之后选择产品分类,即网站是在网页搜索、移动搜索、新闻搜索或站长工具使用中遇到问题。然后选择对应的问题分类,最后根据页面提示,进行详细描述。您对问题的描述越清晰,越有助于我们快速地定位和解决问题。 建议同样的问题不要重复投诉。
站长关心的热门问题
搜索结果logo展现异常怎么办?
如果网站有logo权限,可以提交新的logo到资源平台,logo提交后通常会在1周到2周内进行审核和在首页展现。如果网站没有logo权限,可以前往反馈中心进行反馈。
#### 新建的网站未收录怎么办?
答:页面是否被收录,与页面是否具有价值有关,原则上内容越贴近用户的搜索需要,网页就会越快地被搜索引擎收录。但通常情况下页面从产生到收录需要一定周期,时间从几分钟到几天不等,这取决于网页的搜索价值和重要性的高低。长时间不收录的原因可能包括:
1) 页面被惩罚整站或目录没有进行收录,
2) 网页没有被搜索引擎发现,因为网页没有放置外部链接,本身是个孤岛页面。
针对第一种情况,首先请查看网站是否出现过无法打开或连通异常的状况,可以接助站长平台抓取诊断工具来进行判断。同时查看网站是否有过不良信息的收录,如果网站已经恢复正常并可以正常连通和抓取,可以提交到反馈中心进行反馈。针对网站始终没有被百度抓取的情况,建议您使用搜索资源平台的普通收录工具进行提交。
网站在搜索url或使用domain语法搜索时,出现了不相关的结果的问题?
答:通常情况下,搜索url是为了确定该页面是否已被搜索引擎收录,除此以外的其他自然结果,均为以该url作为关键词,在网页库中进行搜索而得出的自然结果。这些自然结果的内容如何,与网页所处的网站是否存在问题并无关联。
12. 抓取频次
什么是抓取频次
抓取频次是搜索引擎在单位时间内(天级)对网站服务器抓取的总次数,如果搜索引擎对站点的抓取频次过高,很有可能造成服务器不稳定,Baiduspider会根据网站内容更新频率和服务器压力等因素自动调整抓取频次。
什么情况下可以进行抓取频次上限调整
首先,Baiduspider会根据网站服务器压力自动进行抓取频次调整。其次,如果Baiduspider的抓取影响了网站稳定性,站长可以通过此工具调节Baiduspider每天抓取您网站的频次上限。
强调1:调整抓取频次上限不等于调高抓取频次。
强调2:建议您慎重调节抓取频次上限值,如果抓取频次过小则会影响Baiduspider对网站的收录。
13. 站点子链
站点子链是用户在百度搜索网站相关关键词时,出现的这些关键信息能在百度搜索结果中以“站点子链”的形式展现,用以提升网站的展示范围和搜索体验,由于用户搜索需求发生变化会导致子链展示被调整,所以最终效果以实际展示为准。
如何设置站点子链?
站长可以通过“搜索资源平台-搜索服务-搜索展现-站点子链”提交站点子链。
1、若主链为主站,推荐添加重要的子站点作为子链数据;若主链为子站点,推荐添加重要频道页作为子链数据。
2、百度只支持2条、4条、6条子链接的展现样式;对已提交的子链您可以进行标题、摘要的修改操作。
3、当您判断已展现的子链不符合要求时,可以执行删除操作,删除生效后下方数据列表会同步删除。
4、百度会将您提交的数据仔细评估并作为重要的参考依据,但不保证一定会采纳。
5、对于已生效的数据,百度会根据搜索用户当前需求进行展现,不保证会全部展现。
6、您可以根据重要程度对子链进行排序,百度会根据您设定的排序综合评估确定最终的展现顺序。
14. 移动适配
什么是移动适配,移动适配工具的作用
提升搜索用户在百度移动搜索的检索体验,会给对应PC页面的手机页面在搜索结果处有更多的展现机会,需要站点向百度提交主体内容相同的PC页面与移动页面的对应关系,即为移动适配。为此,百度移动搜索提供“移动适配”服务,如果您同时拥有PC站和手机站,且二者能够在内容上对应,即主体内容完全相同,您可以通过移动适配工具进行对应关系提交。
站长通过移动适配工具提交pattern级别或者url级别的PC页与手机页对应关系,若可以成功通过校验,将有助于百度移动搜索将移动用户直接送入对应的手机页结果。积极参与“移动适配”,将有助于您的手机站在百度移动搜索获得更多流量,同时以更佳的浏览效果赢取用户口碑。
移动适配工具如何使用
当您同时拥有移动站点和PC站点、且移动页面和PC页面的主体内容完全相同,就可以在通过百度搜索资源平台提交正确的适配关系,获取更多移动流量。
第一步,注册并登录百度搜索资源平台
第二步,提交PC网站并验证站点与ID的归属关系,具体验证网站归属方法可见帮助文档
第三步,站点验证后,进入“搜索服务”——“资源提交”——“移动适配”,选择具体需要进行移动适配的PC站,然后“添加适配关系”
第四步,根据自己提交的适配数据特点,选择适合您的提交方式:
目前移动适配工具支持规则适配提交URL适配提交,无论您使用哪种方式都需要先指定PC与移动站点,此举可以令平台更加快速地检验您提交的数据、给出反馈,顺利生效。同时您在之后步骤中提交的适配数据中必须包含指定的站点,否则会导致校验失败。
1)规则适配:当pc地址和移动地址存在规则(pattern)的匹配关系时(如PC页面www.xxx.com/picture/12345.html,移动页面m.xxx.com/picture/12345.html),可以使用规则适配,添加pc和移动的正则表达式,正则的书写方式详见《正则格式说明》。我们强烈建议您使用规则适配,一次提交成功生效后,对于新增同规则的URL可持续生效,不必再进行多次提交。同时该方式处理周期相对URL适配更短,且易于维护和问题排查,是百度推荐使用的提交方式。
2)URL适配:当规则适配不能满足适配关系的表达时,您可以通过“URL对文件上传”功能,将主体内容相同的pc链接和移动链接提交给百度:文件格式为每行前后两个url,分别是pc链接和移动链接,中间用空格分隔,一个文件最多可以提交5万对url,您可以提交多个文件。另外您还可以选择“URL对批量提交”,在输入框中直接输入url对,格式与文件相同,但此处一次性仅限提交2000对url。
第五步,提交适配数据后,关注移动适配工具会提供状态说明,若未适配成功,可根据说明文字和示例进行相应的调整后更新提交适配数据。
移动适配目录如何使用工具提交适配关系
PC站点下开辟某个目录存放移动适配页面、作为移动适配“站”时,依然会有提交移动适配数据的需求,如:http://www.a.com/a.html 适配到http://www.a.com/m/a.html。虽然从长远角度看,这种行为对搜索引擎极不友好,百度(包括GOOGLE)一直不赞成不鼓励这种建方式。但为了满足该需求,百度搜索资源平台移动适配工具依然提供满足此需求的功能。
您可以先在下拉菜单中选择准确的站点域名,再点击“+添加适配关系”。也可以在默认的www主域下“+添加适配关系”。
进入“添加新数据”界面后,“指定PC-移动站点”处填写的移动站点名,要与PC站点名一致,然后在提交规则处填写相应的正则信息,然后增加校验用url对即可。提交数据时示例图如下:
移动适配状态说明
校验中: 百度搜索资源平台会对管理员提交的移动适配数据进行校验,当认为实际情况与您提交的情况相符时,才会对适配数据进行生效处理,这个校验时间大约为10天。目前“校验中”的适配数据不能删除。
校验失败: 当百度搜索资源平台发现站点存在如下问题时,会判为校验失败,不会进行后续的生效处理:
a、页面不相似:PC链接和移动链接的主体内容相似度低,达不到对应关系。请检查网站页面,确认主体内容一致后再次提交
b、移动页不友好: 您提交的适配数据中移动链接为pc页或移动页面不符合广告白皮书规范,请自查确保数据无问题后再次提交
c、含有死链链接:您提交的适配数据中含有死链内容,请自查适配数据,保证无死链情况后再提交
d、未达到校验标准:提交面的“?”号获取的适配数据中,PC页面或移动页面没有收录。移动适配工具对适配数据进行正确性校验时依赖PC网页库和移动网页库中已收录的页面,如果校验时取到的PC页或移动页百度还未收录,将无法对适配数据进行检验。对于未收录的页面将推送给spider进行抓取,若收录后可进行下一次正确性检验,管理员不必再另行提交。
e、未达到校验标准:PC页面或移动页面没有收录。移动适配工具对适配数据进行正确性校验时依赖PC网页库和移动网页库中已收录的页面,如果校验时取到的PC页或移动页百度还未收录,将无法对适配数据进行检验。对于未收录的页面将推送给spider进行抓取,若收录后可进行下一次正确性检验,管理员不必再另行提交。*页面被收录不等于被建索引,收录了的页面有可能在索引量工具里查不到。
f、数据校验失败:数据流校验异常,请站点再次提交数据,进行二次校验、
g、其他原因:可能由于以下原因导致适配数据校验失败:1、pc移动页面不对应;2、pc页面展示量太低;3、正则规则错误;请网站自查是否有以上情况,如有以上情况请自查并整改,然后再次提交数据
以上错误信息会抽样展示在错误详情页面中,您可以通过点击状态说明获取
校验成功: 您提交的适配数据通过校验后,百度搜索资源平台会进行生效处理,这个过程最长为10天。
**校验部分成功: ** 您提交的适配数据中包含部分校验失败内容,失败部分可以参考校验失败的说明,其他成功部分会上线生效。
未达到校验标准: 您提交的规则所涉及的页面,绝大多数未收录(区别于索引)或展现过少,平台工具为了高效处理海量规则,会将未达到校验标准的规则做延后处理,站点方面不必再做额外工作。
适配成功: 百度已经根据您提交的适配数据对移动链接进行了替换。
适配部分成功: 对应校验部分成功而言,那部分通过校验的数据已完成移动适配。
内容重复: 此文件提交的数据被后提交的文件包含覆盖,工具后续不会再对该文件进行处理,也不会反馈处理状态
移动关系发生变化如何修改
站长通过移动适配工具提供适配数据中若发现数据有误,或想更新旧的、已生效的适配关系,可以重新提交新的适配数据予以覆盖。具体如下:
1、目前“校验中”的数据不支持直接删除,若此时需要修改适配关系数据,不需要等等该数据更新状态,可以直接提交新的适配关系予以覆盖。
2、如适配数据发生校验失败,无需将其删除,直接提交新的适配关系覆盖即可。
3、若需要修改已适配成功的关系数据,无需将原适配数据删除,直接提交新的适配关系覆盖即可,待新数据适配成功后线上可生效。
移动适配工具注意事项
1、只要PC站点与移动站点的主干一致,即可参与移动适配。举例说明:PC站点ww.abc.com.cn 移动站点m.abc.net 属于主干一致。当然我们更建议您使用主域相同的PC站点和移动站点
2、建议您尽量使用规则适配进行对应关系提交,一次提交可对于新增同规则的URL持续生效,无需多次反复提交,且处理周期相对URL提交更短,更易于维护和问题排查,是百度推荐使用的提交方式
3、使用正则格式进行规则适配,尽量使用最小的粒度来表示,这样更容易校验通过,比如:
a).确定是纯数字:([0-9]+) 或(\d+)
b).确定是纯字母:([a-zA-Z]+), 包括字母大小写的情况
c).确定是数字和字母混合串:
方法一、((?:[a-zA-Z]+[0-9]+|[0-9]+[a-zA-Z]+)[a-zA-Z0-9]+)
方法二、([a-zA-Z0-9]+)
说明:两种混合串的区别:较长的一种为严格的数字和字母混排形式,且数字 和字母交替至少出现1次; 较短的一种可支持纯数字,纯字母和数字字母混排
d).确定有中文字符:((?:%[a-zA-Z-0-9]{2,})+)
e).确定有参数值:([^&]+)
f).确定有’-‘和’_‘连接字符串的替换规则:将连接的各个部分分别用对应的规则替换
4、 百度搜索资源平台对适配数据的校验时间大约为10天,生效时间大约为1-2天。
5、适配成功后要继续保持正确的适配关系,我们会重复验证适配关系的有效性。
如何提升移动适配效果
首先,对已有的对应关系持续进行适配,同时不断建设新的对应关系,增加适配覆盖的范围。其次,要确保已经提交的对应关系准确。以下是常见的对应不准确错误,请网站进行自查,并及时修改。
1、手机页不可用,比如死链。
2、robots封禁。放开对Baiduspider的robots封禁,以便Baiduspider获取您PC站与手机站之间的对应关系。
3、手机页使用了ajax等异步加载的方法加载内容主体。
4、格式错误。正则格式错误,文件格式错误等。
5、对应关系错误
1)当PC页为内容页时,应该适配到对应的手机页内容页,而实际却适配到手机页的首页/列表页
例如PC页为http://www.aaa.com/Book/2083259.aspx,适配后的手机页为http://m.aaa.con/?from=web
2)手机页本身无主体内容或主体内容过少。
3)手机页需登录才能浏览主体内容。
4)PC页内容与手机页内容不存在一一对应关系。
正确的对应关系示例:
PC页http://www.58.com/mmmshandongrencai/
手机页http://m.58.com/w/mmmshandongrencai/
正则格式说明
以站点news.a.com适配到站点m.a.com为例:
适配PC链接地址为:http://news.a.com/09/1001/07/5KH8DE1F000120GR.html,
适配移动链接地址为:http://m.a.com/news/09/1001/07/5KH8DE1F000120GR.html
步骤一:确定适配链接中的可替换参数或者路径,得到其位置序号和类型。
适配PC链接:
根据网站自身url的层次结构,其中09,1001,07和5KH8DE1F000120GR为动态可替换的路径。除5KH8DE1F000120GR为字母和数字混合外,其余均为纯数字。
步骤二:根据可替换参数或路径的类型,得到链接的表达形式。
使用正则匹配符号(\d+)或者(\w+)表示该路径或参数。(\d+)表示纯数字字符串,(\w+)表示字母数字下划线组成的字符串。
步骤三:根据移动链接,以及可替换参数在步骤一中的位置序号,依次用'${1},${2},……表示替换掉适配PC链接中的可替换参数或路径,得到适配后的移动链接的pattern形式。
至此,便得到了适配的规则:
http://news.a.com/(\d+)/(\d+)/(\d+)/(\w+).html
http://m.a.com/news/${1}/${2}/${3}/${4}.html
正则格式示例:
1、纯数字替换生成pattern例子:
eg1:url对应关系:
http://www.abc.com/26299483.html-> http://m.abc.com/26299483.html
pattern:
http://www.abc.com/([0-9]+).html-> http://m.abc.com/${1}.html
eg2:url对应关系:
http://www.abc.com/t26299483.html-> http://m.abc.com/26299483.html
pattern:
http://www.abc.com/t([0-9]+).html-> http://m.abc.com/${1}.html
2、纯字母替换生成pattern例子:
eg:url对应关系:
http://www.abc.com/fawliute/ -> http://m.abc.com/fawliute/
pattern:
http://www.abc.com/([a-zA-Z]+)/ -> http://m.abc.com/${1}/
3、字母和数字混合的字符串替换生成pattern的例子:
eg1:url对应关系:
http://www.abc.com/a1cc1n2q5y3/ -> http://m.abc.com/a1cc1n2q5y3/
pattern:
http://www.abc.com/((?:[a-zA-Z]+[0-9]+|[0-9]+[a-zA-Z]+)[a-zA-Z0-9]+)/ -> http://m.abc.com/${1}/
注意:字母和数字混合字符串,字母和数字必须交替出现至少1次
有效例子:a13b,23a9,da3bc99,42a1c
eg2:url对应关系:
http://news.abc.com/09/1001/07/5KH8DE1F000120GR.html
-> http://m.abc.com/news/09/1001/07/5KH8DE1F000120GR.html
pattern:
http://news.abc.com/([0-9]+)/([0-9]+)/([0-9]+)/([ a-zA-Z0-9]+).html
-> http://m.abc.com/news/${1}/${2}/${3}/${4}.html
4、对于字母和数字只交替出现一次的,可以分别用数字和字母进行正则替换:
eg:url对应关系:
http://www.abc.com/az123/ -> http://m.abc.com/az123/
pattern:
http://www.abc.com/([a-zA-Z]+)([0-9]+)/-> http://m.abc.com/${1}${2}/
5、中文字符串正则替换生成pattern例子:
eg:url对应关系:
http://www.abc.com/长城花园/ -> http://m.abc.com/长城花园/
pattern:
http://www.abc.com/((?:%[a-zA-Z0-9]{2,})+)/-> http://m.abc.com/${1}/
6、由’-‘或者’_‘连接的数字或者字母替换生成pattern的例子:
eg:url对应关系:
http://www.abc.com/byd-c3/-> http://m.abc.com/byd-c3/
pattern:
http://www.abc.com/([a-zA-Z]+)-([a-zA-Z]+)([0-9]+)/->http://m.abc.com/${1}-${2}${3}/
注意:'-'和'_'出现多次可以使用同样的方式处理
如:abc-134_x-1
7、对参数部分进行正则替换生成pattern的例子:
eg:url对应关系:
http://www.abc.com/article.html?act=test&id=123 -> http://m.abc.com/article.html?act=test&id=123
pattern:
http://www.abc.com/article\.html?act=([^&]+)&id=([^&]+) -> http://m.abc.com/article.html?act=${1}&id=${2}
8、PC存在分页对应移动页面生成pattern的例子:
eg:url对应关系:
http://www.a.com/1234-1.htm http://www.a.com/1234-2.htm ->http://m.a.com/1234.htm
pattern:
http://www.a.com/([0-9]+)-([0-9]+).htm -> http://m.a.com/${1}.htm
15. 站点属性
站点属性包括站点logo、站点品牌展现、站点关联主体,在搜索资源平台-搜索服务-站点属性中可对站点的一些基本信息进行设置,在此提交的数据百度会根据策略进行筛选,不保证完全采用。
什么是站点Logo?
站点Logo是在百度搜索网站名称时,出现在网站名称下方的Logo标识,有利于增强站点曝光,更好地吸引搜索用户。PC端和移动端的展现示例如下。
如何优先获得站点Logo权限?
目前面向VIP站点开放,可以通过VIP俱乐部进行申请。
如何设置站点Logo?
开发者可以通过“搜索资源平台-搜索服务-搜索展现-站点属性”设置站点Logo。
PC端与移动端的Logo图片尺寸要求不同,PC端为121*75,移动端为200*133,审核规范详见《【官方说明】站点属性(Logo)审核原则》。
什么是站点品牌展现?
在搜索结果页中,标题及摘要下方展现的,内容来源站点的头像与名称,叫作站点品牌展现。
相比只展示一串网站地址的方式,品牌展现更直观地体现了内容来源,加强了搜索用户对内容来源的信任度、对站点品牌的记忆度。
如何优先获得品牌展现权益?
目前面向VIP站点开放,可以通过VIP俱乐部进行申请。
如何设置站点品牌展现?
开发者可以通过“搜索资源平台-搜索服务-搜索展现-站点属性”来设置站点名称与站点头像。
根据界面提示提交品牌名称与品牌头像,需满足名称与头像规范,提交后3个工作日内将反馈审核结果。开发者可参考《站点品牌展现名称及头像设置要求》进行设置,提高审核通过率。
审核通过后,开发者可以在站点属性中进行修改、预览、下线等操作,30天内只可修改一次,请谨慎设置。
什么是站点关联主体?
站点关联主体是移动资源进入搜索的一个必要环节。
站点关联主体以及主体认证能够更好的验证站点的真实性,相较于ICP备案存在代备案、过期等问题,站点关联主体更可靠,能够更好的保障大家的权益。
站点关联主体,是由站点的拥有者将名下站点关联到对应主体下的操作,拥有者可根据自身情况和需求,将站点关联到个人主体或非个人主体上。
PS:站点关联主体,不影响当前网站的排名、流量等。
如何进行设置:
①登录站点对应的拥有者搜索资源平台账号,点击用户中心,选择站点管理。
②如果该站点已关联主体,会显示主体信息;若未关联主体,会显示未关联,可点击关联主体进入关联流程。
③主体关联仅支持已在百家号注册的主体,如果您希望关联的主体已在百家号平台注册,可通过输入主体名称或下拉筛选进行关联。如果您希望关联的主体未在百家号平台注册,请先前往百家号平台进行注册,再通过输入主体名称或下拉筛选进行关联。
④绑定完成后,可在站点属性管理中查看自己已关联的主体信息,并进行操作。
注意事项:站点关联主体,7天内不可解除,请谨慎绑定。
16. 配额说明
为提升站点提交优质资源处理效率,搜索资源平台对平台资源提交工具普通收录/快速收录/死链提交进行了当日提交&存量文件配额限制。目前平台将基于站点资源质量,对搜索用户价值,资源稀缺权威等综合维度评估配额情况,站点不同,提交配额也可能不同。如果提交资源中存在大量重复、违规、低质等无效资源,平台将基于影响程度降低配额。若站长想提升配额额度,可关注平台VIP俱乐部进行申请。同时站长请开发者基于自身资源情况合理分配额度,持续提交优质资源。
配额查看具体位置:
在平台工具“资源提交-普通收录-sitemap提交”界面,可查看普通收录工具的天级提交配额和存量文件配额。
针对当前存量sitemap文件超出配额的站点,建议及时删除超额的文件,避免后续系统自动清除,对站点资源造成影响。
在平台工具“链接提交-死链提交”界面, 可查看死链提交工具的天级提交配额和存量文件配额。