<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>别用鼠标点我的博客 &#187; SEO</title>
	<atom:link href="http://www.dingood.com/archives/tag/seo/feed" rel="self" type="application/rss+xml" />
	<link>http://www.dingood.com</link>
	<description>真诚为您挑选最实用的计算机信息!</description>
	<lastBuildDate>Tue, 17 Aug 2010 08:08:51 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.0.1</generator>
		<item>
		<title>ROBOTS.TXT使用方法,不收录特定目录</title>
		<link>http://www.dingood.com/archives/181.html</link>
		<comments>http://www.dingood.com/archives/181.html#comments</comments>
		<pubDate>Tue, 26 Aug 2008 19:16:55 +0000</pubDate>
		<dc:creator>DinGood</dc:creator>
				<category><![CDATA[WordPress]]></category>
		<category><![CDATA[SEO]]></category>

		<guid isPermaLink="false">http://www.dingood.com/?p=181</guid>
		<description><![CDATA[         博客已经较长时间没有更新了，为什么呢？因为这几天在忙着建一个小博客，用来写什么心情啊、乱七八糟的东西。现在已经基本搞定了就叫Don&#8217;t Talk Me。我不希望这个博客被搜索引擎搜到的，我除了将本身设为搜索不可见外，按照波波的建议，我又加了个ROBOTS.TXT来限制搜索机器人的访问。         为什么不让搜索引擎搜索到Don&#8217;t Talk Me呢？我这个博客地址是http://www.dingood.com/talk，如果让搜索引擎收录的话，就会把Don&#8217;t Talk Me作为我现在博客的一个目录，这样我博客的主题就会很乱，更google、baidu等一种乱七八糟什么都写的感觉，那是不好的。具体要怎么实现这个功能呢？就要用到ROBOTS.TXT了 当然我这里并没有将所有的用法写出来，就总结了一些大多数人能用到的方法。高手请飘过哈~ 1、 什么是robots.txt？ robots.txt是一个纯文本文件，通过在这个文件中声明该网站中不想被robots访问的部分，这样， 该网站的部分或全部内容就可以不被搜索引擎收录了，或者指定搜索引擎只收录指定的内容。当一个搜索机器人访问一个站点时，它会首先检查该站点根目录下是否 存在robots.txt，如果找到，搜索机器人就会按照该文件中的内容来确定访问的范围，如果该文件不存在，那么搜索机器人就沿着链接抓取。 robots.txt必须放置在一个站点的根目录下，而且文件名必须全部小写。 网站 URL : http://www.dingood.com 相应的 robots.txt的 URL : http://www.dingood.com/robots.txt 2、 robots.txt的语法 &#8220;robots.txt&#8221;文件包含一条或更多的记录，这些记录通过空行分开（以CR,CR/NL, or... <a class="meta-more" href="http://www.dingood.com/archives/181.html">Read more <span class="meta-nav">&#187;</span></a>]]></description>
			<content:encoded><![CDATA[<p><img class="alignleft" style="margin: 0px 5px; border: 0px;" title="robots.txt" src="http://farm4.static.flickr.com/3135/2713252826_a34ceaaeb0_o.jpg" alt="" width="128" height="128" />         博客已经较长时间没有更新了，为什么呢？因为这几天在忙着建一个小博客，用来写什么心情啊、乱七八糟的东西。现在已经基本搞定了就叫<a href="http://www.dingood.com/talk" target="_blank">Don&#8217;t Talk Me</a>。我不希望这个博客被搜索引擎搜到的，我除了将本身设为搜索不可见外，按照<a href="http://www.bbon.cn" target="_blank">波波</a>的建议，我又加了个ROBOTS.TXT来限制搜索机器人的访问。<br />
        为什么不让搜索引擎搜索到Don&#8217;t Talk Me呢？我这个博客地址是http://www.dingood.com/talk，如果让搜索引擎收录的话，就会把Don&#8217;t Talk Me作为我现在博客的一个目录，这样我博客的主题就会很乱，更google、baidu等一种乱七八糟什么都写的感觉，那是不好的。具体要怎么实现这个功能呢？就要用到ROBOTS.TXT了</p>
<p><span style="color: #ff0000;">当然我这里并没有将所有的用法写出来，就总结了一些大多数人能用到的方法。高手请飘过哈~</span><br />
<span id="more-181"></span><br />
<span style="color: #ff6600;">1、 什么是robots.txt？</span></p>
<p>robots.txt是一个纯文本文件，通过在这个文件中声明该网站中不想被robots访问的部分，这样， 该网站的部分或全部内容就可以不被搜索引擎收录了，或者指定搜索引擎只收录指定的内容。当一个搜索机器人访问一个站点时，它会首先检查该站点根目录下是否 存在robots.txt，如果找到，搜索机器人就会按照该文件中的内容来确定访问的范围，如果该文件不存在，那么搜索机器人就沿着链接抓取。</p>
<p>robots.txt必须放置在一个站点的根目录下，而且文件名必须全部小写。</p>
<p>网站 URL : http://www.dingood.com<br />
相应的 robots.txt的 URL : http://www.dingood.com/robots.txt</p>
<p><span style="color: #ff6600;">2、 robots.txt的语法</span></p>
<p>&#8220;robots.txt&#8221;文件包含一条或更多的记录，这些记录通过空行分开（以CR,CR/NL, or NL作为结束符），每一条记录的格式如下所示：</p>
<blockquote><p>&#8220;: &#8220;。</p></blockquote>
<p>在该文件中可以使用#进行注解，具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始，后面加上若干Disallow行,详细情况如下：</p>
<blockquote><p>User-agent:</p></blockquote>
<p>该项的值用于描述搜索引擎robot的名字，在&#8221;robots.txt&#8221;文件中，如果有多条User-agent记录说明有多个robot会受到该协议的限 制，对该文件来说，至少要有一条User-agent记录。如果该项的值设为*，则该协议对任何机器人均有效，在&#8221;robots.txt&#8221;文件中， &#8220;User-agent：*&#8221;这样的记录只能有一条。</p>
<blockquote><p>Disallow :</p></blockquote>
<p>该项的值用于描述不希望 被访问到的一个URL，这个URL可以是一条完整的路径，也可以是部分的，任何以Disallow 开头的URL均不会被robot访问到。例如&#8221;Disallow: /help&#8221;对/help.html 和/help/index.html都不允许搜索引擎访问，而&#8221;Disallow: /help/&#8221;则允许robot访问/help.html，而不能访问/help/index.html。</p>
<p>任何一条Disallow记录为空，说明该网站的所有部分都允许被访问，在&#8221;/robots.txt&#8221;文件中，至少要有一条Disallow记录。如果 &#8220;/robots.txt&#8221;是一个空文件，则对于所有的搜索引擎robot，该网站都是开放的。</p>
<p><span style="color: #800080;">下面是一些robots.txt基本的用法：</span></p>
<p>l         禁止所有搜索引擎访问网站的任何部分：</p>
<blockquote><p>User-agent: *<br />
Disallow: /</p></blockquote>
<p>l         允许所有的robot访问</p>
<blockquote><p>User-agent: *<br />
Disallow:</p></blockquote>
<p>或者也可以建一个空文件 &#8220;/robots.txt&#8221; file</p>
<p>l         禁止所有搜索引擎访问网站的几个部分（下例中的cgi-bin、tmp目录）</p>
<blockquote><p>User-agent: *<br />
Disallow: /cgi-bin/<br />
Disallow: /tmp/</p></blockquote>
<p><span style="color: #800080;">4、 常见robots.txt错误</span></p>
<p>1.一行只能写一个命令，而且顺序不能颠倒~</p>
<p>2.命令前面有大量空格，这是不允许的。</p>
<p>3.虽然标准是没有大小写的，但是目录和文件名应该小写。</p>
<p>4.语法中只有Disallow，没有Allow！</p>
<p>5.忘记了斜杠/，错误的写做：</p>
<blockquote><p>User-agent: Baiduspider<br />
Disallow: css</p></blockquote>
<p>6.404重定向到另外一个页面：<br />
当Robot访问很多没有设置robots.txt文件的站点时，会被自动404重定向到另外一个Html页面。这 时Robot常常会以处理robots.txt文件的方式处理这个Html页面文件。虽然一般这样没有什么问题，但是最好能放一个空白的 robots.txt文件在站点根目录下。</p>
<h2  class="related_post_title">随机日志</h2><ul class="related_post"><li><a href="http://www.dingood.com/archives/101.html" title="别用鼠标点我的wordpress2.6">别用鼠标点我的wordpress2.6</a> (27)</li><li><a href="http://www.dingood.com/archives/65.html" title="原创黄金矿工加瞄准器版">原创黄金矿工加瞄准器版</a> (42)</li><li><a href="http://www.dingood.com/archives/7.html" title="无法找到DLL?&#8212;在网上找回丢失的Windows系统文件~">无法找到DLL?&#8212;在网上找回丢失的Windows系统文件~</a> (2)</li><li><a href="http://www.dingood.com/archives/176.html" title="上网不再怕中毒，沙盘软件Sandboxie使用教程">上网不再怕中毒，沙盘软件Sandboxie使用教程</a> (44)</li><li><a href="http://www.dingood.com/archives/155.html" title="Windows 任务栏使用技巧八则">Windows 任务栏使用技巧八则</a> (14)</li><li><a href="http://www.dingood.com/archives/244.html" title="获邀参加 BitDefender 2010 Beta 内测">获邀参加 BitDefender 2010 Beta 内测</a> (42)</li><li><a href="http://www.dingood.com/archives/186.html" title="开学啦~博客后天更新~">开学啦~博客后天更新~</a> (16)</li><li><a href="http://www.dingood.com/archives/228.html" title="IE浏览器保存网页中所有图片的方法">IE浏览器保存网页中所有图片的方法</a> (34)</li></ul>]]></content:encoded>
			<wfw:commentRss>http://www.dingood.com/archives/181.html/feed</wfw:commentRss>
		<slash:comments>36</slash:comments>
		</item>
	</channel>
</rss>
