<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>别用鼠标点我的博客 &#187; SEO</title>
	<atom:link href="http://www.dingood.com/archives/tag/seo/feed" rel="self" type="application/rss+xml" />
	<link>http://www.dingood.com</link>
	<description>真诚为您挑选最实用的计算机信息!</description>
	<lastBuildDate>Sun, 01 Jan 2012 07:10:27 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.3</generator>
		<item>
		<title>ROBOTS.TXT使用方法,不收录特定目录</title>
		<link>http://www.dingood.com/archives/181.html</link>
		<comments>http://www.dingood.com/archives/181.html#comments</comments>
		<pubDate>Tue, 26 Aug 2008 11:16:55 +0000</pubDate>
		<dc:creator>小浒子</dc:creator>
				<category><![CDATA[WordPress]]></category>
		<category><![CDATA[SEO]]></category>

		<guid isPermaLink="false">http://www.dingood.com/?p=181</guid>
		<description><![CDATA[         博客已经较长时间没有更新了，为什么呢？因为这几天在忙着建一个小博客，用来写什么心情啊、乱七八糟的东西。现在已经基本搞定了就叫Don&#8217;t Talk Me。我不希望这个博客被搜索引擎搜到的，我除了将本身设为搜索不可见外，按照波波的建议，我又加了个ROBOTS.TXT来限制搜索机器人的访问。         为什么不让搜索引擎搜索到Don&#8217;t Talk Me呢？我这个博客地址是http://www.dingood.com/talk，如果让搜索引擎收录的话，就会把Don&#8217;t Talk Me作为我现在博客的一个目录，这样我博客的主题就会很乱，更google、baidu等一种乱七八糟什么都写的感觉，那是不好的。具体要怎么实现这个功能呢？就要用到ROBOTS.TXT了 当然我这里并没有将所有的用法写出来，就总结了一些大多数人能用到的方法。高手请飘过哈~ 1、 什么是robots.txt？ robots.txt是一个纯文本文件，通过在这个文件中声明该网站中不想被robots访问的部分，这样， 该网站的部分或全部内容就可以不被搜索引擎收录了，或者指定搜索引擎只收录指定的内容。当一个搜索机器人访问一个站点时，它会首先检查该站点根目录下是否 存在robots.txt，如果找到，搜索机器人就会按照该文件中的内容来确定访问的范围，如果该文件不存在，那么搜索机器人就沿着链接抓取。 robots.txt必须放置在一个站点的根目录下，而且文件名必须全部小写。 网站 URL : http://www.dingood.com 相应的 robots.txt的 URL : http://www.dingood.com/robots.txt 2、 robots.txt的语法 “robots.txt”文件包含一条或更多的记录，这些记录通过空行分开（以CR,CR/NL, or NL作为结束符），每一条记录的格式如下所示： “: “。 在该文件中可以使用#进行注解，具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始，后面加上若干Disallow行,详细情况如下： User-agent: 该项的值用于描述搜索引擎robot的名字，在”robots.txt”文件中，如果有多条User-agent记录说明有多个robot会受到该协议的限 制，对该文件来说，至少要有一条User-agent记录。如果该项的值设为*，则该协议对任何机器人均有效，在”robots.txt”文件中， “User-agent：*”这样的记录只能有一条。 Disallow : &#8230;]]></description>
			<content:encoded><![CDATA[<p><img class="alignleft" style="margin: 0px 5px; border: 0px;" title="robots.txt" src="http://farm4.static.flickr.com/3135/2713252826_a34ceaaeb0_o.jpg" alt="" width="128" height="128" />         博客已经较长时间没有更新了，为什么呢？因为这几天在忙着建一个小博客，用来写什么心情啊、乱七八糟的东西。现在已经基本搞定了就叫<a href="http://www.dingood.com/talk" target="_blank">Don&#8217;t Talk Me</a>。我不希望这个博客被搜索引擎搜到的，我除了将本身设为搜索不可见外，按照<a href="http://www.bbon.cn" target="_blank">波波</a>的建议，我又加了个ROBOTS.TXT来限制搜索机器人的访问。<br />
        为什么不让搜索引擎搜索到Don&#8217;t Talk Me呢？我这个博客地址是http://www.dingood.com/talk，如果让搜索引擎收录的话，就会把Don&#8217;t Talk Me作为我现在博客的一个目录，这样我博客的主题就会很乱，更google、baidu等一种乱七八糟什么都写的感觉，那是不好的。具体要怎么实现这个功能呢？就要用到ROBOTS.TXT了</p>
<p><span style="color: #ff0000;">当然我这里并没有将所有的用法写出来，就总结了一些大多数人能用到的方法。高手请飘过哈~</span><br />
<span id="more-181"></span><br />
<span style="color: #ff6600;">1、 什么是robots.txt？</span></p>
<p>robots.txt是一个纯文本文件，通过在这个文件中声明该网站中不想被robots访问的部分，这样， 该网站的部分或全部内容就可以不被搜索引擎收录了，或者指定搜索引擎只收录指定的内容。当一个搜索机器人访问一个站点时，它会首先检查该站点根目录下是否 存在robots.txt，如果找到，搜索机器人就会按照该文件中的内容来确定访问的范围，如果该文件不存在，那么搜索机器人就沿着链接抓取。</p>
<p>robots.txt必须放置在一个站点的根目录下，而且文件名必须全部小写。</p>
<p>网站 URL : http://www.dingood.com<br />
相应的 robots.txt的 URL : http://www.dingood.com/robots.txt</p>
<p><span style="color: #ff6600;">2、 robots.txt的语法</span></p>
<p>“robots.txt”文件包含一条或更多的记录，这些记录通过空行分开（以CR,CR/NL, or NL作为结束符），每一条记录的格式如下所示：</p>
<blockquote><p>“: “。</p></blockquote>
<p>在该文件中可以使用#进行注解，具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始，后面加上若干Disallow行,详细情况如下：</p>
<blockquote><p>User-agent:</p></blockquote>
<p>该项的值用于描述搜索引擎robot的名字，在”robots.txt”文件中，如果有多条User-agent记录说明有多个robot会受到该协议的限 制，对该文件来说，至少要有一条User-agent记录。如果该项的值设为*，则该协议对任何机器人均有效，在”robots.txt”文件中， “User-agent：*”这样的记录只能有一条。</p>
<blockquote><p>Disallow :</p></blockquote>
<p>该项的值用于描述不希望 被访问到的一个URL，这个URL可以是一条完整的路径，也可以是部分的，任何以Disallow 开头的URL均不会被robot访问到。例如”Disallow: /help”对/help.html 和/help/index.html都不允许搜索引擎访问，而”Disallow: /help/”则允许robot访问/help.html，而不能访问/help/index.html。</p>
<p>任何一条Disallow记录为空，说明该网站的所有部分都允许被访问，在”/robots.txt”文件中，至少要有一条Disallow记录。如果 “/robots.txt”是一个空文件，则对于所有的搜索引擎robot，该网站都是开放的。</p>
<p><span style="color: #800080;">下面是一些robots.txt基本的用法：</span></p>
<p>l         禁止所有搜索引擎访问网站的任何部分：</p>
<blockquote><p>User-agent: *<br />
Disallow: /</p></blockquote>
<p>l         允许所有的robot访问</p>
<blockquote><p>User-agent: *<br />
Disallow:</p></blockquote>
<p>或者也可以建一个空文件 “/robots.txt” file</p>
<p>l         禁止所有搜索引擎访问网站的几个部分（下例中的cgi-bin、tmp目录）</p>
<blockquote><p>User-agent: *<br />
Disallow: /cgi-bin/<br />
Disallow: /tmp/</p></blockquote>
<p><span style="color: #800080;">4、 常见robots.txt错误</span></p>
<p>1.一行只能写一个命令，而且顺序不能颠倒~</p>
<p>2.命令前面有大量空格，这是不允许的。</p>
<p>3.虽然标准是没有大小写的，但是目录和文件名应该小写。</p>
<p>4.语法中只有Disallow，没有Allow！</p>
<p>5.忘记了斜杠/，错误的写做：</p>
<blockquote><p>User-agent: Baiduspider<br />
Disallow: css</p></blockquote>
<p>6.404重定向到另外一个页面：<br />
当Robot访问很多没有设置robots.txt文件的站点时，会被自动404重定向到另外一个Html页面。这 时Robot常常会以处理robots.txt文件的方式处理这个Html页面文件。虽然一般这样没有什么问题，但是最好能放一个空白的 robots.txt文件在站点根目录下。</p>
<ul class="related_post"><li>No Related Post</li></ul>]]></content:encoded>
			<wfw:commentRss>http://www.dingood.com/archives/181.html/feed</wfw:commentRss>
		<slash:comments>39</slash:comments>
		</item>
	</channel>
</rss>

