資料一
1.robots.txt文件是什么
robots.txt是一個純文本文件,是搜索引擎中訪問網站的時候要查看的第一個文件。robots.txt文件告訴蜘蛛程序在服務器上什么文件是可以被查看的。每個站點最好建立一個robots.txt文件,對seo更友好。每當搜索蜘蛛來尋找并不存在的robots.txt文件時,服務器將在日志中記錄一條404錯誤,所以你應該在網站中添加一個robots.txt(即使這個robots.txt文件只是一個空文件)。
2.robots.txt的寫法(語法)
1)User-agent: 該項的值用于描述搜索引擎蜘蛛的名字。如果該項的值設為*,則該協議對任何機器人均有效。
2)Disallow: 該項的值用于描述不希望被訪問到的一個URL,一個目錄或者整個網站。以Disallow 開頭的URL 均不會被搜索引擎蜘蛛訪問到。任何一條Disallow 記錄為空,說明該網站的所有部分都允許被訪問。
3)用法舉例:
網站目錄下所有文件均能被所有搜索引擎蜘蛛訪問
User-agent: *
Disallow:
禁止所有搜索引擎蜘蛛訪問網站的任何部分
User-agent: *
Disallow: /
禁止所有的搜索引擎蜘蛛訪問網站的幾個目錄
User-agent: *
Disallow: /a/
Disallow: /b/
禁止搜索引擎蜘蛛訪問目錄a和目錄b
只允許某個搜索引擎蜘蛛訪問
User-agent: Googlebot
Disallow:
您應該限制網站某些文件不被蜘蛛抓取。
一般網站中不需要蜘蛛抓取的文件有:后臺管理文件、程序腳本、附件、數據庫文件、編碼文件、樣式表文件、模板文件、導航圖片和背景圖片等等。
3.robots.txt文件帶來的風險以及解決
robots.txt 同時也帶來了一定的風險:其也給攻擊者指明了網站的目錄結構和私密數據所在的位置。設置訪問權限,對您的隱私內容實施密碼保護,這樣,攻擊者便無從進入。
4.常見搜索引擎蜘蛛Robots名字
Baiduspider :http://www.baidu.com
Scooter :http://www.altavista.com
ia_archiver: http://www.alexa.com
Googlebot :http://www.google.com
Inktomi Slurp :http://www.yahoo.com
FAST-WebCrawler: http://www.alltheweb.com
Slurp :http://www.inktomi.com
MSNBOT :http://search.msn.com
5.注意事項:
1)robots.txt必須放置在站點的根目錄下,而且文件名必須全部小寫。
2)不要在robots.txt文件中設置所有的文件都可以被搜索蜘蛛抓取。
3)為安全考慮,建議很重要的文件夾不要寫在robots.txt文件中,或你只建一個空白robots.txt文件,在不要訪問的目錄中加入其它的技術(目前還在探索中……)。
seo會聚網robot.txt文件實例:www.seohj.com/robots.txt。
我們也可以通過Robots META標簽來針對一個個具體的頁面。關于Robots META標簽的詳細介紹在Robots META標簽用法。
1.語法:
<meta name="robots"content="搜索方式">
2.說明:
在該語法中,搜索方式的值和其對應的含義如下:
all:頁面將被檢索,且頁面上的鏈接可以被查詢;
none:頁面不能被檢索,且頁面上的鏈接不可以被查詢;
index:頁面將被檢索,但不設置鏈接是否可以被查詢;
follow:頁面上的鏈接可以被查詢;
noindex:頁面不能被檢索,但頁面上的鏈接可以被查詢;
nofollow:頁面能被檢索,但頁面上的鏈接卻不可以被查詢。
3.實例:
該實例設定網頁能被檢索,但頁面上的鏈接卻不可以被查詢,代碼如下:
<html>
<head>
<title>限制搜索方式</title>
<meta name="robots"content="index">
</head>
<body></body>