我們知道,現(xiàn)代搜索引擎收錄網(wǎng)站頁面是通過網(wǎng)絡爬蟲(英文名稱有很多:bots,spider,Crawler,collector,walker,Slurp等等)進行頁面采集,即由網(wǎng)絡爬蟲進入網(wǎng)站,將網(wǎng)站頁面以及頁面下的連接頁面進行下載,然后通過內(nèi)容分析器來分析頁面內(nèi)容。而在這個過程中,robots.txt的作用就在于告訴網(wǎng)絡爬蟲,那些頁面不能采集,那些頁面能采集。一般來說,主流搜索引擎的網(wǎng)絡爬蟲都是遵守robots.txt規(guī)范的。具體的robots規(guī)范可參見以下網(wǎng)站:www.robotstxt.org和www.w3.org。
robots.txt要求保存為小寫,存放在網(wǎng)站根目錄下,并保證可以通過www.yourdomain.com/robots.txt進行訪問的。
我們填寫robots.txt一般只需要注意兩個語法規(guī)則就可以了:User-agent和Disallow。User-agent是規(guī)定允許采集本站頁面的搜索引擎;Disallow規(guī)定不允許采集的頁面路徑。
例一、
User-agent: *
Disallow:
上面規(guī)則表示允許所有搜索引擎的爬蟲收錄本站頁面,并且允許采集所有頁面。本例還有一個簡便的方式,就是創(chuàng)建一個命名為robots.txt的空文檔,放入網(wǎng)站個目錄就好了!
例二、
User-agent: *
Disallow: /admin/
上面規(guī)則表示允許所有搜索引擎爬蟲收錄本站頁面,但不允許收錄/damin/目錄下的所有頁面。我們知道,admin目錄下的頁面,往往存放著后臺管理頁面,為了安全起見,我們不允許搜索引擎把/admin/目錄下頁面收錄。
例三、
User-agent: Baiduspider
Disallow:
上面規(guī)表示只允許Baidu爬蟲收錄本站頁面,并且允許收錄所有頁面。
例四、
User-agent: *
Disallow: /
上面規(guī)則表示任何搜索引擎爬蟲都不得收錄本站所有頁面。對于一些不希望公開站點的網(wǎng)站來說,的確是比較有用的!
知道以上規(guī)則,我們就可以巧妙利用robots.txt。
國內(nèi)常見的搜索引擎爬蟲有:
Baiduspider、Googlebot、Slurp、MSNBOT、iaskspider、sogou+spider、Zhuaxia.com+1+Subscribers、Feedsky+crawler