爬蟲(chóng)robots,robots協(xié)議怎么寫(xiě)?網(wǎng)站的robots協(xié)議在哪里查看
全文介紹什么是爬蟲(chóng)robots,robots協(xié)議怎么寫(xiě),網(wǎng)站的robots協(xié)議在哪里查看,robots協(xié)議的具體內(nèi)容,及robots示例解說(shuō),Robots協(xié)議中的其它語(yǔ)法屬性
全文介紹什么是爬蟲(chóng)robots,robots協(xié)議怎么寫(xiě),網(wǎng)站的robots協(xié)議在哪里查看,robots協(xié)議的具體內(nèi)容,及robots示例解說(shuō),Robots協(xié)議中的其它語(yǔ)法屬性
全文介紹什么是爬蟲(chóng)robots,robots協(xié)議怎么寫(xiě),網(wǎng)站的robots協(xié)議在哪里查看,robots協(xié)議的具體內(nèi)容,及robots示例解說(shuō),Robots協(xié)議中的其它語(yǔ)法屬性
50元付費(fèi)解決Robots.txt? 看完本文本還不知道Robots.txt怎么寫(xiě).50元專(zhuān)人幫你解決


robots是網(wǎng)站跟爬蟲(chóng)間的協(xié)議,用簡(jiǎn)單直接的txt格式文本方式告訴對(duì)應(yīng)的爬蟲(chóng)被允許的權(quán)限,也就是說(shuō)robots.txt是搜索引擎中訪問(wèn)網(wǎng)站的時(shí)候要查看的第一個(gè)文件。當(dāng)一個(gè)搜索蜘蛛訪問(wèn)一個(gè)站點(diǎn)時(shí),它會(huì)首先檢查該站點(diǎn)根目錄下是否存在robots.txt,如果存在,搜索機(jī)器人就會(huì)按照該文件中的內(nèi)容來(lái)確定訪問(wèn)的范圍;如果該文件不存在,所有的搜索蜘蛛將能夠訪問(wèn)網(wǎng)站上所有沒(méi)有被口令保護(hù)的頁(yè)面。
用幾個(gè)最常見(jiàn)的情況,直接舉例說(shuō)明:
User-agent:指定對(duì)哪些爬蟲(chóng)生效
Disallow:指定要屏蔽的網(wǎng)址
Allow:允許爬行的網(wǎng)址
例:禁止谷歌收錄本站,
User-agent: Googlebot
Disallow:
例:禁止所有收錄本站:
User-agent: *
Disallow: /
例:允許所有蜘蛛爬行所有
直接為空
User-agent: 這里的代表的所有的搜索引擎種類(lèi),*是一個(gè)通配符。
Disallow: /admin/ 這里定義是禁止爬尋admin目錄下面的目錄。
Disallow: /mahaixiang/*.htm 禁止訪問(wèn)/mahaixiang/目錄下的所有以".htm"為后綴的URL(包含子目錄)。
Disallow: /? 禁止訪問(wèn)網(wǎng)站中所有包含問(wèn)號(hào) (?) 的網(wǎng)址。
Disallow: /.jpg$ 禁止抓取網(wǎng)頁(yè)所有的.jpg格式的圖片。
Disallow:/mahaixiang/abc.html 禁止爬取ab文件夾下面的adc.html文件。
Allow: /mahaixiang/ 這里定義是允許爬尋mahaixiang目錄下面的目錄。
Allow: /mahaixiang 這里定義是允許爬尋mahaixiang的整個(gè)目錄。
Allow: .htm$ 僅允許訪問(wèn)以".htm"為后綴的URL。
Allow: .gif$ 允許抓取網(wǎng)頁(yè)和gif格式圖片。
Sitemap: /sitemap.html 告訴爬蟲(chóng)這個(gè)頁(yè)面是網(wǎng)站地圖。
版權(quán)所有:重慶安菲科技有限公司
友情鏈接: