亚洲一二区制服无码中字,国产无套露脸在线观看,中文字幕丝袜人妻制服丝袜在线,国内精品自线在拍2020不卡,香蕉影院在线观看

重慶網(wǎng)站建設(shè)公司,安菲科技LOGO

您的位置:首頁(yè) > 新聞

爬蟲(chóng)robots,robots協(xié)議怎么寫(xiě)?網(wǎng)站的robots協(xié)議在哪里查看
新聞 2023-03-14編輯:重慶網(wǎng)站建設(shè)標(biāo)簽: 爬蟲(chóng) robots 404 301

全文介紹什么是爬蟲(chóng)robots,robots協(xié)議怎么寫(xiě),網(wǎng)站的robots協(xié)議在哪里查看,robots協(xié)議的具體內(nèi)容,及robots示例解說(shuō),Robots協(xié)議中的其它語(yǔ)法屬性

50元付費(fèi)解決Robots.txt? 看完本文本還不知道Robots.txt怎么寫(xiě).50元專(zhuān)人幫你解決



爬蟲(chóng)robots

搜索引擎通過(guò)一種程序robot(又稱(chēng)spider),自動(dòng)訪問(wèn)互聯(lián)網(wǎng)上的網(wǎng)頁(yè)并獲取網(wǎng)頁(yè)信息。
Robots協(xié)議(也稱(chēng)為爬蟲(chóng)協(xié)議、機(jī)器人協(xié)議等)的全稱(chēng)是“網(wǎng)絡(luò)爬蟲(chóng)排除標(biāo)準(zhǔn)”(Robots Exclusion Protocol),網(wǎng)站通過(guò)Robots協(xié)議告訴搜索引擎哪些頁(yè)面可以抓取,哪些頁(yè)面不能抓取。


爬蟲(chóng)robots,robots協(xié)議怎么寫(xiě)?網(wǎng)站的robots協(xié)議在哪里查看

robots是網(wǎng)站跟爬蟲(chóng)間的協(xié)議,用簡(jiǎn)單直接的txt格式文本方式告訴對(duì)應(yīng)的爬蟲(chóng)被允許的權(quán)限,也就是說(shuō)robots.txt是搜索引擎中訪問(wèn)網(wǎng)站的時(shí)候要查看的第一個(gè)文件。當(dāng)一個(gè)搜索蜘蛛訪問(wèn)一個(gè)站點(diǎn)時(shí),它會(huì)首先檢查該站點(diǎn)根目錄下是否存在robots.txt,如果存在,搜索機(jī)器人就會(huì)按照該文件中的內(nèi)容來(lái)確定訪問(wèn)的范圍;如果該文件不存在,所有的搜索蜘蛛將能夠訪問(wèn)網(wǎng)站上所有沒(méi)有被口令保護(hù)的頁(yè)面。


網(wǎng)站的robots協(xié)議在哪里看

robots.txt文件應(yīng)該放在網(wǎng)站根目錄下。舉例來(lái)說(shuō),當(dāng)robots訪問(wèn)一個(gè)網(wǎng)站時(shí),首先會(huì)檢查該網(wǎng)站中是否存在這個(gè)文件,如果機(jī)器人找到這個(gè)文件,它就會(huì)根據(jù)這個(gè)文件的內(nèi)容,來(lái)確定它訪問(wèn)權(quán)限的范圍。


用幾個(gè)最常見(jiàn)的情況,直接舉例說(shuō)明:

robots.txt文件的寫(xiě)法

User-agent:指定對(duì)哪些爬蟲(chóng)生效
Disallow:指定要屏蔽的網(wǎng)址
Allow:允許爬行的網(wǎng)址



例:禁止谷歌收錄本站,
User-agent: Googlebot
Disallow:



例:禁止所有收錄本站:
User-agent: *
Disallow: /


例:允許所有蜘蛛爬行所有.除了后臺(tái)
User-agent: *
sitemap: http://www.integra-biosciences.com.cn/sitemap.html
Disallow: /admin/




例:允許所有蜘蛛爬行所有
直接為空

Robots協(xié)議中的其它語(yǔ)法屬性

User-agent: 這里的代表的所有的搜索引擎種類(lèi),*是一個(gè)通配符。

Disallow: /admin/ 這里定義是禁止爬尋admin目錄下面的目錄。

Disallow: /mahaixiang/*.htm 禁止訪問(wèn)/mahaixiang/目錄下的所有以".htm"為后綴的URL(包含子目錄)。

Disallow: /? 禁止訪問(wèn)網(wǎng)站中所有包含問(wèn)號(hào) (?) 的網(wǎng)址。

Disallow: /.jpg$ 禁止抓取網(wǎng)頁(yè)所有的.jpg格式的圖片。

Disallow:/mahaixiang/abc.html 禁止爬取ab文件夾下面的adc.html文件。

Allow: /mahaixiang/ 這里定義是允許爬尋mahaixiang目錄下面的目錄。

Allow: /mahaixiang 這里定義是允許爬尋mahaixiang的整個(gè)目錄。

Allow: .htm$ 僅允許訪問(wèn)以".htm"為后綴的URL。

Allow: .gif$ 允許抓取網(wǎng)頁(yè)和gif格式圖片。

Sitemap: /sitemap.html 告訴爬蟲(chóng)這個(gè)頁(yè)面是網(wǎng)站地圖。


冬鏡SEO 網(wǎng)站優(yōu)化中的robots文件是否要放在根目錄?

robots.txt怎么寫(xiě) 看完本文本還不知道Robots.txt怎么寫(xiě),可以選擇

robots協(xié)議:只要50元
添加微信 請(qǐng)說(shuō)明來(lái)意
聯(lián)系我們
站內(nèi)搜索

24小時(shí)服務(wù)熱線 18696588163
創(chuàng)意化數(shù)字品牌整合網(wǎng)絡(luò)營(yíng)銷(xiāo)
營(yíng)銷(xiāo)網(wǎng)站讓你坐等商機(jī)坐傭客戶(hù),Rss

版權(quán)所有:重慶安菲科技有限公司

友情鏈接: