11.11云上盛惠!海量產(chǎn)品 · 輕松上云!云服務(wù)器首年1.8折起,買1年送3個月!超值優(yōu)惠,性能穩(wěn)定,讓您的云端之旅更加暢享??靵眚v訊云選購吧!
谷歌希望將發(fā)展數(shù)十年的 robots.txt 解析器開源,以推動 REP 成為搜索引擎爬蟲的行業(yè)標準。機器人排除協(xié)議(REP)是荷蘭軟件工程師 Martijn Koster 于 1994 年提出的一個標準,幾乎已經(jīng)成為了網(wǎng)站不希望被搜索引擎收錄的注釋的事實標準。
谷歌希望將幾十年前的拒絕蜘蛛?yún)f(xié)議 (REP)變成為官方互聯(lián)網(wǎng)標準。為了推動該項計劃,谷歌正在制作自己的 robots.txt 解析器開源。
接手不久一個B2B電子商務(wù)平臺、由于產(chǎn)品詳情頁有兩種不同形式的URL:有32位、也有16位,所以需要對URL進行統(tǒng)一規(guī)范……
很多新手建站朋友對robots協(xié)議文件的重要性不是很清楚,本篇文章由昆明SEO博主普及一下WordPress站點robots協(xié)議文件編寫知識。robots協(xié)議(也稱為爬蟲協(xié)議、機器人協(xié)議 等)的全稱是“網(wǎng)絡(luò)爬蟲排除標準”(Robots Exclusion Protocol),網(wǎng)站通過robots協(xié)議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。robots協(xié)議主要注意以下幾大方面:
動態(tài)網(wǎng)站并不值得擔(dān)心,搜索引擎可以正常抓取動態(tài)鏈接,但利用robots文件可以輕松提高動態(tài)網(wǎng)站的抓取效率。我們都知道,robots協(xié)議(也稱為爬蟲協(xié)議、機器人協(xié)議等)的全稱是“網(wǎng)絡(luò)爬蟲排除標準”(Robots Exclusion Protocol),網(wǎng)站通過Robots協(xié)議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。Robots協(xié)議的本質(zhì)是網(wǎng)站和搜索引擎爬蟲的溝通方式,用來指導(dǎo)搜索引擎更好地抓取網(wǎng)站內(nèi)容。
robots文件存在于網(wǎng)站根目錄,是用來告訴百度蜘蛛那些應(yīng)該抓取,那些不應(yīng)該抓取。正確使用robots文件有助于做好seo優(yōu)化,robots文件的核心詞匯就是allow和disallow用法。百度官網(wǎng)是認可這個文件的,在百度站長平臺上也有robots這個欄目,點擊進入,就可以看到你網(wǎng)站robots文件是否編寫正確了。
首先我們要了解什么是robots文件,比如,在安徽人才庫的首頁網(wǎng)址后面加入“/robots.txt”,即可打開該網(wǎng)站的robots文件,如圖所示,文件里顯示的內(nèi)容是要告訴搜索引擎哪些網(wǎng)頁希望被抓取,哪些不希望被抓取。因為網(wǎng)站中有一些無關(guān)緊要的網(wǎng)頁,如“給我留言”或“聯(lián)系方式”等網(wǎng)頁,他們并不參與SEO排名,只是為了給用戶看,此時可以利用robots文件把他們屏蔽,即告訴搜索引擎不要抓取該頁面。
筆者在百度站長平臺檢測自己的博客時,出于優(yōu)化的慣性,對博客的Rbots進行了檢測,進而在百度搜索了wordpress博客robots的寫法設(shè)置問題,看了很多wordpress高手對robots優(yōu)化設(shè)置后,終于有所領(lǐng)悟,在此也分享給一些wordpress新手看看如何去善用robots.txt對wordpress博客進行優(yōu)化。
我們知道搜索引擎的產(chǎn)品線很長,多個產(chǎn)品之間總不可能完全完美地配合,因此在robots.txt的限制收錄那里就產(chǎn)生了一個可以被利用的漏洞。
百度站長平臺今日發(fā)布公告表示已全面升級robots工具,升級后后的robots工具能實時查看網(wǎng)站已經(jīng)生效的robots文件、且會展示網(wǎng)站最新的robots文件、還支持robots語法檢索及邏輯校驗。此外,還介紹了robots工具的使用情況。