一个人看的www视频,国产亚洲精品久久久久久郑州,欧美丰满老熟妇xxxxx性,少妇激情av一区二区,亚洲精品ay少妇一区二区

什么是機(jī)器人。txt文件以及如何正確使用它?

什么是 Robots.txt 文件以及如何正確使用它?

robots.txt 文件是一種媒介,可讓您與爬行您網(wǎng)站的機(jī)器人進(jìn)行通信。雖然告訴 Google 機(jī)器人應(yīng)該在頁(yè)面上分析什么是有益的,但正確地做到這一點(diǎn)需要學(xué)習(xí)網(wǎng)絡(luò)爬蟲可以理解的語(yǔ)言。在本文中了解更多信息!?

每個(gè)建立網(wǎng)站的人都希望在 Internet 上可見。這就是為什么越來(lái)越多的人決定執(zhí)行符合 Google 指南的 SEO 活動(dòng),以確保他們的網(wǎng)站在自然搜索結(jié)果中排名靠前。

您可能首先想到的問(wèn)題之一是Google 或任何其他搜索引擎如何知道給定頁(yè)面上發(fā)布的內(nèi)容

好吧,所謂的網(wǎng)絡(luò)爬蟲檢查網(wǎng)絡(luò)世界永無(wú)止境的資源并分析所有遇到的網(wǎng)站上的內(nèi)容。值得確保的是,一旦機(jī)器人進(jìn)入您的網(wǎng)站,它們就會(huì)被告知應(yīng)該抓取哪些頁(yè)面,因?yàn)槟承┳禹?yè)面不必甚至不應(yīng)該顯示在搜索結(jié)果中——這就是robots.txt的來(lái)源派上用場(chǎng)。

Robots.txt——它是什么?

robots.txt 文件是用于與網(wǎng)絡(luò)爬蟲通信的元素之一。

進(jìn)入網(wǎng)站后,機(jī)器人會(huì)立即搜索此特定文件。它由符合Robots Exclusion Protocol標(biāo)準(zhǔn)的命令組合組成 – 一種機(jī)器人可以理解的“語(yǔ)言”。

多虧了它,網(wǎng)站所有者能夠?qū)Ш綑C(jī)器人并限制他們對(duì)不需要在搜索結(jié)果中顯示的網(wǎng)站上的資源(例如圖形、樣式、腳本或特定子頁(yè)面)的訪問(wèn)。

不應(yīng)抓取的元素

自從網(wǎng)站不再是除了文本之外什么都不包含的簡(jiǎn)單文件以來(lái),已經(jīng)有很長(zhǎng)一段時(shí)間了。大多數(shù)在線商店包含許多子頁(yè)面,這些子頁(yè)面在搜索結(jié)果方面沒(méi)有價(jià)值,甚至?xí)?dǎo)致創(chuàng)建內(nèi)部重復(fù)內(nèi)容。

要了解更多信息,請(qǐng)查看我們關(guān)于重復(fù)內(nèi)容的文章

機(jī)器人不應(yīng)訪問(wèn)購(gòu)物車、內(nèi)部搜索引擎、訂購(gòu)程序或用戶面板等元素。

為什么?

因?yàn)檫@些元素的設(shè)計(jì)不僅會(huì)造成不必要的混亂,還會(huì)對(duì)網(wǎng)站在 SERP 中的可見性產(chǎn)生負(fù)面影響您還應(yīng)該考慮阻止 CMS 制作的子頁(yè)面副本,因?yàn)樗鼈儠?huì)增加您的內(nèi)部重復(fù)內(nèi)容。

當(dāng)心!

創(chuàng)建允許您瀏覽網(wǎng)絡(luò)爬蟲的規(guī)則需要對(duì)網(wǎng)站結(jié)構(gòu)有全面的了解。

使用不正確的命令會(huì)阻止 Google 機(jī)器人訪問(wèn)整個(gè)網(wǎng)站內(nèi)容或其重要部分。這反過(guò)來(lái)又會(huì)導(dǎo)致適得其反的效果——您的網(wǎng)站可能會(huì)從搜索結(jié)果中完全消失

技術(shù)搜索引擎優(yōu)化和移動(dòng)商務(wù)

Robots.txt 文件只是建議

網(wǎng)絡(luò)爬蟲可能會(huì)決定遵循您的建議,但是,出于多種原因,您不能強(qiáng)迫它們遵守上述通信協(xié)議中放置的任何命令。

首先,Googlebot 并不是唯一的機(jī)器人掃描網(wǎng)站。盡管世界領(lǐng)先搜索引擎的創(chuàng)建者確保他們的爬蟲尊重網(wǎng)站所有者的建議,但其他機(jī)器人不一定有幫助。此外,當(dāng)另一個(gè)索引網(wǎng)站鏈接到給定的 URL 時(shí),它也可以被抓取。

根據(jù)您的需要,有幾種方法可以保護(hù)您自己免受這種情況的影響。例如,您可以應(yīng)用 noindex 元標(biāo)記或“X-Robots-Tag”HTTP 標(biāo)頭。

也可以使用密碼保護(hù)個(gè)人數(shù)據(jù),因?yàn)榫W(wǎng)絡(luò)爬蟲無(wú)法破解它。對(duì)于robots.txt 文件,不必從搜索引擎索引中刪除數(shù)據(jù),只需將其隱藏即可。

Robots.txt 生成器——如何創(chuàng)建文件?

Internet 上有很多 robots.txt 生成器,而且 CMS 經(jīng)常配備特殊機(jī)制,使用戶可以更輕松地創(chuàng)建此類文件。您必須手動(dòng)準(zhǔn)備說(shuō)明的可能性很小。但是,值得學(xué)習(xí)協(xié)議的基本結(jié)構(gòu),即可以提供給網(wǎng)絡(luò)爬蟲的規(guī)則和命令。

結(jié)構(gòu)

首先創(chuàng)建 robots.txt 文件。根據(jù) Google 的建議,您應(yīng)該使用 ASCII 或 UTF-8 字符編碼系統(tǒng)。讓一切盡可能簡(jiǎn)單。使用幾個(gè)以冒號(hào)結(jié)尾的關(guān)鍵字來(lái)發(fā)出命令并創(chuàng)建訪問(wèn)規(guī)則。

用戶代理: ——指定命令的接收者。這里需要輸入網(wǎng)絡(luò)爬蟲的名稱。可以在線找到所有名稱的詳盡列表 (http://www.robotstxt.org/db.html),但是,在大多數(shù)情況下,您可能希望主要與 Googlebot 進(jìn)行通信。不過(guò),如果您想向所有機(jī)器人發(fā)出命令,只需使用星號(hào)“*”即可。

因此,Google 機(jī)器人命令的示例性第一行如下所示:

用戶代理:Googlebot

Disallow: – 在這里你提供不應(yīng)該被機(jī)器人掃描的 URL。最常見的方法包括通過(guò)插入以“/”符號(hào)結(jié)尾的訪問(wèn)路徑來(lái)隱藏整個(gè)目錄的內(nèi)容,例如:

不允許:/阻止/

或文件:

不允許:/folder/blockedfile.html

允許: – 如果您的任何隱藏目錄包含您希望網(wǎng)絡(luò)爬蟲可用的內(nèi)容,請(qǐng)?jiān)凇霸试S”后輸入其文件路徑:

允許:/blocked/unblockeddirectory/

允許:/blocked/other/unblockedfile.html

站點(diǎn)地圖: ?– 它允許您定義站點(diǎn)地圖的路徑。但是,此元素不是robots.txt 文件正常工作所必需的。例如:

站點(diǎn)地圖:http://www.mywonderfuladdress.com/sitemap.xml

Robots.txt 文件的指令

默認(rèn)設(shè)置

首先,請(qǐng)記住網(wǎng)絡(luò)爬蟲假定他們被允許掃描整個(gè)網(wǎng)站。因此,如果您的 robots.txt 文件應(yīng)該如下所示:

用戶代理: *

允許: /

那么你不需要將它包含在站點(diǎn)目錄中。機(jī)器人會(huì)根據(jù)自己的喜好抓取網(wǎng)站。但是,您始終可以插入該文件以防止網(wǎng)站分析過(guò)程中可能出現(xiàn)的錯(cuò)誤。

字母大小

盡管這可能令人驚訝,但機(jī)器人能夠識(shí)別小寫字母和大寫字母因此,他們會(huì)將 file.php 和 File.php 視為兩個(gè)不同的地址。

星號(hào)的力量

前面提到的星號(hào) – * 是另一個(gè)非常有用的功能。在 Robots Exclusion Protocol 中,它通知允許在給定空間中放置任何長(zhǎng)度不受限制(也為零)的字符序列。例如:

不允許:/*/file.html

將適用于以下兩個(gè)文件:

/directory1/file.html

和文件夾中的那個(gè):

/folder1/folder2/folder36/file.html

星號(hào)也可以用于其他目的。如果將它放在特定文件擴(kuò)展名之前,則該規(guī)則適用于該類型的所有文件。例如:

不允許:/*.php

將適用于您網(wǎng)站上的所有 .php 文件(“/”路徑除外,即使它指向具有 .php 擴(kuò)展名的文件)和規(guī)則:

不允許:/folder1/test*

將應(yīng)用于 folder1 中以單詞“test”開頭的所有文件和文件夾。

字符序列結(jié)束

不要忘記指示地址結(jié)尾的“$”運(yùn)算符。這樣,使用規(guī)則:

用戶代理: *

不允許:/folder1/

允許:/folder1/*.php$

建議機(jī)器人不要索引 folder1 中的內(nèi)容,但同時(shí)允許它們掃描文件夾內(nèi)的 .php 文件。包含上傳參數(shù)的路徑,例如:

http://mywebsite.com/catalogue1/page.php?page=1

不會(huì)被機(jī)器人抓取。但是,使用規(guī)范 URL 可以輕松解決此類問(wèn)題。

注釋

如果創(chuàng)建的文件或您的網(wǎng)站很復(fù)雜,建議添加注釋來(lái)解釋您的決定這是小菜一碟——只需在行首插入一個(gè)“#”,網(wǎng)絡(luò)爬蟲就會(huì)在掃描站點(diǎn)時(shí)跳過(guò)這部分內(nèi)容。

再舉幾個(gè)例子

您已經(jīng)知道解鎖對(duì)所有文件的訪問(wèn)權(quán)限的規(guī)則,但是,讓網(wǎng)絡(luò)爬蟲離開您的站點(diǎn)的規(guī)則也值得學(xué)習(xí)。

用戶代理: *

不允許: /

如果您的網(wǎng)站沒(méi)有顯示在搜索結(jié)果中,請(qǐng)檢查robots.txt 文件是否不包含上述命令。

在下面的屏幕截圖中,您可以看到在線商店網(wǎng)站上的 robots.txt 文件示例:

它包含一組上述所有結(jié)構(gòu),但站點(diǎn)地圖不是強(qiáng)制性的。

這些規(guī)則適用于所有機(jī)器人。例如,“environment”目錄被屏蔽,但允許網(wǎng)絡(luò)爬蟲進(jìn)入“/environment/cache/images/”路徑。此外,搜索引擎無(wú)法訪問(wèn)購(gòu)物車、登錄頁(yè)面、內(nèi)容副本(索引、完整)或內(nèi)部搜索引擎和評(píng)論部分。

在哪里放置 Robots.txt 文件?

如果您已經(jīng)創(chuàng)建了符合所有標(biāo)準(zhǔn)的 robots.txt 文件,您只需將其上傳到服務(wù)器即可。它必須放在您的主主機(jī)目錄中。任何其他位置都會(huì)阻止機(jī)器人找到它。因此,示例性 URL 如下所示:

http://mywebsite.com/robots.txt

如果您的網(wǎng)站有幾個(gè)版本的 URL(例如帶有 http、https、www 或沒(méi)有 www 的版本),建議將適當(dāng)?shù)闹囟ㄏ驊?yīng)用到一個(gè)主域。多虧了它,該網(wǎng)站將被正確抓取。

谷歌信息

搜索引擎機(jī)器人可以輕松識(shí)別正確定位的文件。但是,您也可以促進(jìn)他們的任務(wù)。

Google 允許 Search Console 用戶檢查他們當(dāng)前的文件,檢查任何計(jì)劃的修改是否正常工作,并上傳新的robots.txt 文件。

Google 官方文檔中的鏈接重定向到舊版本的 GSC,因此我們也將使用它。

什么是 Robots.txt 文件 - 搜索控制臺(tái) Robots.txt 測(cè)試器google.com/webmasters/tools/robots-testing-tool

使用此工具,您可以有效地檢查您網(wǎng)站上的特定元素是否對(duì)機(jī)器人可見。例如,由于以紅色標(biāo)記的強(qiáng)加限制,他們將無(wú)法訪問(wèn) /wp/wp-admin/test.php 地址。

您可以使用“提交”選項(xiàng)通知 Google 您的 robots.txt 文件已更新,并要求它重新抓取您的網(wǎng)站。

Robots.txt 文件——要點(diǎn)

robots.txt 文件是一組針對(duì)爬行您網(wǎng)站的機(jī)器人的建議。大多數(shù)著名的搜索引擎和網(wǎng)絡(luò)爬蟲都遵循這些建議,盡管他們沒(méi)有義務(wù)這樣做。

根據(jù) Google 指南準(zhǔn)備文件肯定會(huì)幫助您確保正確抓取您網(wǎng)站上的所有子頁(yè)面。但是,如果您希望完全阻止機(jī)器人訪問(wèn)服務(wù)器上的某些數(shù)據(jù),則值得應(yīng)用其他更可靠的方法,例如肯定更難破解的密碼。

如果技術(shù) SEO 不是您的菜,請(qǐng)隨時(shí)與我們聯(lián)系!我們會(huì)立即為您完成,并通過(guò)其他 SEO 活動(dòng)提高您網(wǎng)站的知名度。

推薦閱讀
Scroll to Top

聯(lián)系我們

=