二区三区四区,欧美成人一二三区,国产日韩一区二区三区在线观看

百度SEO排名

讓用戶搜到你、信任你、選擇你！ Google 的自動抓取工具支持 REP（robots 協議）。這意味著，在抓取某一網站之前，Google 抓取工具會下載并解析該網站的 robots.txt 文件，以提取關于網站中哪些部分可以被抓取的信息。REP 不適用于由用戶控制的 Google 抓取工具（例如 Feed 訂閱），也不適用于用來提高用戶安全性的抓取工具（例如惡意軟件分析）。 本文介紹了 Google 對 REP 的解讀。有關原始草稿標準的信息，請查看 IETF Data Tracker。如果您是首次接觸 robots.txt，請先閱讀我們的 robots.txt 簡介。您還可以找到關于創建 robots.txt 文件的提示，以及一個詳盡的常見問題解答列表。<h3> 什么是 robots.txt 文件</h3> 如果您不希望抓取工具訪問您網站中的部分內容，可以創建包含相應規則的 robots.txt 文件。robots.txt 文件是一個簡單的文本文件，其中包含關于哪些抓取工具可以訪問網站的哪些部分的規則。例如，example.com 的 robots.txt 文件可能如下所示： # This robots.txt file controls crawling of URLs under https://example.com. # All crawlers are disallowed to crawl files in the "includes" directory, such # as .css, .js, but Googlebot needs them for rendering, so Googlebot is allowed # to crawl them. User-agent: * Disallow: /includes/ User-agent: Googlebot Allow: /includes/ Sitemap: https://example.com/sitemap.xml<h3> 文件位置和有效范圍</h3> 您必須將 robots.txt 文件放在網站的頂級目錄中，并為其使用支持的協議。就 Google 搜索而言，支持的協議包括 HTTP、HTTPS 和 FTP。使用 HTTP 和 HTTPS 協議時，抓取工具會使用 HTTP 無條件 GET 請求來提取 robots.txt 文件；使用 FTP 時，抓取工具會使用標準 RETR (RETRIEVE) 命令，并采用匿名登錄方式。 robots.txt 文件中列出的規則只適用于該文件所在的主機、協議和端口號。 和其他網址一樣，robots.txt 文件的網址也區分大小寫。<h3> 有效 robots.txt 網址的示例</h3> 下表列出了 robots.txt 網址及其適用的網址路徑的示例。 <thead> robots.txt 網址示例 </thead> http://example.com/robots.txt 適用于： http://example.com/ http://example.com/folder/file 不適用于： http://other.example.com/ https://example.com/ http://example.com:8181/ 這屬于一般情況。該網址對其他子網域、協議或端口號來說無效。對同一個主機、協議和端口號上的所有子目錄中的所有文件有效。 http://www.example.com/robots.txt 適用于： http://www.example.com/ 不適用于： http://example.com/ http://shop.www.example.com/ http://www.shop.example.com/ 子網域上的 robots.txt 只對該子網域有效。 http://example.com/folder/robots.txt 不是有效的 robots.txt 文件。抓取工具不會檢查子目錄中的 robots.txt 文件。 http://www.ex?mple.com/robots.txt 適用于： http://www.ex?mple.com/ http://xn--exmple-cua.com/ 不適用于： http://www.example.com/ IDN 等同于其對應的 Punycode 版本。另請參閱 RFC 3492。 ftp://example.com/robots.txt 適用于： ftp://example.com/ 不適用于： http://example.com/ http://212.96.82.21/robots.txt 適用于： http://212.96.82.21/ 不適用于： http://example.com/（即使托管在 212.96.82.21 上） 以 IP 地址作為主機名的 robots.txt 只在抓取作為主機名的該 IP 地址時有效。該 robots.txt 文件并不會自動對該 IP 地址上托管的所有網站有效，但該文件可能是共享的，在此情況下，它也可以在共享主機名下使用。 http://example.com/robots.txt 適用于： http://example.com:80/ http://example.com/ 不適用于： http://example.com:81/ 標準端口號（HTTP 為 80，HTTPS 為 443，FTP 為 21）等同于其默認的主機名。 http://example.com:8181/robots.txt 適用于： http://example.com:8181/ 不適用于： http://example.com/ 非標準端口號上的 robots.txt 文件只對通過這些端口號提供的內容有效。 <h3> 錯誤處理和 HTTP 狀態代碼</h3> 在請求 robots.txt 文件時，服務器響應的 HTTP 狀態代碼會影響 Google 抓取工具使用 robots.txt 文件的方式。下表總結了 Googlebot 針對各種 HTTP 狀態代碼處理 robots.txt 文件的方式。 <thead> 錯誤處理和 HTTP 狀態代碼 </thead> 2xx（成功）表示成功的 HTTP 狀態代碼會提示 Google 抓取工具處理服務器提供的 robots.txt 文件。 3xx（重定向） Google 會按照 RFC 1945 的規定跟蹤至少五次重定向，然后便會停止，并將其作為 robots.txt 的 404 錯誤來處理。這也適用于重定向鏈中任何被禁止訪問的網址，因為抓取工具會由于重定向而無法提取規則。 Google 不會跟蹤 robots.txt 文件中的邏輯重定向（框架、Javascript 或元刷新型重定向）。 4xx（客戶端錯誤） Google 抓取工具會將所有 4xx 錯誤解讀為網站不存在有效的 robots.txt 文件，這意味著抓取將不受限制。 這包括 401 (unauthorized) 和 403 (forbidden) HTTP 狀態代碼。 5xx（服務器錯誤）由于服務器無法對 Google 的 robots.txt 請求提供明確響應，因此 Google 會暫時將服務器錯誤解讀為網站完全禁止訪問。Google 會嘗試抓取 robots.txt 文件，直到獲得非服務器錯誤的 HTTP 狀態代碼。503 (service unavailable) 錯誤會導致非常頻繁的重試操作。如果連續 30 天以上無法訪問 robots.txt，Google 會使用該 robots.txt 的最后一個緩存副本。如果沒有緩存副本，Google 會假定沒有任何抓取限制。 如果您需要暫停抓取，建議為網站上的每個網址提供 503 HTTP 狀態代碼。 如果我們能夠確定，某網站因為配置不正確而在缺少網頁時返回 5xx 而不是 404 狀態代碼，就會將該網站的 5xx 錯誤作為 404 錯誤處理。例如，如果返回 5xx 狀態代碼的網頁上的錯誤消息為"找不到網頁"，我們會將該狀態代碼解釋為 404 (not found)。其他錯誤對于因 DNS 或網絡問題（例如超時、響應無效、重置或斷開連接、HTTP 組塊錯誤等）而無法抓取的 robots.txt 文件，系統在處理時會將其視為服務器錯誤。 <h3> 緩存</h3> Google 通常會將 robots.txt 文件的內容最多緩存 24 小時，但在無法刷新緩存版本的情況下（例如出現超時或 5xx 錯誤時），緩存時間可能會延長。已緩存的響應可由各種不同的抓取工具共享。Google 會根據 max-age Cache-Control HTTP 標頭來延長或縮短緩存生命周期。<h3> 文件格式</h3> robots.txt 文件必須是采用 UTF-8 編碼的純文本文件，且各行代碼必須以 CR、CR/LF 或 LF 分隔。 Google 會忽略 robots.txt 文件中的無效行，包括 robots.txt 文件開頭處的 Unicode 字節順序標記 (BOM)，并且只使用有效行。例如，如果下載的內容是 Html 格式而非 robots.txt 規則，Google 會嘗試解析內容并提取規則，而忽略其他所有內容。 同樣，如果 robots.txt 文件的字符編碼不是 UTF-8，Google 可能會忽略不屬于 UTF-8 范圍的字符，從而可能會導致 robots.txt 規則無效。 Google 目前強制執行的 robots.txt 文件大小限制是 500 KiB，并忽略超過該上限的內容。您可以通過整合會導致 robots.txt 文件過大的指令來減小 robots.txt 文件的大小。例如，將已排除的內容放在一個單獨的目錄中。<h3> 語法</h3> 有效的 robots.txt 行由一個字段、一個冒號和一個值組成。可以選擇是否使用空格，但建議使用空格，有助于提高可讀性。系統會忽略行開頭和結尾的空格。若要添加注釋，請在注釋前面加上 # 字符。請注意，# 字符后面的所有內容都會被忽略。常見格式為 <field>:<value><#optional-comment>。 Google 支持以下字段： user-agent：標識相應規則適用于哪些抓取工具。 allow：可抓取的網址路徑。 disallow：不可抓取的網址路徑。 sitemap：站點地圖的完整網址。 allow 和 disallow 字段也稱為指令。這些指令始終以 directive: [path] 的形式指定，其中 [path] 可以選擇性使用。默認情況下，指定的抓取工具沒有抓取限制。抓取工具會忽略不帶 [path] 的指令。 如果指定了 [path] 值，該路徑值就是 robots.txt 文件所在網站的根目錄的相對路徑（使用相同的協議、端口號、主機和域名）。路徑值必須以 / 開頭來表示根目錄，該值區分大小寫。詳細了解基于路徑值的網址匹配。 user-agent user-agent 行用來標識相應規則適用于哪些抓取工具。請參閱 Google 抓取工具和用戶代理字符串，獲取可在 robots.txt 文件中使用的用戶代理字符串的完整列表。 user-agent 行的值不區分大小寫。 disallow disallow 指令用來指定不能被 disallow 指令所屬的用戶代理行所標識的抓取工具訪問的路徑。抓取工具會忽略不含路徑的指令。 Google 無法將禁止抓取的網頁的內容編入索引，但可能仍會將其網址編入索引并將其顯示在搜索結果中，但不顯示摘要。了解如何阻止編入索引。 disallow 指令的值區分大小寫。 用法： disallow: [path] allow allow 指令用來指定相應抓取工具可以訪問的路徑。如果未指定路徑，該指令將被忽略。 allow 指令的值區分大小寫。 用法： allow: [path] sitemap 根據 sitemaps.org 規定，Google、Bing 和其他主流搜索引擎支持 robots.txt 中的 sitemap 字段。 sitemap 字段的值區分大小寫。 用法： sitemap: [absoluteURL] [absoluteURL] 行指向站點地圖或站點地圖索引文件的位置。此網址必須是完全限定網址，包含協議和主機，且無需進行網址編碼。此網址不需要與 robots.txt 文件位于同一主機上。您可以指定多個 sitemap 字段。sitemap 字段不依賴于任何特定的用戶代理，只要未被禁止抓取，所有抓取工具都可以追蹤它們。 例如： user-agent: otherbot disallow: /kale sitemap: https://example.com/sitemap.xml sitemap: https://CDN.example.org/other-sitemap.xml sitemap: https://ja.example.org/テスト-サイトマップ.xml<h3> 行和規則分組</h3> 通過對每個抓取工具重復 user-agent 行，可將適用于多個用戶代理的規則組合在一起。 例如： user-agent: a disallow: /c user-agent: b disallow: /d user-agent: e user-agent: f disallow: /g user-agent: h 此示例中有四個不同的規則組： 用戶代理"a"為一組 用戶代理"b"為一組 用戶代理"e"和"f"為一組 用戶代理"h"為一組 有關組的技術說明，請參閱 REP 的第 2.1 節。<h3> 用戶代理的優先順序</h3> 對于某個抓取工具而言，只有一個組是有效的。Google 抓取工具會在 robots.txt 文件中查找包含與抓取工具的用戶代理相匹配的最具體用戶代理的組，從而確定正確的規則組。其他組會被忽略。所有非匹配文本都會被忽略（例如，googlebot/1.2 和 googlebot* 均等同于 googlebot）。這與 robots.txt 文件中的組順序無關。 如果為用戶代理聲明多個特定組，則這些組中適用于該特定用戶代理的所有規則會在內部合并成一個組。特定于用戶代理的組和全局組 (*) 不會合并。 示例 user-agent 字段的匹配情況 user-agent: googlebot-news (group 1) user-agent: * (group 2) user-agent: googlebot (group 3) 以下為抓取工具選擇相關組的方法： <thead> 每個抓取工具追蹤的組 </thead> Googlebot News googlebot-news 遵循組 1，因為組 1 是最具體的組。 Googlebot（網絡） googlebot 遵循組 3。 Googlebot Images googlebot-images 遵循組 2，因為沒有具體的 googlebot-images 組。 Googlebot News（抓取圖片時）抓取圖片時，googlebot-news 遵循組 1。 googlebot-news 不會為 Google 圖片抓取圖片，因此它只遵循組 1。 Otherbot（網絡）其他 Google 抓取工具遵循組 2。 Otherbot（新聞）抓取新聞內容但未標識為 googlebot-news 的其他 Google 抓取工具遵循組 2。即使有相關抓取工具的對應條目，也只有在明確匹配時才會有效。 規則分組 如果 robots.txt 文件中有多個組與特定用戶代理相關，則 Google 抓取工具會在內部合并這些組。例如： user-agent: googlebot-news disallow: /fish user-agent: * disallow: /carrots user-agent: googlebot-news disallow: /shrimp 抓取工具會根據用戶代理在內部對規則進行分組，例如： user-agent: googlebot-news disallow: /fish disallow: /shrimp user-agent: * disallow: /carrots allow、disallow 和 user-agent 以外的其他規則會被 robots.txt 解析器忽略。這意味著以下 robots.txt 代碼段被視為一個組，因此 user-agent a 和 b 均受 disallow: / 規則的影響： user-agent: a sitemap: https://example.com/sitemap.xml user-agent: b disallow: / 當抓取工具處理 robots.txt 規則時，會忽略 sitemap 行。例如，下面說明了抓取工具如何理解之前的 robots.txt 代碼段： user-agent: a user-agent: b disallow: /<h3> 基于路徑值的網址匹配</h3> Google 會以 allow 和 disallow 指令中的路徑值為基礎，確定某項規則是否適用于網站上的特定網址。為此，系統會將相應規則與抓取工具嘗試抓取的網址的路徑部分進行比較。路徑中的非 7 位 ASCII 字符可以按照 RFC 3986 作為 UTF-8 字符或百分號轉義的 UTF-8 編碼字符納入。 對于路徑值，Google、Bing 和其他主流搜索引擎支持有限形式的通配符。這些通配符包括： * 表示出現 0 次或多次的任何有效字符。 $ 表示網址結束。 <thead> 路徑匹配示例 </thead> / 匹配根目錄以及任何下級網址。 /* 等同于 /。結尾的通配符會被忽略。 /$ 僅匹配根目錄。任何更低級別的網址均可抓取。 /fish 匹配以 /fish 開頭的任何路徑。 匹配項： /fish /fish.html /fish/salmon.html /fishheads /fishheads/yummy.html /fish.php?id=anything 不匹配項： /Fish.asp /catfish /?id=fish /desert/fish 注意：匹配時區分大小寫。 /fish* 等同于 /fish。結尾的通配符會被忽略。 匹配項： /fish /fish.html /fish/salmon.html /fishheads /fishheads/yummy.html /fish.php?id=anything 不匹配項： /Fish.asp /catfish /?id=fish /fish/ 匹配 /fish/ 文件夾中的任何內容。 匹配項： /fish/ /animals/fish/ /fish/?id=anything /fish/salmon.htm 不匹配項： /fish /fish.html /Fish/Salmon.asp /*.php 匹配包含 .php 的任何路徑。 匹配項： /index.php /filename.php /folder/filename.php /folder/filename.php?parameters /folder/any.php.file.html /filename.php/ 不匹配項： /（即使其映射到 /index.php） /windows.PHP /*.php$ 匹配以 .php 結尾的任何路徑。 匹配項： /filename.php /folder/filename.php 不匹配項： /filename.php?parameters /filename.php/ /filename.php5 /windows.PHP /fish*.php 匹配包含 /fish 和 .php（按此順序）的任何路徑。 匹配項： /fish.php /fishheads/catfish.php?parameters 不匹配項： /Fish.PHP <h3> 規則的優先順序</h3> 匹配 robots.txt 規則與網址時，抓取工具會根據規則路徑的長度使用最具體的規則。如果規則（包括使用通配符的規則）存在沖突，Google 將使用限制性最弱的規則。 以下示例演示了 Google 抓取工具會對特定網址應用什么規則。 <thead> 示例情況 </thead> http://example.com/page allow: /p disallow: / 適用規則：allow: /p，因為它更具體。 http://example.com/folder/page allow: /folder disallow: /folder 適用規則：allow: /folder，因為存在多個匹配規則時，Google 會使用限制性最弱的規則。 http://example.com/page.htm allow: /page disallow: /*.htm 適用規則：disallow: /*.htm，因為它與網址中的字符匹配得更多，因此更具體。 http://example.com/page.php5 allow: /page disallow: /*.ph 適用規則：allow: /page，因為存在多個匹配規則時，Google 會使用限制性最弱的規則。 http://example.com/ allow: /$ disallow: / 適用規則：allow: /$，因為它更具體。 http://example.com/page.htm allow: /$ disallow: / 適用規則：disallow: /，因為 allow 規則僅適用于根網址。 TAG：谷歌object detection

2元/天/詞

整站SEO優化