Jak upravit soubor txt robots. Jak upravit soubor txt robots Soubor txt robots nebyl nalezen, co dělat

Rychlá navigace na této stránce:

Moderní realita je taková, že v Runetu se ani jeden sebevědomý web neobejde bez souboru robots.txt – i když nemáte co zakazovat indexování (ačkoli téměř každý web má technické stránky a duplicitní obsah, který vyžaduje uzavření před indexováním) , pak Minimálně se určitě vyplatí zaregistrovat směrnici s www a bez www pro Yandex - k tomu slouží pravidla pro psaní robots.txt, o kterých bude řeč níže.

Co je robots.txt?

Soubor s tímto názvem pochází z roku 1994, kdy se konsorcium W3C rozhodlo zavést takový standard, aby stránky mohly poskytovat vyhledávačům pokyny k indexování.

Soubor s tímto názvem musí být uložen v kořenovém adresáři webu, jeho umístění do jiných složek není povoleno.

Soubor plní následující funkce:

zakazuje indexování jakýchkoli stránek nebo skupin stránek
umožňuje indexování libovolných stránek nebo skupin stránek
ukazuje robotovi Yandex, které zrcadlo webu je hlavní (s www nebo bez www)
zobrazuje umístění souboru sitemap

Všechny čtyři body jsou nesmírně důležité pro optimalizaci webových stránek pro vyhledávače. Blokování indexování vám umožňuje zablokovat indexování stránek, které obsahují duplicitní obsah – například stránky se značkami, archivy, výsledky vyhledávání, stránky s verzemi pro tisk a tak dále. Přítomnost duplicitního obsahu (když je stejný text, byť o velikosti několika vět, přítomen na dvou nebo více stránkách) je pro web mínusem v hodnocení vyhledávačů, proto by mělo být duplikátů co nejméně.

Direktiva allow nemá žádný nezávislý význam, protože ve výchozím nastavení jsou všechny stránky již dostupné pro indexování. Funguje to ve spojení s disallow – když je například určitá kategorie zcela uzavřena z vyhledávačů, ale rádi byste v ní otevřeli tuto nebo samostatnou stránku.

Ukazování na hlavní zrcadlo webu je také jedním z nejdůležitějších prvků optimalizace: vyhledávače vidí weby www.yoursite.ru a yoursite.ru jako dva různé zdroje, pokud jim přímo neřeknete jinak. Výsledkem je zdvojnásobení obsahu – výskyt duplicit, snížení síly externích odkazů (externí odkazy lze umístit jak s www, tak bez www) a ve výsledku to může vést k nižšímu hodnocení ve výsledcích vyhledávání.

Pro Google je hlavní zrcadlo registrováno v Nástrojích pro webmastery (http://www.google.ru/webmasters/), ale pro Yandex lze tyto pokyny zaregistrovat pouze ve stejném robots.tkht.

Ukázání na soubor xml s mapou webu (například sitemap.xml) umožňuje vyhledávačům tento soubor detekovat.

Pravidla pro specifikaci User-agent

User-agent je v tomto případě vyhledávač. Při psaní pokynů musíte uvést, zda budou platit pro všechny vyhledávače (v takovém případě je uvedena hvězdička - *) nebo zda jsou určeny pro konkrétní vyhledávač - například Yandex nebo Google.

Chcete-li nastavit User-agent označující všechny roboty, napište do svého souboru následující řádek:

User-agent: *

Pro Yandex:

Uživatelský agent: Yandex

Pro Google:

User-agent: GoogleBot

Pravidla pro specifikaci nepovolit a povolit

Nejprve je třeba poznamenat, že soubor robots.txt musí obsahovat alespoň jednu direktivu disallow, aby byla platná. Nyní se podívejme na aplikaci těchto direktiv na konkrétních příkladech.

Pomocí tohoto kódu povolíte indexování všech stránek webu:

User-agent: * Disallow:

A s tímto kódem se naopak všechny stránky uzavřou:

User-agent: * Disallow: /

Chcete-li zakázat indexování konkrétního adresáře s názvem složka, zadejte:

User-agent: * Disallow: /folder

K nahrazení libovolného názvu můžete také použít hvězdičky:

User-agent: * Disallow: *.php

Důležité: hvězdička nahrazuje celý název souboru, to znamená, že nemůžete zadat soubor*.php, ale pouze *.php (ale všechny stránky s příponou .php budou zakázány; abyste tomu zabránili, můžete zadat konkrétní adresu stránky) .

Direktiva allow, jak je uvedeno výše, se používá k vytvoření výjimek v disallow (jinak nemá žádný význam, protože stránky jsou již standardně otevřeny).

Zakážeme například indexování stránek v archivní složce, ale ponecháme stránku index.html z tohoto adresáře otevřenou:

Povolit: /archive/index.html Zakázat: /archive/

Zadejte hostitele a mapu webu

Hostitel je hlavním zrcadlem webu (tj. název domény plus www nebo název domény bez této předpony). Hostitel je určen pouze pro robota Yandex (v tomto případě musí existovat alespoň jeden příkaz Disallow).

Chcete-li určit hostitele, musí soubor robots.txt obsahovat následující položku:

User-agent: Yandex Disallow: Host: www.yoursite.ru

Pokud jde o mapu webu, v souboru robots.txt je mapa webu označena jednoduchým zapsáním úplné cesty k odpovídajícímu souboru s uvedením názvu domény:

Soubor Sitemap: http://yoursite.ru/sitemap.xml

Je napsáno o tom, jak vytvořit mapu webu pro WordPress.

Příklad robots.txt pro WordPress

Pro WordPress musí být pokyny specifikovány tak, aby byly zavřeny všechny technické adresáře (wp-admin, wp-includes atd.) pro indexování, stejně jako duplicitní stránky vytvořené pomocí značek, souborů RSS, komentářů a vyhledávání.

Jako příklad souboru robots.txt pro wordpress si můžete vzít soubor z našeho webu:

User-agent: Yandex Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /search Disallow: */trackback Disallow: */feed/ Disallow: */feed Disallow: */comments/ Disallow: /?feed= Disallow: /?s= Disallow: */page/* Disallow: */comment Disallow: */tag/* Disallow: */ attachment/* Allow: /wp-content/uploads/ Host: www..php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /search Disallow: */trackback Disallow: */feed/ Disallow: * /feed Disallow: */comments/ Disallow: /?feed= Disallow: /?s= Disallow: */page/* Disallow: */comment Disallow: */tag/* Disallow: */attachment/* Allow: /wp -content/uploads/ User-agent: * Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /search Disallow: */trackback Disallow: */feed/ Disallow: */feed Disallow: */comments/ Disallow: /?feed= Disallow: /?s= Disallow: */page/* Disallow: */comment Disallow: */tag/ * Disallow: */attachment/* Allow: /wp-content/uploads/ Sitemap: https://www..xml

Soubor robots.txt si můžete stáhnout z našich webových stránek pomocí .

Pokud po přečtení tohoto článku stále máte nějaké otázky, zeptejte se v komentářích!

Prohledávače Yandex a Google navštěvují stránky webu, vyhodnocují obsah, přidávají nové zdroje a informace o stránkách do indexové databáze vyhledávače. Boti pravidelně navštěvují stránky, aby přenesli aktualizace obsahu do databáze, všimli si vzhledu nových odkazů a jejich dostupnosti.

Proč je potřeba skenování:

Sbírejte data pro vytvoření indexu – informace o nových stránkách a aktualizacích starých.
Porovnejte adresy URL v indexu a v seznamu procházení.
Odstraňte duplicitní adresy URL z fronty, abyste je nestahovali dvakrát.

Boti se nedívají na všechny stránky webu. Počet je omezen rozpočtem procházení, což je počet adres URL, které může robot prohledávače procházet. Rozpočet na objemný web nemusí stačit. Existuje riziko, že rozpočet na procházení bude vynaložen na procházení nedůležitých nebo „nevyžádaných“ stránek, a aby se tomu zabránilo, webmasteři řídí prohledávače pomocí souboru robots.txt.

Boti jdou na web a najdou soubor robots.txt v kořenovém adresáři, analyzují přístup ke stránkám a přejdou na mapu webu – zkrátí dobu procházení bez přístupu k uzavřeným odkazům. Po prostudování souboru jdou boti na hlavní stránku a odtud jdou hlouběji do webu.

Které stránky bude prohledávač procházet rychleji:

Jsou umístěny blíže k hlavnímu.
Čím méně kliknutí z hlavní stránky vede na stránku, tím je důležitější a pravděpodobněji ji navštíví prohledávač. Počet přechodů z hlavní stránky na aktuální stránku se nazývá (DFI).
Mít mnoho odkazů.
Pokud na stránku odkazuje mnoho lidí, znamená to, že je užitečná a má dobrou pověst. Přibližně 11–20 odkazů na stránku je považováno za normální a také se bere v úvahu propojení mezi vašimi vlastními materiály.
Načítá se rychle.
Zkontrolujte rychlost stahování, pokud je pomalá - a.

Všechny návštěvy robotů prohledávače nejsou zaznamenávány nástroji, jako je Google Analytics, ale chování robotů lze sledovat v souborech protokolu. Některé problémy SEO velkých webů lze vyřešit pomocí, což vám také pomůže vidět problémy s odkazy a rozložením procházení rozpočtu.

Robots.txt pro Yandex a Google

Webmasteři mohou ovládat chování robotů prohledávače na webu pomocí souboru robots.txt. Robots.txt je textový soubor pro roboty vyhledávačů s pokyny pro indexování. Říká, které stránky a soubory na webu nelze procházet, což umožňuje robotům snížit počet požadavků na server a neztrácet čas na neinformativních, identických a nedůležitých stránkách.

V robots.txt můžete otevřít nebo zablokovat přístup ke všem souborům nebo samostatně určit, které soubory lze kontrolovat a které ne.

Požadavky na soubor robots.txt:

soubor se jmenuje " robots.txt", název je psán pouze malými písmeny, "Robots.TXT" a další varianty nejsou podporovány;
umístěn pouze v kořenovém adresáři - https://site.com/robots.txt, nemůže být v podadresáři;
na webových stránkách v jedné kopii;
má formát .txt;
váží až 32 KB;
jako odpověď na požadavek vrátí HTTP kód s ;
každá předpona URL na samostatném řádku;
obsahuje pouze latinské znaky.

Pokud je doména v azbuce, pro robots.txt přeložte všechny odkazy v azbuce do Punycode pomocí libovolného převodníku Punycode: „site.rf“ - „xn--80aswg.xn--p1ai“.

Robots.txt je platný pro HTTP, HTTPS a FTP, je kódován UTF-8 nebo ASCII a je směrován pouze s ohledem na hostitele, protokol a číslo portu, kde se nachází.

Lze jej přidat na adresy se subdoménami - http://web.site.com/robots.txt nebo nestandardními porty - http://site.com:8181/robots.txt. Pokud má váš web více subdomén, umístěte soubor do kořenového adresáře každé z nich.

Jak vyloučit stránky z indexování pomocí robots.txt

V souboru robots.txt můžete robotům zabránit v indexování určitého obsahu.

User-agent: * Disallow: /about/

Zápis formátu „Disallow: /about“ bez koncového „/“ odepře přístup k sekci http://site.com/about/, souboru http://site.com/about.php a dalším odkazům, které začínají s "/asi".

Pokud potřebujete zakázat přístup k několika sekcím nebo složkám, každý potřebuje samostatný řádek s Disallow:

User-agent: * Disallow: /about Disallow: /info Disallow: /album1

Dovolit

Direktiva definuje cesty, které jsou k dispozici určeným vyhledávacím robotům. Ve skutečnosti jde naopak o Disallow - direktivu umožňující skenování. Pro roboty platí pravidlo: co není zakázáno, je povoleno, ale někdy je potřeba povolit přístup k určitému souboru a zavřít ostatní informace.

Vše, co začíná „/catalog“, je povoleno skenovat, ale vše ostatní je zakázáno:

User-agent: * Allow: /catalog Disallow: /

Skenování souboru "photo.html" je povoleno, ale všechny ostatní informace v adresáři /album1/ jsou zakázány:

User-agent: * Povolit: /album1/photo.html Zakázat: /album1/

Zablokujte přístup k adresářům „site.com/catalog1/“ a „site.com/catalog2/“, ale povolte přístup k „catalog2/subcatalog1/“:

User-agent: * Disallow: /catalog1/ Disallow: /catalog2/ Allow: /catalog2/subcatalog1/

Stává se, že pro stránku platí několik pravidel. Poté robot seřadí seznam od nejmenšího po největší podle délky předpony URL a bude se řídit posledním pravidlem v seznamu.

Direktivy, které roboti Yandex rozpoznávají:

Čistý-param

Některé stránky jsou duplikovány s různými parametry GET nebo UTM tagy, které nemají vliv na obsah. Například pokud bylo v katalogu produktů použito řazení nebo jiná ID.

Chcete-li sledovat, ze kterého zdroje byla stránka s knihou book_id=123 vyžádána, použijte ref:

"www.site.com/some_dir/get_book.pl?ref=site_1& book_id=123"
"www.site.com/some_dir/get_book.pl?ref=site_2& book_id=123"
"www.site.com/some_dir/get_book.pl?ref=site_3& book_id=123"

Stránka s knihou je stejná, obsah se nemění. Chcete-li robotovi zabránit ve skenování všech verzí takových stránek s různými parametry, použijte pravidlo Clean-param:

User-agent: Yandex Disallow: Clean-param: ref/some_dir/get_book.pl

Robot Yandex zredukuje všechny adresy stránek do jednoho formuláře:

"www.example.com/nejaky_adresar/get_book.pl? book_id=123"

Pro adresy jako:
"www.example2.com/index.php? page=1&sid=2564126ebdec301c607e5df"
"www.example2.com/index.php? page=1&sid=974017dcd170d6c4a5d76ae"

robots.txt bude obsahovat:

User-agent: Yandex Disallow: Clean-param: sid/index.php

Pro adresy jako

"www.example1.com/forum/showthread.php?s=681498b9648949605&t=8243"
"www.example1.com/forum/showthread.php?s=1e71c4427317a117a&t=8243"

robots.txt bude obsahovat:

User-agent: Yandex Disallow: Clean-param: s/forum/showthread.php

Pokud existuje několik parametrů přechodu:
"www.example1.com/forum_old/showthread.php?s=681498605&t=8243&ref=1311"
"www.example1.com/forum_new/showthread.php?s=1e71c417a&t=8243&ref=9896"

robots.txt bude obsahovat:

User-agent: Yandex Disallow: Clean-param: s&ref/forum*/showthread.php

Hostitel

Pravidlo ukazuje, které zrcadlo je třeba vzít v úvahu při indexování. URL musí být napsáno bez "http://" a bez koncového lomítka "/".

User-agent: Yandex Disallow: /about Host: www.site.com

Nyní se tato směrnice již nepoužívá, pokud je ve vašem robots.txt, můžete ji smazat. Místo toho musíte nainstalovat přesměrování 301 na všechna nehlavní zrcadla webu.

Zpoždění procházení

Dříve časté načítání stránek zatěžovalo server, takže pro roboty bylo nastaveno zpoždění procházení – čekací doba robota v sekundách mezi načtením. Tuto direktivu lze vynechat, výkonné servery ji nevyžadují.

Čekací doba - 4 sekundy:

User-agent: * Allow: /album1 Disallow: / Crawl-delay: 4

Pouze latina

Špatně:

User-agent: Yandex Disallow: /directory

Že jo:

User-agent: Yandex Disallow: /xn--/-8sbam6aiv3a

Příklad robots.txt

Záznam znamená, že pravidlo platí pro všechny roboty: je zakázáno procházet odkazy z košíku, z vestavěného vyhledávacího a administračního panelu, mapa stránek je umístěna na odkazu http://site.com/ sitemap, ref nemění obsah stránky get_book:

User-agent: * Disallow: /bin/ Disallow: /search/ Disallow: /admin/ Sitemap: http://site.com/sitemap Clean-param: ref/some_dir/get_book.pl

Nástroje pro kompilaci a kontrolu robots.txt

Vytvořte robots.txt zdarma pomůže, umožní vám zavřít nebo otevřít celý web pro roboty, určit cestu k mapě webu, nastavit omezení návštěvy stránek, zablokovat přístup k některým robotům a nastavit zpoždění:

Nástrojové grafy k vyplnění

Pro kontrola chyb v souboru robots.txt Vyhledávače mají své vlastní nástroje:

Nástroj Google pro kontrolu souboru robots.txt vám umožňuje zkontrolovat, jak robot vidí konkrétní URL. Musíte zadat adresu URL, kterou chcete zkontrolovat v poli, a nástroj zobrazí, zda je odkaz k dispozici.

Ověřovací nástroj Yandex ukáže, zda je soubor správně vyplněn. Musíte zadat web, pro který byl soubor robots.txt vytvořen, a přenést jeho obsah do pole.

Soubor robots.txt není vhodný k blokování přístupu k soukromým souborům, ale nasměruje prohledávače na mapu webu a poskytuje doporučení pro rychlé skenování důležitých materiálů.

robots.txt je běžný textový soubor umístěný na webové stránce a určený pro roboty vyhledávačů. V tomto souboru můžete zadat parametry indexování pro váš web pro všechny roboty vyhledávačů najednou nebo pro každý vyhledávač zvlášť.

Při vstupu na web všechny vyhledávací roboty nejprve hledají soubor robots.txt.

Jak vytvořit?

Vytvoření souboru robots.txt je velmi jednoduché – vytvořte běžný textový dokument, říkejte mu roboti, neudělejte chybu v případě písmen nebo v samotných písmenech, název by měl být přesně takový. Pokud neplánujete zakázat indexování stránek webu, můžete ponechat vytvořený soubor prázdný. Pokud plánujete, jednoduše vyplňte dokument v souladu s obecnými normami přijatými v roce 1994. Poté musíte soubor nahrát do kořenového adresáře vašeho webu, aby bylo možné soubor otevřít pomocí odkazu http://www.site.ru/robots.txt. Všechno.

Co skrýt před indexováním?

Pravidla pro vyplňování souboru robots.txt

Takže v souboru robots.txt musí být každý příkaz nebo příkaz zapsán na samostatný řádek. Počet týmů není omezen.

direktiva user-agent
První věcí, kterou byste měli začít vyplňovat soubor, je uvést, pro kterého robota budou příkazy určeny, k tomu napíšeme na první řádek:
pokud jsou vaše pokyny určeny pro roboty Yandex:
Uživatelský agent: yandex
pro Googleboty:
User-agent: googlebot
pro všechny roboty bez výjimky:
Direktiva Disallow a Allow
tým Zakázat zakazuje robotovi indexovat konkrétní soubor nebo složku.

Například,
zakazuje indexování souborů v této složce:
Disallow: /cgi-bin/
zakazuje indexování tohoto souboru:
Disallow: /company.html
zákaz indexování celého webu:
Zkontrolujte svůj web – to je jeden z běžných důvodů, proč web není indexován.
Důležité! Není správné zadat několik direktiv na jeden řádek:
Disallow: /cgi-bin/ /cell/ /bot/

Směrnice Dovolit naopak odstraňuje zákaz indexování některých souborů. Příklad jeho použití:

Uživatelský agent: Yandex
Povolit: /cgi-binDisallow: /

Tato položka v souboru brání robotu Yandex ve stahování všeho kromě stránek začínajících „/cgi-bin“.

Důležité! Pokud je v souboru zadána direktiva, ale parametry pro ni nejsou uvedeny, budou hodnoty následující:
Neexistuje žádný zákaz indexování stránek:
celý web je zakázáno indexovat:
Direktiva Sitemap
Pokud máte mapu webu ve formátu sitemaps.xml, zadejte cestu k ní ve speciální direktivě Sitemap(pokud existuje několik souborů, uveďte všechny):

Soubor Sitemap: http://site.ru/sitemaps1.xml
Soubor Sitemap: http://site.ru/sitemaps2.xml
Hostitelská směrnice
Tento záznam používají roboti Yandex. Definujte a určete hlavní zrcadlo vašeho webu v direktivě Host:

Hostitel: www.site.ru

Začínající webmasteři často zapomínají, že stránky s www a bez www (www.site.ru a site.ru) jsou navzájem zrcadly. Proto nezapomeňte uvést, která adresa má prioritu, s www nebo bez.

Směrnice Hostitel nezaručuje výběr zadaného hlavního zrcadla, ale Yandex jej bere v úvahu s vysokou prioritou.

Příklad vyplňování robots.txt

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /jazyk/
Disallow: /modules/
Disallow: /plugins/
Disallow: /šablony/
Disallow: /tmp/
Hostitel: sait.ru
Soubor Sitemap: http://site.ru/sitemaps.xml

Kontrola souboru robots.txt

Chcete-li zkontrolovat výsledný soubor, můžete použít Yandex.Webmaster. Nebo si u nás objednejte kompletní SEO audit a my zkontrolujeme nejen tento soubor, ale i další důležité parametry.

Robots.txt je servisní soubor, který slouží jako doporučení pro omezení přístupu k obsahu webových dokumentů pro vyhledávače. V tomto článku se podíváme na nastavení Robots.txt, popis direktiv a jeho sestavení pro populární CMS.

Tento soubor Robot se nachází v kořenovém adresáři vašeho webu a lze jej otevřít/upravit pomocí jednoduchého poznámkového bloku, doporučuji Notepad++. Pro ty, co neradi čtou, je tu VIDEO, viz konec článku 😉

Proč potřebujeme soubor robots.txt?

Jak jsem uvedl výše, pomocí souboru robots.txt můžeme omezit přístup vyhledávacích robotů k dokumentům, tzn. přímo ovlivňujeme indexování webu. Nejčastěji jsou blokovány v indexování:

Servisní soubory a složky CMS
Duplikáty
Dokumenty, které nejsou pro uživatele užitečné
Nejsou to jedinečné stránky

Podívejme se na konkrétní příklad:

Internetový obchod prodávající boty je implementován na jednom z populárních CMS a ne zrovna nejlepším způsobem. Okamžitě mohu říci, že výsledky vyhledávání budou zahrnovat vyhledávací stránky, stránkování, nákupní košík, některé soubory vyhledávačů atd. To vše budou duplikáty a soubory služeb, které jsou uživateli k ničemu. Proto by měly být uzavřeny z indexování, a pokud existuje také sekce „Novinky“, do které se kopírují a vkládají různé zajímavé články z konkurenčních stránek, není třeba na to myslet, okamžitě ji zavřeme.

Proto se ujistíme, že vytvoříme soubor robots.txt, aby se do výsledků nedostal žádný odpad. Nezapomeňte, že soubor by měl být otevřen na http://site.ru/robots.txt.

Direktivy Robots.txt a konfigurační pravidla

User-agent. Toto je výzva pro konkrétního robota vyhledávače nebo pro všechny roboty. Pokud je zadáno konkrétní jméno robota, například „YandexMedia“, obecné příkazy user-agent se pro něj nepoužívají. Příklad psaní:

User-agent: YandexBot Disallow: /cart # bude použit pouze hlavním indexovacím robotem Yandex

Zakázat/Povolit. Toto je zákaz/povolení indexovat konkrétní dokument nebo sekci. Na pořadí zápisu nezáleží, ale pokud existují 2 směrnice a stejná předpona, má přednost „Povolit“. Vyhledávací robot je přečte podle délky předpony, od nejmenší po největší. Pokud potřebujete zakázat indexování stránky, jednoduše zadejte relativní cestu k ní (Disallow: /blog/post-1).

User-agent: Yandex Disallow: / Allow: /articles # Zakazujeme indexování stránek, kromě článků s 1 sekcí

Regulární výrazy s * a $. Hvězdička znamená libovolnou sekvenci znaků (včetně prázdných). Znak dolaru znamená přerušení. Příklady použití:

Disallow: /page* # zakazuje všechny stránky, konstrukce http://site.ru/page Disallow: /arcticles$ # zakazuje pouze stránku http://site.ru/articles, povoluje stránky http://site.ru/ články /nové

Direktiva Sitemap. Pokud jej používáte, v souboru robots.txt by měl být označen takto:

Soubor Sitemap: http://site.ru/sitemap.xml

Hostitelská směrnice. Jak víte, stránky mají zrcadla (čteme,). Toto pravidlo nasměruje vyhledávacího robota na hlavní zrcadlo vašeho zdroje. Odkazuje na Yandex. Pokud máte mirror bez WWW, tak napište:

Hostitel: site.ru

Zpoždění procházení. Nastavuje prodlevu (v sekundách) mezi tím, než robot stáhne vaše dokumenty. Píše se za příkazy Disallow/Allow.

Zpoždění procházení: 5 # časový limit za 5 sekund

Čistý-param. Označuje vyhledávacího robota, že není potřeba stahovat další duplicitní informace (identifikátory relace, referreři, uživatelé). Clean-param by měl být specifikován pro dynamické stránky:

Clean-param: ref /category/books # označujeme, že naše stránka je hlavní a http://site.ru/category/books?ref=yandex.ru&id=1 je stejná stránka, ale s parametry

Hlavní pravidlo: robots.txt musí být napsán malými písmeny a umístěn v kořenovém adresáři webu. Příklad struktury souboru:

User-agent: Yandex Disallow: /cart Povolit: /cart/images Mapa webu: http://site.ru/sitemap.xml Hostitel: site.ru Crawl-delay: 2

Meta tag robots a jak je napsán

Tuto možnost zakazování stránek lépe zohledňuje vyhledávač Google. Yandex bere obě možnosti v úvahu stejně dobře.

Má 2 směrnice: follow/nofollow A index/noindex. Toto je povolení/zákaz následujících odkazů a povolení/zákaz indexování dokumentů. Direktivy lze psát společně, viz příklad níže.

Pro každou jednotlivou stránku můžete napsat značku Následující:

Opravte soubory robots.txt pro populární CMS

Příklad Robots.txt pro WordPress

Níže se můžete podívat na mou verzi z tohoto SEO blogu.

User-agent: Yandex Disallow: /wp-content/uploads/ Allow: /wp-content/uploads/*/*/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow : /template.html Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: / wp-trackback Disallow: /wp-feed Disallow: /wp-comments Disallow: */trackback Disallow: */feed Disallow: */comments Disallow: /tag Disallow: /archive Disallow: */trackback/ Disallow: */feed/ Disallow: */comments/ Disallow: /?feed= Disallow: /?.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /template.html Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /wp-trackback Disallow: /wp-feed Disallow: /wp-comments Disallow: */trackback Disallow: */feed Disallow: */comments Disallow: /tag Disallow: /archive Disallow: */trackback/ Disallow: */feed/ Disallow: */comments/ Disallow: /?feed= Disallow: /?. xml

Zakazuji trackbacky, protože to duplikuje kus článku v komentářích. A pokud je zpětných odkazů hodně, dostanete spoustu stejných komentářů.

Snažím se zavřít složky a soubory služeb jakéhokoli CMS, protože... Nechci, aby byly zařazeny do indexu (vyhledávače je sice stejně neberou, ale horší to nebude).

Zdroje by měly být uzavřeny, protože Jedná se o částečné nebo úplné duplicitní stránky.

Značky uzavíráme, pokud je nepoužíváme nebo jsme příliš líní je optimalizovat.

Příklady pro jiné CMS

Chcete-li stáhnout správné roboty pro požadovaný CMS, jednoduše klikněte na příslušný odkaz.

Tento článek obsahuje příklad optimálního, dle mého názoru, kódu pro soubor robots.txt pro WordPress, který můžete použít na svých webech.

Pro začátek si připomeňme proč potřebujete robots.txt- soubor robots.txt je potřeba výhradně pro vyhledávací roboty, aby jim „řekl“, které části/stránky webu mají navštívit a které by neměli navštěvovat. Stránky, které jsou uzavřeny před návštěvou, nebudou zahrnuty do indexu vyhledávače (Yandex, Google atd.).

Možnost 1: Optimální kód robots.txt pro WordPress

User-agent: * Disallow: /cgi-bin # classic... Disallow: /? # všechny parametry dotazu na hlavní stránce Disallow: /wp- # all WP files: /wp-json/, /wp-includes, /wp-content/plugins Disallow: *?s= # search Disallow: *&s= # search Disallow: /search # search Disallow: /author/ # autor archiv Disallow: */embed # všechna vložení Disallow: */page/ # všechny typy stránkování Povolit: */uploads # open uploads Povolit: /*/*.js # inside /wp - (/*/ - pro prioritu) Povolit: /*/*.css # inside /wp- (/*/ - pro prioritu) Povolit: /wp-*.png # obrázky v pluginech, složce mezipaměti atd. . Povolit: /wp-*.jpg # obrázky v pluginech, složce mezipaměti atd. Povolit: /wp-*.jpeg # obrázky v pluginech, složce mezipaměti atd. Povolit: /wp-*.gif # obrázky v pluginech, složce mezipaměti atd. Povolit: /wp-*.svg # obrázky v pluginech, složce mezipaměti atd. Povolit: /wp-*.pdf # soubory v pluginech, složce mezipaměti atd. Povolit: /wp-admin/admin-ajax.php #Disallow: /wp/ #, když je WP nainstalováno v podadresáři wp Sitemap: http://example.com/sitemap.xml Sitemap: http://example.com/ sitemap2 # jiný soubor #Sitemap: http://example.com/sitemap.xml.gz # komprimovaná verze (.gz) # Verze kódu: 1.1 # Nezapomeňte změnit `site.ru` na svůj web.

Analýza kódu:

V řádku User-agent: * uvádíme, že všechna níže uvedená pravidla budou fungovat pro všechny vyhledávací roboty *. Pokud potřebujete, aby tato pravidla fungovala pouze pro jednoho konkrétního robota, pak místo * uvedeme jméno robota (User-agent: Yandex, User-agent: Googlebot).

V řádku Allow: */uploads záměrně umožňujeme indexování stránek, které obsahují /uploads. Toto pravidlo je povinné, protože výše zakazujeme indexování stránek začínajících na /wp- a /wp- obsažen v /wp-content/uploads. Proto, abyste přepsali pravidlo Disallow: /wp-, potřebujete řádek Allow: */uploads , protože pro odkazy jako /wp-content/uploads/... Můžeme mít obrázky, které je třeba indexovat, a také mohou existovat nějaké stažené soubory, které není třeba skrývat. Allow: může být "před" nebo "po" Disallow: .

Zbývající řádky zakazují robotům „sledovat“ odkazy, které začínají:

Disallow: /cgi-bin - zavře adresář scripts na serveru
Disallow: /feed - zavře RSS kanálu blogu
Disallow: /trackback - zavře upozornění
Disallow: ?s= nebo Disallow: *?s= - zavře vyhledávací stránky
Disallow: */page/ - zavře všechny typy stránkování

Pravidlo Sitemap: http://example.com/sitemap.xml odkazuje robota na soubor se souborem Sitemap ve formátu XML. Pokud máte takový soubor na svém webu, napište k němu úplnou cestu. Těchto souborů může být několik, cestu ke každému pak uvádíme samostatně.

V řádku Host: site.ru označujeme hlavní zrcadlo webu. Pokud má web zrcadla (kopie webu v jiných doménách), pak aby je Yandex indexoval všechny stejně, musíte zadat hlavní zrcadlo. Hostitelská směrnice: rozumí pouze Yandex, Google nerozumí! Pokud web funguje pod protokolem https, musí být uveden v Host: Host: http://example.com

Z dokumentace Yandex: „Host je nezávislá směrnice a funguje kdekoli v souboru (průřezová).“ Proto jej umístíme na začátek nebo na úplný konec souboru, přes prázdný řádek.

Protože přítomnost otevřených zdrojů je vyžadována například pro Yandex Zen, když potřebujete připojit web ke kanálu (díky komentátoru „Digital“). Možná jsou jinde potřeba otevřené kanály.

Feedy mají zároveň v hlavičkách odpovědí svůj formát, díky kterému vyhledávače pochopí, že se nejedná o HTML stránku, ale feed a evidentně to zpracují nějak jinak.

Direktiva Host již není pro Yandex potřeba

Yandex zcela opouští direktivu Host a nahrazuje ji přesměrováním 301. Hostitele lze bezpečně odebrat ze souboru robots.txt. Je však důležité, aby všechna zrcadla webu měla přesměrování 301 na hlavní web (hlavní zrcadlo).

To je důležité: pravidla třídění před zpracováním

Yandex a Google zpracovávají příkazy Allow a Disallow nikoli v pořadí, ve kterém jsou specifikovány, ale nejprve je seřadí od krátkého pravidla po dlouhé a poté zpracují poslední odpovídající pravidlo:

User-agent: * Allow: */uploads Disallow: /wp-

se bude číst jako:

User-agent: * Disallow: /wp- Allow: */uploads

Chcete-li rychle pochopit a použít funkci řazení, zapamatujte si toto pravidlo: „Čím delší je pravidlo v souboru robots.txt, tím vyšší prioritu má. Pokud je délka pravidel stejná, přednost má direktiva Allow."

Možnost 2: Standardní soubor robots.txt pro WordPress

Nevím proč, ale jsem pro první možnost! Protože je to logičtější - není nutné zcela duplikovat sekci, aby bylo možné označit hostitelskou direktivu pro Yandex, která je průsečíková (rozuměná robotem kdekoli v šabloně, aniž by bylo uvedeno, na kterého robota se odkazuje). Pokud jde o nestandardní direktivu Allow, funguje pro Yandex a Google, a pokud neotevře složku pro nahrávání pro jiné roboty, kteří jí nerozumí, nebude to v 99% případů znamenat nic nebezpečného. Ještě jsem si nevšiml, že by první roboti nefungovali tak, jak by měli.

Výše uvedený kód je trochu nesprávný. Děkuji komentátorovi " " za upozornění na nesprávnost, i když jsem musel sám přijít na to, co to je. A na tohle jsem přišel (mohu se mýlit):

Někteří roboti (ne Yandex a Google) nerozumí více než 2 příkazům: User-agent: a Disallow:

Direktiva Yandex Host: musí být použita po Disallow:, protože někteří roboti (nikoli Yandex a Google) jí nemusí rozumět a obecně odmítají robots.txt. Samotnému Yandexu, soudě podle dokumentace, je absolutně jedno, kde a jak používat Host:, i když obvykle vytváříte robots.txt pouze s jedním řádkem Host: www.site.ru, abyste spojili všechna zrcadla stránek dohromady.

3. Sitemap: průsečíková směrnice pro Yandex a Google a zřejmě i pro mnoho dalších robotů, takže ji napíšeme na konec s prázdným řádkem a bude fungovat pro všechny roboty najednou.

Na základě těchto změn by správný kód měl vypadat takto:

User-agent: Yandex Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-json/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: */embed Disallow: */page/ Disallow: /cgi-bin Disallow: *?s= Allow: /wp-admin/admin-ajax.php Host: site.ru User-agent: * Disallow: /wp-admin Disallow : /wp-includes Disallow: /wp-content/plugins Disallow: /wp-json/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: */embed Disallow: */page/ Disallow: / cgi-bin Disallow: *?s= Allow: /wp-admin/admin-ajax.php Sitemap: http://example.com/sitemap.xml

Přidejme si to za sebe

Pokud potřebujete zablokovat jakékoli další stránky nebo skupiny stránek, můžete níže přidat pravidlo (směrnici). Disallow:. Potřebujeme například zavřít všechny položky v kategorii z indexování zprávy, pak předtím Sitemap: přidat pravidlo:

Disallow: /news

Zabraňuje robotům sledovat tyto odkazy:

http://example.com/novinky
http://example.com/news/drugoe-nazvanie/

Pokud potřebujete zavřít jakékoli výskyty /news , napište:

Disallow: */news

http://example.com/novinky
http://example.com/moje/novinky/drugoe-nazvanie/
http://example.com/category/newsletter-nazvanie.html

Direktivy robots.txt si můžete podrobněji prostudovat na stránce nápovědy Yandex (ale mějte na paměti, že ne všechna zde popsaná pravidla fungují pro Google).

Kontrola souboru Robots.txt a dokumentace

Správné fungování předepsaných pravidel můžete zkontrolovat pomocí následujících odkazů:

Yandex: http://webmaster.yandex.ru/robots.xml.
Google to dělá v Vyhledávací konzole. Potřebujete autorizaci a přítomnost webu v panelu webmastera...
Služba pro vytvoření souboru robots.txt: http://pr-cy.ru/robots/
Služba pro vytváření a kontrolu robots.txt: https://seolib.ru/tools/generate/robots/

Zeptal jsem se Yandex...

Položil jsem otázku v technice. Podpora Yandexu ohledně intersekcionálního použití direktiv Host a Sitemap:

Otázka:

Ahoj!
Na svém blogu píšu článek o robots.txt. Rád bych dostal odpověď na tuto otázku (v dokumentaci jsem nenašel jasné „ano“):

Pokud potřebuji přilepit všechna zrcadla a k tomu použiji direktivu Host na samém začátku souboru robots.txt:
Host: site.ru User-agent: * Disallow: /asd
Bude hostitel: site.ru v tomto příkladu fungovat správně? Naznačí to robotům, že site.ru je hlavním zrcadlem. Tito. Tuto direktivu nepoužívám v sekci, ale samostatně (na začátku souboru), aniž bych uvedl, na kterého User-agenta se vztahuje.

Také jsem chtěl vědět, zda musí být direktiva Sitemap použita uvnitř sekce nebo může být použita mimo: například přes prázdný řádek po sekci?
User-agent: Yandex Disallow: /asd User-agent: * Disallow: /asd Sitemap: http://example.com/sitemap.xml
Rozumí robot v tomto příkladu direktivě Sitemap?

Doufám, že od vás obdržím odpověď, která ukončí mé pochybnosti.

Odpovědět:

Ahoj!

Direktivy Host a Sitemap jsou průnikové, takže je robot použije bez ohledu na místo v souboru robots.txt, kde jsou specifikovány.

--
S pozdravem Platon Shchukin
Služba podpory Yandex

Závěr

Je důležité si uvědomit, že změny v souboru robots.txt na již fungujícím webu budou patrné až po několika měsících (2–3 měsících).

Existují zvěsti, že Google může někdy ignorovat pravidla v robots.txt a vzít stránku do indexu, pokud se domnívá, že stránka je velmi jedinečná a užitečná a v indexu prostě musí být. Jiné fámy však tuto hypotézu vyvracejí tím, že nezkušení optimalizátoři dokážou v robots.txt nesprávně specifikovat pravidla a zavřít tak potřebné stránky z indexace a ponechat nepotřebné. Spíš se přikláním k druhému předpokladu...

Dynamický soubor robots.txt

Ve WordPressu se požadavek na soubor robots.txt zpracovává samostatně a není vůbec nutné fyzicky vytvářet soubor robots.txt v rootu webu, navíc se to nedoporučuje, protože s tímto přístupem bude pro pluginy je velmi obtížné tento soubor změnit, a to je někdy nutné.

O tom, jak funguje dynamické vytváření souboru robots.txt, si přečtěte v popisu funkce a níže uvedu příklad, jak můžete obsah tohoto souboru měnit za běhu, pomocí háčku.

Chcete-li to provést, přidejte do souboru functions.php následující kód:

Add_action("do_robotstxt", "my_robotstxt"); function my_robotstxt())( $lines = [ "User-agent: *", "Disallow: /wp-admin/", "Disallow: /wp-includes/", "", ]; echo implode("\r\ n ", $lines); die; // ukončení práce PHP)

User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/

Crawl-delay – časový limit pro šílené roboty (od roku 2018 se nebere v úvahu)

Yandex

Po analýze dopisů zaslaných naší podpoře za poslední dva roky ohledně problémů s indexováním jsme zjistili, že jedním z hlavních důvodů pomalého stahování dokumentů je nesprávně nakonfigurovaná direktiva Crawl-delay v robots.txt […] Aby majitelé stránek již nemuseli musíme se o to starat a Abychom zajistili, že se všechny skutečně potřebné webové stránky objeví a budou rychle aktualizovány ve vyhledávání, rozhodli jsme se opustit direktivu Crawl-delay.

Když robot Yandex skenuje web jako blázen a to vytváří zbytečné zatížení serveru. Můžete požádat robota, aby „zpomalil“.

Chcete-li to provést, musíte použít direktivu Crawl-delay. Udává dobu v sekundách, po kterou musí robot nečinně čekat (čekat), aby naskenoval každou následující stránku webu.

Pro kompatibilitu s roboty, kteří nedodržují standard robots.txt dobře, musí být Crawl-delay specifikováno ve skupině (v sekci User-Agent) ihned po Disallow a Allow

Yandex Robot rozumí zlomkovým hodnotám, například 0,5 (půl sekundy). To nezaručuje, že vyhledávací robot navštíví vaše stránky každou půl sekundu, ale umožňuje vám to rychleji procházet stránky.

User-agent: Yandex Disallow: /wp-admin Disallow: /wp-includes Zpoždění procházení: 1,5 # časový limit 1,5 sekundy User-agent: * Disallow: /wp-admin Disallow: /wp-includes Allow: /wp-* . gif Zpoždění procházení: 2 # časový limit 2 sekundy

Google

Googlebot nerozumí direktivě Crawl-delay. Časový limit pro jeho roboty lze zadat na panelu webmastera.

Na službě avi1.ru si nyní můžete zakoupit propagaci SMM ve více než 7 nejoblíbenějších sociálních sítích. Zároveň věnujte pozornost poměrně nízkým nákladům na všechny služby webu.