Какво означава индексиране на страница. Индекс за търсене

Много е важно всички страници на вашия сайт да бъдат индексирани в търсачките (Yandex, Google и др.).

Първо, ако страницата не е в индекса, тогава хората няма да могат да я намерят и вие сте загубили време (и евентуално пари) за нейното създаване, попълване и дизайн. Всяка страница в индекса е източник на посетители.
Второ, ако страницата не е в индекса, това може да показва технически проблеми на сайта, като дублиране на съдържание, грешки в сайта или хостинг.
На трето място, тази страница може да играе техническа роля, например да участва в схема за свързване (или да съдържа платени връзки, за които няма да получавате пари, ако страницата не е в индекса).

Работейки с клиенти, многократно съм се сблъсквал с факта, че поради проблеми с индексирането имаше лоши позиции. Това е технически проблем, който обикновено отстранявам през първия месец на сътрудничество, поради което от 2-ия месец има забележимо увеличение на посетителите и позициите.

По-долу ще разгледам ръчни и автоматизирани начини за проверка на индексирането на страници в Yandex и Google. ще ти покажа как да проверите индексирането на уебсайтакато цяло и всяка страница поотделно.

Как да разберете броя на страниците на сайта

Това може да стане по няколко начина:

Сега, когато знаем действителния брой страници, трябва да проверим колко от тях са индексирани в Yandex и Google

Разглеждаме индексирането на сайта като цяло

В този случай ще знаем колко страници от сайта са индексирани в търсачката. Какво ни дава това? Познавайки действителния брой страници в сайта, можем да сравним дали той съответства на броя на индексираните страници. И ако съвпада, тогава всичко е наред, а ако не, тогава трябва да се справите с проблема и да разберете кои страници липсват (или кои страници имат дубликати).

Индексиране на сайта в Yandex

Няколко начина.

Както можете да видите данните са малко по-различни. Това се дължи на факта, че url: конструкцията на вашия сайт показва не само страници, но и други типове файлове (doc, xls, jpg и т.н.). Уеб администраторът показва точно броя на страниците.

Индексиране на сайтове в Google

Тук, подобно на Yandex, има 2 начина:

Ръчно използване на конструкцията site: your site. Ефектът ще бъде приблизително същият като при Yandex.
Използване на Google Webmaster Tools https://www.google.com/webmasters/(подобно на Yandex.Webmaster)

автоматични начини

Какво следва

Сега, когато знаем колко страници от действителния брой са индексирани, може да има 3 ситуации:

Броят на страниците в търсачките и в сайта е еднакъв. Това е идеален вариант, така че всичко е наред със сайта.
Броят на индексираните страници е по-малък. Това означава, че има проблеми със сайта (най-популярният проблем е неинформативно или неуникално съдържание)
Броят на индексираните страници е по-голям. Най-вероятно имате проблем с дублирането на страници, т.е. една страница може да бъде достъпна от няколко адреса. Това е лошо за повишение, т.к статичното тегло на страницата е замъглено и освен това има много страници с повтарящо се съдържание.

За по-нататъшна диагностика на сайта трябва да знаем кои страници са точно индексирани и кои не са включени в индекса.

Как да проверите индексирането на една страница

Може да се нуждаем от това, когато искаме да проверим конкретна страница на нашия сайт (например наскоро публикувана) или страница в сайт на някой друг (например, където сме купили връзка и чакаме тя да бъде индексирана)

Как да проверите индексирането на всички страници поотделно

В този случай ще проверим всички страници на сайта за индексиране наведнъж и в резултат ще разберем кои конкретни страници не са индексирани в търсачката.

Тук трябва да знаем не само броя на действителните страници в сайта, но и списък с адресите на тези страници (техните url адреси). Това може би е най-трудната част от тази статия. Изглежда, че получихме списъка със страници, когато генерирахме картата на сайта, но адресите там не са в чист вид и трябва да можете да работите с някаква програма за обработка на данни, за да ги извлечете. Затова ще използваме друга програма.

Как да получите списък с всички страници в сайта

Преди да събирате връзки, трябва да конфигурирате параметъра Exclude Patterns. Това се прави, за да се изключат ненужните връзки при събиране, например в моя случай, когато се събират много адреси от формата: https://website/prodvizhenie/kak-prodvigayut-sajjty.html? replytocom=324#respond, които показват коментар на страницата. И всичко, от което се нуждая, е URL адресът на страницата. Затова настроих изключване на адреси чрез маската *replytocom*:

След това започваме да събираме URL адреси и когато програмата приключи да ги събира, отиваме в раздела Yahoo Map / Text и копираме адресите от там (бутонът за запазване не работи, защото използваме безплатната версия на програмата)

Сега имаме адреси на всички страници.

Как да проверя автоматично индексирането на страници

Тук всичко е просто. След като стартирате програмата, добавете списъка с URL адреси на вашия сайт, събрани в последната стъпка, и ги добавете към списъка с първоначални URL адреси. Програмата ви позволява да проверите индексирането в Yandex, Google и Rambler, да изберете търсачката, от която се нуждаем, и да стартирате проверката:

След като получихме списък със страници, които не бяха включени в индекса, трябва да разберем защо това се случи. Ако всичко е наред със страницата, тогава, за да влезе в индекса, можете да закупите връзки към нея или няколко ретуита от напомпани акаунти.

Заключение

Възможността за проверка на индексирането на страниците на вашия сайт ще ви позволи да работите по-продуктивно с търсачките, както и да изчислявате съществуващи проблеми със сайта.

Като цяло, ако вашият ресурс е добър, добре направен, тогава не би трябвало да има проблеми с индексирането му. Ако сайтът, макар и не 100%, но отговаря на изискванията на търсачките - „за хора“, тогава те с удоволствие ще погледнат вашата светлина и ще индексират всичко ново, което ще бъде добавено.

Но както и да е, първата стъпка в популяризирането на сайт е добавянето му към PS индекса. Докато ресурсът не бъде индексиран като цяло, няма какво да се популяризира, защото търсачките изобщо няма да знаят за него. Ето защо в тази статия ще разгледам какво е индексиране на сайтове в Yandex и как да подадете ресурс за индексиране. Ще ви кажа също как да проверите дали сайт или отделна страница е включен в индекса на Yandex и какво да направите, за да ускорите индексирането от Yandex.

Индексирането на сайт в Yandex е заобикаляне на вашия сайт от роботите на търсачката на Yandex и въвеждане на всички отворени страници в базата данни. Руската търсачка паяк добавя данни за сайта към базата данни: неговите страници, снимки, видеоклипове, документи, които са достъпни за търсене. Също така, ботът за търсене се занимава с индексиране на връзки и други елементи, които не са затворени със специални тагове и файлове.

Основните начини за индексиране на ресурс:

Принудително - трябва да изпратите сайта за индексиране в Yandex чрез специален формуляр.

Естествено – паякът за търсене успява да намери вашия сайт сам, като се движи от външни ресурси, които се свързват към уебсайта.

Времето за индексиране на сайт в Yandex е различно за всеки и може да варира от няколко часа до няколко седмици.

Зависи от много фактори: какви стойности са в Sitemap.xml, колко често се попълва ресурсът, колко често се появява споменаването на сайта в други ресурси. Процесът на индексиране е цикличен, така че роботът ще идва при вас на (практически) равни интервали от време. Но с каква честота - зависи от посочените по-горе фактори и конкретния робот.

Паякът може да индексира целия уебсайт (ако е малък) или отделна секция (това се отнася за онлайн магазини или медии). На често актуализирани ресурси, като медийни и информационни портали, има така наречените бързи роботи за бързо индексиране на сайт в Yandex.

Понякога проектът може да има технически проблеми (или проблеми със сървъра), в който случай индексирането на сайта в yandex няма да се осъществи, поради което търсачката може да прибегне до следния сценарий:

незабавно изхвърлете неиндексирани страници от базата данни;
повторно индексиране на ресурса след определено време;
поставете страници, които не са били индексирани, да бъдат изключени от базата данни и ако не бъдат открити по време на повторното индексиране, те ще бъдат изхвърлени от индекса.

Как да ускорите индексирането на сайта в Yandex

Как да ускорите индексирането в Yandex е често срещан въпрос в различни форуми за уеб администратори. Всъщност животът на целия сайт зависи от индексирането: позицията на ресурса в PS, броят на клиентите от тях, популярността на проекта, печалбата, в крайна сметка.

Подготвил съм 10 начина, които се надявам да ви бъдат полезни. Първите пет са стандартни за постоянно индексиране на ресурса, а следващите пет ще ви помогнат да ускорите индексирането на сайта в Yandex:

услуги за маркиране;

RSS-feed - ще осигури излъчването на нови материали от вашия ресурс до пощата на абонатите и до RSS директориите;

обмен на връзки - ще осигури стабилно увеличаване на dofollow връзките от качествени донори, с правилния им подбор (как да изберете правилно);

- ако все още не сте регистрирали сайта в директориите, тогава ви съветвам да направите това. Много хора казват, че директориите отдавна са мъртви или регистрирането в тях ще убие сайта - това не е вярно. По-точно, не пълната истина, ако се регистрирате във всички директории подред, тогава вашият ресурс ще страда само от това. Но с правилния подбор на доверие и добри каталози ефектът ще бъде неоспорим.

Проверка на индексирането на сайта в Yandex

сайт и url оператори. Ако искате да проверите индексирането на сайта в Yandex, можете да използвате стандартните оператори на търсачката..biz. (Разбира се, вместо моя домейн, вашият)
RDS лента. Мисля, че най-добрият и бърз начин да проверите индексирането на страници в Yandex. Този плъгин може да бъде инсталиран на всички популярни браузъри и незабавно ще предостави подробна информация за броя на страниците на сайта в индекса и наличието на конкретен материал в него. С това разширение няма да губите време да въвеждате ръчно URL адреси в услуги или търсения. Като цяло препоръчвам RDS лентата да е изключително удобна:
Обслужващ серпант. Многофункционален ресурс, с който можете да анализирате сайта: оценка на ефективността и наблюдение на сайтове, анализиране на конкурентни страници, проверка на позициите и индексиране на сайта. Можете да проверите безплатно индексирането на страницата на тази връзка: https://serphunt.ru/indexing/. Поради пакетната проверка (до 50 адреса) и високата надеждност на резултатите, тази услуга е в челната тройка според мен.
XSEO услуга. Набор от инструменти за уеб администратори, в XSEO.in можете да видите индексирането на сайта в Yandex. Получете и много допълнителна полезна информация за вашия ресурс:
Услуги PR-CY и CY-PR. Още няколко услуги, които ще ви предоставят информация за общия брой индексирани страници:
услуга за докладване на сайта. Отлична услуга, която ще посочи всичките ви грешки в работата на сайта. Той също така има раздел „Индексиране“, където ще бъде предоставена информация за всяка страница от сайта, указваща дали е индексирана или не в търсачките Yandex и Google. Ето защо препоръчвам да използвате този ресурс, за да откриете проблеми на сайта и да проверите масовото индексиране на Yandex:

Индексирането на сайта в търсачките е важно за всеки уеб администратор. Наистина, за качественото популяризиране на проекта е необходимо да се следи неговото индексиране. Ще опиша процеса на проверка на индексирането в Yandex.

Индексиране в Yandex

Роботът Yandex сканира уебсайтове ден след ден в търсене на нещо „вкусно“. Събира в горната част на броя онези сайтове и страници, които според него го заслужават най-много. Е, или просто Yandex искаше така, кой знае 🙂

Ние, като истински уебмастъри, ще се придържаме към теорията, че колкото по-добре е направен сайтът, толкова по-високи са неговите позиции и повече трафик.

Има няколко начина да проверите индексирането на сайт в Yandex:

използване на Yandex Webmaster;
използване на оператори на търсачки;
използване на разширения и плъгини;
използване на онлайн услуги.

Индексиране на страници на сайта в Yandex Webmaster

За да разберете какво е изкопала търсачката на нашия сайт, трябва да отидете на нашия любим Yandex Webmaster в секцията „Индексиране“.

Статистика за обхождане в Yandex Webmaster

Първо, нека да отидем на елемента "Статистика за байпас". Разделът ви позволява да разберете кои страници от вашия сайт роботът обхожда. Можете да идентифицирате адреси, които роботът не може да зареди поради недостъпност на сървъра, на който се намира сайтът, или поради грешки в съдържанието на самите страници.

Разделът съдържа информация за страниците:

нови - страници, които наскоро са се появили на сайта или роботът току-що ги е заобиколил;
променени - страници, които търсачката на Yandex е виждала, но те са се променили;
история на обхождането - броят на страниците, които Yandex е обходил, като се вземе предвид кодът за отговор на сървъра (200, 301, 404 и други).

Графиката показва нови (зелени) и променени (сини) страници.

И това е графиката на историята на байпаса.

Този елемент показва страниците, които Yandex е намерил.

N/a - URL адресът не е известен на робота, т.е. роботът никога преди не я беше срещал.

Какви изводи могат да се направят от екрана:

Yandex не намери адреса /xenforo/xenforostyles/, което всъщност е логично, т.к. тази страница вече не съществува.
Yandex намери адреса /bystrye-ssylki-v-yandex-webmaster/, което също е съвсем логично, т.к. страницата е нова.

Така че в моя случай Yandex Webmaster отразява това, което очаквах да видя: това, което не е необходимо - Yandex е премахнат и това, което е необходимо - добави Yandex. Така че с байпаса всичко ми е наред, няма запушвания.

Страници в търсене

Резултатите от търсенето се променят непрекъснато – добавят се нови сайтове, старите се изтриват, местата в резултатите се коригират и т.н.

Можете да използвате информацията в секцията „Страници в търсене“:

за проследяване на промените в броя на страниците в Yandex;
да следите добавени и изключени страници;
да разберете причините за изключване на сайта от резултатите от търсенето;
за получаване на информация за датата на посещение на сайта от търсачката;
за информация относно промените в резултатите от търсенето.

За да проверите индексирането на страниците, този раздел е необходим. Тук Yandex Webmaster показва страниците, добавени към резултатите от търсенето. Ако всичките ви страници са добавени към секцията (нова ще бъде добавена в рамките на една седмица), тогава всичко е наред със страниците.

Проверка на броя на страниците в индекса на Yandex с помощта на оператори

В допълнение към Yandex Webmaster, можете да проверите индексирането на страници с помощта на оператори директно в самото търсене.

Ще използваме два оператора:

"сайт" - търсене във всички поддомейни и страници на посочения сайт;
"host" - търсене в страници, хоствани на този хост.

Нека използваме оператора "site". Имайте предвид, че няма място между оператора и сайта. 18 страници са в търсене на Yandex.

Нека използваме оператора "хост". 19 страници, индексирани от Yandex.

Проверка на индексирането с плъгини и разширения

Проверете индексирането на сайта с помощта на услуги

Има много такива услуги. Ще ви покажа две.

Serphunt

Serphunt е онлайн услуга за анализ на уебсайтове. Те имат полезен инструмент за проверка на индексирането на страници.

В същото време можете да проверите до 100 страници на сайта с две търсачки - Yandex и Google.

Кликнете върху „Стартиране на сканиране“ и след няколко секунди получаваме резултата:

Какво е индексиране? Това е процесът на предаване на съдържанието на страниците на вашия сайт до робота и включване на това съдържание в резултатите от търсенето. Ако се обърнем към числата, тогава базата данни на робота за индексиране съдържа трилиони адреси на страници на сайта. Всеки ден роботът изисква милиарди такива адреси.

Но целият този голям процес на индексиране на Интернет може да бъде разделен на малки стъпки:

Първо, роботът за индексиране трябва да знае кога се е появила страница на вашия сайт. Например чрез индексиране на други страници в Интернет, чрез намиране на връзки или чрез изтегляне на set nemp. Научихме за страницата, след което планираме да заобиколим тази страница, да изпратим данни до вашия сървър, за да поискаме тази страница от сайта, да получим съдържанието и да го включим в резултатите от търсенето.

Целият този процес е процесът на обмен на индексиращия робот с вашия сайт. Ако заявките, изпратени от индексиращия робот, практически не се променят и се променя само адресът на страницата, тогава отговорът на вашия сървър на заявка за страница от робота зависи от много фактори:

от настройките на CMS;
от настройките на хостинг доставчика;
от работата на междинен доставчик.

Този отговор се променя. На първо място, когато поиска страница, роботът получава следния отговор на услугата от вашия сайт:

Това са HTTP заглавки. Те съдържат различна служебна информация, която изяснява на робота какво съдържание ще бъде предадено сега.

Искам да се съсредоточа върху първата заглавка - това е HTTP код за отговор, който указва на индексиращия робот състоянието на страницата, която роботът е поискал.

Има няколко десетки такива състояния на HTTP кодове:

Ще говоря за най-популярните. Най-често срещаният код за отговор е HTTP-200. Страницата е достъпна, може да се индексира, включва в резултатите от търсенето, всичко е наред.

Обратното на това състояние е HTTP-404. Липсва страницата в сайта, няма какво да се индексира, няма какво да се включи и в търсенето. Когато променяте структурата на сайта и променяте адресите на вътрешните страници, препоръчваме да настроите 301 сървър за пренасочване. Просто той ще посочи на робота, че старата страница се е преместила на нов адрес и е необходимо да включи новия адрес в резултатите от търсенето.

Ако съдържанието на страницата не се е променило, откакто роботът последно е посетил страницата, най-добре е да върнете HTTP-304 код. Роботът ще разбере, че не е необходимо да се актуализира страницата в резултатите от търсенето и съдържанието също няма да бъде прехвърлено.

Когато вашият сайт е достъпен за кратко време, например, когато вършите някаква работа на сървъра, най-добре е да конфигурирате HTTP-503. Той ще посочи на робота, че сайтът и сървърът не са достъпни сега, трябва да отидете малко по-късно. В случай на краткосрочна недостъпност, това ще предотврати изключване на страници от резултатите от търсенето.

В допълнение към тези HTTP кодове, статуси на страниците, вие също трябва да получите директно съдържанието на самата страница. Ако за обикновен посетител страницата изглежда така:

това са снимки, текст, навигация, всичко е много красиво, тогава за индексиращия робот всяка страница е просто набор от изходен код, HTML код:

Различни мета тагове, текстово съдържание, връзки, скриптове, много информация. Роботът го събира и включва в резултатите от търсенето. Изглежда, че всичко е просто, те поискаха страница - получиха статуса, получиха съдържанието, включиха го в търсенето.

Но не напразно услугата за търсене в Yandex получава повече от 500 писма от уеб администратори и собственици на сайтове, в които се посочва, че са възникнали определени проблеми с отговора на сървъра.

Всички тези проблеми могат да бъдат разделени на две части:

Това са проблеми с HTTP кода за отговор и проблеми с HTML кода, с директното съдържание на страниците. Може да има много причини за тези проблеми. Най-често срещаното е блокирането на индексиращия робот от хостинг доставчика.

Например стартирахте уебсайт, добавихте нов раздел. Роботът започва да посещава вашия сайт по-често, увеличава натоварването на сървъра. Доставчикът на хостинг вижда това при тяхното наблюдение, блокира индексиращия робот и следователно роботът няма достъп до вашия сайт. Отивате на вашия ресурс - всичко е наред, всичко работи, страниците са красиви, всичко се отваря, всичко е супер, роботът не може да индексира сайта едновременно. Ако сайтът е временно недостъпен, например, ако сте забравили да платите името на домейна, сайтът се деактивира за няколко дни. Роботът идва на сайта, не е наличен, при такива условия може да изчезне от резултатите от търсенето буквално след известно време.

Неправилните настройки на CMS, например при актуализиране или преминаване към друг CMS, при актуализиране на дизайна, също могат да доведат до изчезване на страниците на вашия сайт от резултатите от търсенето, ако настройките са неправилни. Например, наличието на забраняващ мета маркер в изходния код на страниците на сайта, неправилна настройка на каноничния атрибут. Проверете дали след всички промени, които правите в сайта, страниците са достъпни за робота.

Инструментът в Yandex ще ви помогне с това. Уеб администратор за проверка на отговора на сървъра:

Можете да видите какви HTTP заглавки връща вашият сървър на робота, директно съдържанието на страниците.

Разделът "индексиране" съдържа статистически данни, където можете да видите кои страници са изключени, динамиката на промените в тези индикатори и да направите различни сортиране и филтриране.

Също така днес говорих за този раздел, раздела „диагностика на сайта“. Ако вашият сайт е станал недостъпен за робота, ще получите известие и препоръки. Как може да се коригира това? Ако няма такива проблеми, сайтът е наличен, отговаря на кодове-200, съдържа правилно съдържание, след което роботът започва автоматично да посещава всички страници, които разпознава. Това не винаги води до желаните последици, така че дейността на робота може да бъде ограничена по определен начин. За това има файл robots.txt. Ще говорим за това в следващия раздел.

Robots.txt

Самият файл robots.txt е малък текстов документ, той се намира в основната папка на сайта и съдържа строги правила за индексиращия робот, които трябва да се спазват при обхождане на сайта. Предимствата на файла robots.txt са, че не изисква специални и специални познания за използването му.

Достатъчно е да отворите Notepad, да въведете определени правила за форматиране и след това просто да запишете файла на сървъра. През деня роботът започва да използва тези правила.

Ако вземем пример за прост файл robots.txt, ето го, точно на следващия слайд:

Директивата User-Agent:” показва за кои роботи е предназначено правилото, директивите разрешаване/отказване и помощните директиви Sitemap и Host. Малко теория, искам да премина към практиката.

Преди няколко месеца исках да си купя крачкомер, затова се обърнах към Yandex. Пазар за помощ при избора. Преместено от главната страница на Yandex в Yandex. Market и стигнахме до главната страница на услугата.

По-долу виждате адреса на страницата, на която отидох. Към адреса на самата услуга беше добавен и идентификаторът на мен, като потребител на сайта.

След това отидох в секцията "каталог".

Избрахте желания подраздел и конфигурираха опции за сортиране, цена, филтър, как да сортирате, производител.

Получих списък с продукти и адресът на страницата вече е нараснал.

Отидох до желания продукт, щракнах върху бутона „добави в количката“ и продължих с плащането.

По време на моето кратко пътуване адресите на страници се промениха по определен начин.

Към тях бяха добавени параметри на услугата, които ме идентифицираха като потребител, настроиха сортиране, посочиха на собственика на сайта откъде съм отишъл на тази или онази страница на сайта.

Такива страници, сервизни страници мисля, че няма да представляват голям интерес за потребителите на търсачките. Но ако са достъпни за индексиращия робот, те могат да влязат в търсенето, защото роботът се държи всъщност като потребител.

Той отива на една страница, вижда връзка, върху която можете да кликнете, отива до нея, качва данните в своята база данни за роботи и продължава да заобикаля целия сайт. Същата категория такива адреси може да включва и лични данни на потребителите, например, като информация за доставка или данни за контакт на потребителите.

Естествено е по-добре да ги забраните. Само за това файлът robots.txt ще ви помогне. Можете да дойдете на сайта си тази вечер след края на уеб администратора, щракнете, вижте кои страници наистина са налични.

За да проверите robots.txt, има специален инструмент в уеб администратора:

Можете да изтеглите, да въведете адреси на страници, да видите дали са достъпни за робота или не.

Направете някои промени, вижте как роботът реагира на тези промени.

Грешки при работа с robots.txt

В допълнение към такова положително въздействие - затварянето на страниците за услуги, robots.txt, ако се използва неправилно, може да изиграе жестока шега.

Първо, най-често срещаният проблем при използване на robots.txt е затварянето на страниците на сайта, които наистина са необходими, тези, които трябва да бъдат в търсене и да се показват при заявки. Преди да направите промени в robots.txt, не забравяйте да проверите дали страницата, която искате да затворите, не участва в заявките за търсене. Може би страница с някои параметри е в резултатите от търсенето и посетителите идват до нея от търсенето. Затова не забравяйте да проверите, преди да използвате и да направите промени в robots.txt.

Второ, ако на вашия сайт се използват адреси на кирилица, няма да можете да ги посочите директно в robots.txt, те трябва да бъдат кодирани. Тъй като robots.txt е международен стандарт, всички индексиращи роботи го следват, определено ще трябва да бъдат кодирани. Кирилицата не може да бъде посочена изрично.

Третият най-популярен проблем са различни правила за различни роботи от различни търсачки. За един индексиращ робот всички индексиращи страници бяха затворени, за втория нищо не беше затворено изобщо. В резултат на това всичко е наред в една търсачка, необходимата ви страница е в търсачката, а в друга търсачка може да има боклук, различни страници за боклук, нещо друго. Не забравяйте да следвате, ако зададете забрана, това трябва да се направи за всички индексиращи роботи.

Четвъртият най-често срещан проблем е използването на директивата за забавяне на обхождането, когато това не е необходимо. Тази директива ви позволява да влияете върху чистотата на заявките от страна на индексиращия робот. Това е практически пример, малък сайт, поставен на малък хостинг, всичко е наред. Добавиха голям каталог, роботът дойде, видя куп нови страници, започва да влиза по-често до сайта, увеличава натоварването, изтегля го и сайтът става недостъпен. Задаваме директивата Crawl-delay, роботът вижда това, намалява натоварването, всичко е наред, сайтът работи, всичко е индексирано перфектно, има го в резултатите от търсенето. След известно време сайтът се разраства още повече, прехвърля се на нов хостинг, който е готов да се справи с тези заявки, с голям брой заявки, а директивата за забавяне на обхождането е забравена да бъде премахната. В резултат на това роботът разбира, че на вашия сайт са се появили много страници, но не може да ги индексира просто поради набора от директиви. Ако някога сте използвали директивата за забавяне на обхождането, проверете дали е изчезнала сега и дали услугата ви е готова да се справи с натоварването от индексиращия робот.

В допълнение към описаната функционалност, файлът robots.txt също ви позволява да решите две много важни задачи - да се отървете от дубликатите на сайта и да посочите адреса на основното огледало. Точно за това ще говорим в следващия раздел.

Двойки

Под дубликати имаме предвид няколко страници от един и същи сайт, които съдържат абсолютно идентично съдържание. Най-често срещаният пример са страници със и без наклонена черта в края на адреса. Също така, двойно може да се разбира като един и същ продукт в различни категории.

Например ролковите кънки могат да бъдат за момичета, за момчета един и същи модел може да бъде в две секции едновременно. И трето, това са страници с незначителен параметър. Както в примера с Yandex. Маркирайте тази страница "идентификатор на сесия", този параметър не променя съдържанието на страницата по принцип.

За да откриете дубликати, да видите до кои страници работи роботът, можете да използвате Yandex. уеб администратор.

В допълнение към статистиката има и адреси на страници, които роботът е заредил. Виждате кода и последното обаждане.

Проблем, причинен от дубликати

Защо дубликатите са лоши?

Първо, роботът започва да осъществява достъп до абсолютно идентични страници на сайта, което създава допълнително натоварване не само на вашия сървър, но също така засяга заобикалянето на сайта като цяло. Роботът започва да обръща внимание на дублиращи се страници, а не на онези страници, които трябва да бъдат индексирани и включени в резултатите от търсенето.

Вторият проблем е, че дублиращите се страници, ако са достъпни за робота, могат да влязат в резултатите от търсенето и да се конкурират с главните страници за заявки, което, разбира се, може да повлияе негативно на сайта, който се намира за определени заявки.

Как можете да се справите с дубликатите?

На първо място ви съветвам да използвате етикета "canonical". за да насочи робота към основната, канонична страница, която трябва да бъде индексирана и да бъде в търсене на заявки.

Във втория случай можете да използвате 301 сървърни пренасочвания, например за ситуации с наклонена черта в края на адреса и без наклонена черта. Инсталирано пренасочване - без дубликати.

И трето, както казах, това е файлът robots.txt. Можете да използвате както директиви disable, така и директива Clean-param, за да се отървете от маловажни параметри.

Огледала на сайтове

Втората задача, която robots.txt ви позволява да решите, е да насочите робота към адреса на главното огледало.

Огледалата са група от сайтове, които са абсолютно идентични, като дубликати, само два различни сайта. Уеб администраторите обикновено се сблъскват с огледала в два случая – когато искат да преминат към нов домейн, или когато потребителят трябва да направи достъпни няколко адреса на сайтове.

Например, знаете, че потребителите, когато въвеждат вашия адрес, адреса на вашия сайт в адресната лента, често правят една и съща грешка – въвеждат печат, поставят грешен знак или нещо друго. Можете да закупите допълнителен домейн, за да покажете на потребителите не мъниче от хостинг доставчик, а да покажете сайта, на който наистина искат да отидат.

Нека се спрем на първата точка, защото именно с него най-често възникват проблеми при работа с огледала.

Съветвам ви да извършите целия процес на преместване според следните инструкции. Малка инструкция, която ще ви позволи да избегнете различни проблеми при преминаване към ново име на домейн:

Първо, трябва да направите сайтовете достъпни за индексиращия робот и да поставите абсолютно идентично съдържание върху тях. Също така се уверете, че роботът знае за съществуването на сайтове. Най-лесният начин е да ги добавите към Yandex. Уеб администратор и потвърдете правата за тях.

Второ, използвайки директивата Host, насочете робота към адреса на главното огледало - това, което трябва да бъде индексирано и да бъде в резултатите от търсенето.

Чакаме залепването и прехвърлянето на всички индикатори от стария обект в новия.

След това вече можете да зададете пренасочване от стария адрес към новия. Прости инструкции, ако се движите, не забравяйте да го използвате. Надявам се да няма проблеми с
движещ се.

Но, разбира се, възникват грешки при работа с огледала.

На първо място, основният проблем е липсата на изрични инструкции за индексиращия робот към адреса на главното огледало, адресът, който трябва да бъде в търсенето. Проверете на вашите сайтове дали имат директива за хост в robots.txt и тя води до адреса, който искате да видите при търсенето.

Вторият най-често срещан проблем е използването на пренасочване за промяна на главното огледало в съществуваща група огледала. Какво се случва? Старият адрес, тъй като пренасочва, не се индексира от робота, той е изключен от резултатите от търсенето. В същото време новият сайт не влиза в търсенето, защото е неосновно огледало. Губите трафик, губите посетители, мисля, че никой не се нуждае от това.

И третият проблем е недостъпността на едно от огледалата при движение. Най-често срещаният пример в тази ситуация е, когато съдържанието на сайта е копирано на нов адрес, а старият адрес просто е деактивиран, името на домейна не е платено и става недостъпно. Естествено, такива сайтове няма да бъдат залепени, те трябва да са достъпни за индексиращия робот.

Полезни връзки в действие:

Ще намерите още полезна информация в услугата Yandex.Help.
Всички инструменти, за които говорих и дори повече - има бета версия на Yandex.Webmaster.

Отговори на въпроси

Благодаря за отчета. Трябва ли да затворя индексирането на CSS файлове за робота в robots.txt или не?

В момента не препоръчваме затварянето им. Да, по-добре е да оставите CSS, JavaScript, защото сега работим върху това индексиращият робот да разпознава както скриптовете на вашия сайт, така и стиловете, да го вижда като посетител от обикновен браузър.

“Кажи ми, ако URL адресите на сайтовете са еднакви, за стария и за новите, това нормално ли е?”.

всичко е наред. Всъщност просто трябва да актуализирате дизайна, да добавите малко съдържание.

„Сайтът има категория и се състои от няколко страници: наклонена черта, страница1, страница2, до 10, например. Всички страници имат текст от една категория и се оказва, че е дублиран. Този текст ще бъде ли дубликат или трябва по някакъв начин да го затворя, нов индекс на втората и следващите страници?

На първо място, тъй като пагинацията на първата страница и съдържанието на втората страница като цяло са различни, те няма да бъдат дублирани. Но трябва да очаквате, че втората, третата и следващите страници от пагинация могат да влязат в търсенето и да се покажат при всяка подходяща заявка. По-добре в страниците с пагинация, бих препоръчал да използвате атрибута canonical, в най-добрия случай, на страницата, която съдържа всички продукти, така че роботът да не включва страници с пагинация в търсенето. Хората много често използват canonical на първата страница на пагинацията. Роботът идва на втората страница, вижда продукта, вижда текста, не включва страници в търсенето и разбира поради атрибута, че това е първата страница с пагинация, която трябва да бъде включена в резултатите от търсенето. Използвайте canonical и затворете самия текст, мисля, че не е необходимо.

Източник (видео): Как да настроите индексирането на сайта- Александър Смирнов

Магомед Чербижев