Kaj pomeni indeksirati stran. Indeks iskanja

Zelo pomembno je, da so vse strani vašega spletnega mesta indeksirane v iskalnikih (Yandex, Google itd.).

Prvič, če strani ni v indeksu, je ljudje ne bodo mogli najti in ste zapravili čas (in morda denar) za njeno ustvarjanje, polnjenje in oblikovanje. Vsaka stran v indeksu je vir obiskovalcev.
Drugič, če strani ni v indeksu, lahko to kaže na tehnične težave na spletnem mestu, kot so podvojena vsebina, napake na spletnem mestu ali gostovanju.
Tretjič, ta stran lahko igra tehnično vlogo, na primer sodeluje v shemi povezovanja (ali vsebuje plačane povezave, za katere ne boste prejeli denarja, če strani ni v indeksu).

Pri delu s strankami sem se večkrat srečal z dejstvom, da so bile zaradi težav z indeksiranjem slabe pozicije. Gre za tehnično težavo, ki jo običajno odpravim že v prvem mesecu sodelovanja, zaradi katere je od 2. meseca opazen porast obiskovalcev in pozicij.

Spodaj bom obravnaval ročne in avtomatizirane načine za preverjanje indeksiranja strani v Yandexu in Googlu. pokazal ti bom kako preveriti indeksiranje spletnega mesta na splošno in vsako stran posebej.

Kako ugotoviti število strani na spletnem mestu

To je mogoče storiti na več načinov:

Zdaj, ko poznamo dejansko število strani, moramo preveriti, koliko jih je indeksiranih v Yandexu in Googlu

Indeksiranje strani gledamo kot celoto

V tem primeru bomo vedeli koliko strani spletnega mesta je indeksiranih v iskalniku. Kaj nam to daje? Če poznamo dejansko število strani na spletnem mestu, lahko primerjamo, ali ustreza številu indeksiranih strani. In če se ujema, potem je vse v redu, če pa ne, potem se morate spopasti s težavo in ugotoviti, katere strani manjkajo (ali katere strani imajo dvojnike).

Indeksiranje spletnega mesta v Yandexu

Več načinov.

Kot lahko vidite, so podatki nekoliko drugačni. To je posledica dejstva, da url: konstrukcija vašega spletnega mesta ne prikazuje samo strani, temveč tudi druge vrste datotek (doc, xls, jpg itd.). Spletni skrbnik pokaže natančno število strani.

Indeksiranje strani v Googlu

Tukaj, podobno kot pri Yandexu, obstajata 2 načina:

Ročna uporaba konstrukcije spletnega mesta: vaše spletno mesto. Učinek bo približno enak kot pri Yandexu.
Uporaba Googlovih orodij za spletne skrbnike https://www.google.com/webmasters/(podobno kot Yandex.Webmaster)

avtomatske načine

Kaj je naslednje

Zdaj, ko vemo, koliko strani dejanskega števila je indeksiranih, so lahko 3 situacije:

Število strani v iskalnikih in na spletnem mestu je enako. To je idealna možnost, tako da je s spletnim mestom vse v redu.
Število indeksiranih strani je manjše. To pomeni, da obstajajo težave s spletnim mestom (najbolj priljubljena težava je neinformativna ali neunikatna vsebina)
Število indeksiranih strani je večje. Najverjetneje imate težave s podvajanjem strani, t.j. do ene strani lahko dostopate z več naslovov. To je slabo za napredovanje, ker statična teža strani je zamegljena, poleg tega pa je veliko strani s ponavljajočo se vsebino.

Za nadaljnjo diagnostiko strani moramo vedeti, katere strani so natančno indeksirane in katere niso vključene v indeks.

Kako preveriti indeksiranje ene strani

To bomo morda potrebovali, ko želimo preveriti določeno stran na našem spletnem mestu (na primer nedavno objavljeno) ali stran na spletnem mestu nekoga drugega (na primer, kjer smo kupili povezavo in čakamo na njeno indeksiranje)

Kako preveriti indeksiranje vseh strani posebej

V tem primeru bomo naenkrat preverili vse strani spletnega mesta za indeksiranje in posledično bomo izvedeli katere posamezne strani niso indeksirane v iskalniku.

Tukaj moramo poznati ne le število dejanskih strani na spletnem mestu, temveč tudi seznam naslovov teh strani (njihove url-je). To je verjetno najtežji del tega članka. Zdelo se je, da smo dobili seznam strani, ko smo ustvarili zemljevid spletnega mesta, vendar tam naslovi niso v svoji čisti obliki in morate biti sposobni delati z nekakšnim programom za obdelavo podatkov, da jih ekstrahirate. Zato bomo uporabili drug program.

Kako priti do seznama vseh strani na spletnem mestu

Pred zbiranjem povezav morate konfigurirati parameter Izključi vzorce. To se naredi za izključitev nepotrebnih povezav pri zbiranju, na primer v mojem primeru, ko zbiram veliko naslovov v obliki: https://website/prodvizhenie/kak-prodvigayut-sajjty.html? replytocom=324#odgovori, ki označujejo komentar na strani. In vse, kar potrebujem, je URL strani. Zato sem nastavil izključitev naslovov z masko *replytocom*:

Nato začnemo zbirati url-je in ko jih program konča z zbiranjem, pojdimo na zavihek Yahoo Map / Text in od tam kopiramo naslove (gumb za shranjevanje ne deluje, ker uporabljamo brezplačno različico programa)

Zdaj imamo naslove vseh strani.

Kako samodejno preveriti indeksiranje strani

Tukaj je vse preprosto. Po zagonu programa dodajte seznam URL-jev vašega spletnega mesta, zbranega v zadnjem koraku, in jih dodajte na seznam začetnih URL-jev. Program vam omogoča, da preverite indeksiranje v Yandexu, Googlu in Ramblerju, izberete iskalnik, ki ga potrebujemo, in zaženete preverjanje:

Ko smo dobili seznam strani, ki niso bile vključene v indeks, moramo razumeti, zakaj se je to zgodilo. Če je s stranjo vse v redu, lahko, da vstopi v indeks, kupite povezave do nje ali več retweetov s črpanih računov.

Zaključek

Zmožnost preverjanja indeksiranja strani vašega spletnega mesta vam bo omogočila bolj produktivno delo z iskalniki, pa tudi izračun obstoječih težav s spletnim mestom.

Na splošno, če je vaš vir dober, dobro izdelan, potem ne bi smelo biti težav z njegovim indeksiranjem. Če spletno mesto, čeprav ne 100%, izpolnjuje zahteve iskalnikov - "za ljudi", potem bodo z veseljem pogledali vašo luč in indeksirali vse novo, kar bo dodano.

Kakorkoli že, prvi korak pri promociji spletnega mesta je, da ga dodate v indeks PS. Dokler vir ni indeksiran, na splošno ni kaj promovirati, saj iskalniki zanj sploh ne bodo vedeli. Zato bom v tem članku razmislil, kaj je indeksiranje spletnih mest v Yandexu in kako predložiti vir za indeksiranje. Povedal vam bom tudi, kako preverite, ali je spletno mesto ali ločena stran vključena v indeks Yandex in kaj storiti, da pospešite indeksiranje s strani Yandexa.

Indeksiranje spletnega mesta v Yandexu je obhod vašega spletnega mesta s strani robotov iskalnika Yandex in vnos vseh odprtih strani v bazo podatkov. Ruski iskalnik v bazo podatkov doda podatke o spletnem mestu: njegove strani, slike, videoposnetke, dokumente, ki so na voljo za iskanje. Tudi iskalni bot se ukvarja z indeksiranjem povezav in drugih elementov, ki niso zaprti s posebnimi oznakami in datotekami.

Glavni načini za indeksiranje vira:

Prisilno - spletno mesto morate poslati za indeksiranje v Yandexu prek posebnega obrazca.

Naravno – iskalni pajek uspe sam najti vaše spletno mesto, pri čemer se premika iz zunanjih virov, ki se povezujejo na spletno mesto.

Čas indeksiranja spletnega mesta v Yandexu je za vsakogar drugačen in lahko traja od nekaj ur do nekaj tednov.

Odvisno je od številnih dejavnikov: kakšne vrednosti so v Sitemap.xml, kako pogosto je vir napolnjen, kako pogosto se omemba mesta pojavlja na drugih virih. Postopek indeksiranja je cikličen, zato bo robot prišel k vam v (praktično) enakih časovnih intervalih. Toda s kakšno pogostostjo - odvisno od zgoraj omenjenih dejavnikov in specifičnega robota.

Pajek lahko indeksira celotno spletno mesto (če je majhno) ali ločen del (to velja za spletne trgovine ali medije). Na pogosto posodobljenih virih, kot so medijski in informacijski portali, obstajajo tako imenovani hitri roboti za hitro indeksiranje spletnega mesta v Yandexu.

Včasih se pri projektu lahko pojavijo tehnične težave (ali težave s strežnikom), v tem primeru indeksiranje spletnega mesta yandex ne bo izvedeno, zaradi česar se lahko iskalnik zateče k naslednjemu scenariju:

neindeksirane strani takoj zavrzite iz baze podatkov;
ponovno indeksirajte vir po določenem času;
strani, ki niso bile indeksirane, postavi, da se izključijo iz baze, in če jih med ponovnim indeksiranjem ne najdemo, bodo vržene iz indeksa.

Kako pospešiti indeksiranje spletnega mesta v Yandexu

Kako pospešiti indeksiranje v Yandexu, je pogosto vprašanje na različnih forumih za spletne skrbnike. Dejansko je življenje celotnega spletnega mesta odvisno od indeksiranja: položaja vira v PS, števila strank od njih, priljubljenosti projekta, dobička, na koncu.

Pripravila sem 10 načinov, za katere upam, da vam bodo koristili. Prvih pet je standardnih za trajno indeksiranje vira, naslednjih pet pa vam bo pomagalo pospešiti indeksiranje spletnega mesta v Yandexu:

storitve zaznamkov;

RSS-feed - bo zagotovil oddajanje novih materialov iz vašega vira na pošto naročnikov in v imenike RSS;

izmenjave povezav - bo zagotovilo stabilno povečanje dofollow povezav kakovostnih donatorjev, z njihovo pravilno izbiro (kako pravilno izbrati);

- če spletnega mesta še niste registrirali v imenikih, vam svetujem, da to storite. Mnogi ljudje pravijo, da so imeniki že dolgo mrtvi ali da bo registracija v njih uničila spletno mesto - to ni res. Natančneje, ne popolna resnica, če se registrirate v vseh imenikih zapored, potem bo vaš vir le trpel zaradi tega. Toda s pravim izborom zaupanja in dobrimi katalogi bo učinek nesporen.

Preverjanje indeksiranja spletnega mesta v Yandexu

operaterji spletnega mesta in URL. Če želite preveriti indeksiranje spletnega mesta v Yandexu, lahko uporabite standardne operaterje iskalnika..biz. (Seveda, namesto moje domene, tvoja)
RDS vrstica. Mislim, da je najboljši in najhitrejši način za preverjanje indeksiranja strani v Yandexu. Ta vtičnik je mogoče namestiti v vse priljubljene brskalnike in bo takoj zagotovil podrobne informacije o številu strani spletnega mesta v indeksu in prisotnosti določenega gradiva v njem. S to razširitvijo ne boste izgubljali časa z ročnim vnašanjem URL-jev v storitve ali iskanja. Na splošno priporočam, da je vrstica RDS izjemno priročna:
Serphant. Večnamenski vir, s katerim lahko analizirate spletno mesto: ocenjevanje učinkovitosti in spremljanje spletnih mest, analiza strani konkurentov, preverjanje pozicij in indeksiranje spletnega mesta. Indeksiranje strani lahko brezplačno preverite na tej povezavi: https://serphunt.ru/indexing/. Zahvaljujoč paketnemu preverjanju (do 50 naslovov) in visoki zanesljivosti rezultatov je ta storitev po mojem mnenju med najboljšimi tremi.
Storitev XSEO. Nabor orodij za spletne skrbnike, v XSEO.in si lahko ogledate indeksiranje spletnega mesta v Yandexu. Pridobite tudi veliko dodatnih uporabnih informacij o vašem viru:
Storitve PR-CY in CY-PR. Še nekaj storitev, ki vam bodo zagotovile informacije o skupnem številu indeksiranih strani:
storitev poročanja o spletnem mestu. Odlična storitev, ki bo opozorila na vse vaše napake pri delu na strani. Ima tudi razdelek »Indeksiranje«, kjer bodo za vsako stran spletnega mesta na voljo informacije, ki kažejo, ali je indeksirana ali ne v iskalnikih Yandex in Google. Zato priporočam uporabo tega vira za odkrivanje težav na spletnem mestu in preverjanje množičnega indeksiranja Yandex:

Indeksiranje strani v iskalnikih je pomembno za vsakega spletnega skrbnika. Dejansko je za kvalitativno promocijo projekta potrebno spremljati njegovo indeksiranje. Opisal bom postopek preverjanja indeksiranja v Yandexu.

Indeksiranje v Yandexu

Robot Yandex dan za dnem pregleduje spletna mesta in išče nekaj »okusnega«. V vrhu izdaje zbira tista spletna mesta in strani, ki si po njegovem mnenju to najbolj zaslužijo. No, ali pa je samo Yandex želel tako, kdo ve 🙂

Kot pravi spletni skrbniki se bomo držali teorije, da bolje ko je spletno mesto narejeno, višje so njegove pozicije in več prometa.

Obstaja več načinov za preverjanje indeksiranja spletnega mesta v Yandexu:

z uporabo spletnega skrbnika Yandex;
uporaba operaterjev iskalnikov;
uporaba razširitev in vtičnikov;
z uporabo spletnih storitev.

Indeksiranje strani spletnega mesta v Yandex Webmaster

Če želite razumeti, kaj je iskalnik izkopal na našem spletnem mestu, morate v razdelku »Indeksiranje« obiskati našega najljubšega spletnega skrbnika Yandexa.

Statistika pajkanja v Yandex Webmaster

Najprej pojdimo na postavko "Bipass Statistics". Razdelek vam omogoča, da ugotovite, katere strani vašega spletnega mesta robot išče. Identificirate lahko naslove, ki jih robot ni mogel naložiti zaradi nedostopnosti strežnika, na katerem se nahaja stran, ali zaradi napak v vsebini samih strani.

Razdelek vsebuje informacije o straneh:

novo - strani, ki so se nedavno pojavile na spletnem mestu ali jih je robot pravkar zaobšel;
spremenjeno - strani, ki jih je iskalnik Yandex videl, vendar so se spremenile;
zgodovina pajkanja - število strani, ki jih je Yandex preiskal, ob upoštevanju odzivne kode strežnika (200, 301, 404 in druge).

Graf prikazuje nove (zelene) in spremenjene (modre) strani.

In to je graf zgodovine obvoza.

Ta element prikazuje strani, ki jih je našel Yandex.

N/a - URL robotu ni znan, t.j. robot je še nikoli ni srečal.

Katere zaključke je mogoče potegniti z zaslona:

Yandex ni našel naslova /xenforo/xenforostyles/, kar je pravzaprav logično, ker ta stran ne obstaja več.
Yandex je našel naslov /bystrye-ssylki-v-yandex-webmaster/, kar je tudi povsem logično, ker stran je nova.

Torej v mojem primeru Yandex Webmaster odraža tisto, kar sem pričakoval, da bom videl: kaj ni potrebno - Yandex je odstranjen in kaj je potrebno - dodal Yandex. Tako da z obvodom je pri meni vse v redu, blokad ni.

Strani v iskanju

Rezultati iskanja se nenehno spreminjajo – dodajajo se nova spletna mesta, stara se brišejo, položaji v rezultatih se prilagajajo itd.

Podatke lahko uporabite v razdelku »Strani v iskanju«:

za sledenje spremembam števila strani v Yandexu;
za spremljanje dodanih in izključenih strani;
ugotoviti razloge za izključitev spletnega mesta iz rezultatov iskanja;
pridobiti informacije o datumu, ko je spletno mesto obiskal iskalnik;
za informacije o spremembah rezultatov iskanja.

Za preverjanje indeksiranja strani je ta razdelek potreben. Tukaj Yandex Webmaster prikazuje strani, dodane v rezultate iskanja. Če so vse vaše strani dodane v razdelek (nova bo dodana v enem tednu), je s stranmi vse v redu.

Preverjanje števila strani v indeksu Yandex z uporabo operaterjev

Poleg Yandex Webmaster lahko preverite indeksiranje strani z operaterji neposredno v samem iskanju.

Uporabili bomo dva operaterja:

"stran" - iskanje po vseh poddomenah in straneh določenega spletnega mesta;
"gostitelj" - iskanje po straneh, ki gostujejo na tem gostitelju.

Uporabimo operator "site". Upoštevajte, da med operaterjem in mestom ni prostora. 18 strani je v iskanju Yandex.

Uporabimo operaterja "gostitelj". Yandex indeksira 19 strani.

Preverjanje indeksiranja z vtičniki in razširitvami

Preverite indeksiranje spletnega mesta s storitvami

Takih storitev je veliko. Vam bom pokazal dva.

Serphunt

Serphunt je spletna storitev za analizo spletnih mest. Imajo uporabno orodje za preverjanje indeksiranja strani.

Hkrati lahko preverite do 100 strani spletnega mesta z dvema iskalnikoma - Yandex in Google.

Kliknite "Začni skeniranje" in po nekaj sekundah dobimo rezultat:

Kaj je indeksiranje? To je postopek pridobivanja vsebine strani vašega spletnega mesta robotu in vključitve te vsebine v rezultate iskanja. Če se obrnemo na številke, potem baza podatkov robota za indeksiranje vsebuje trilijone naslovov strani spletnega mesta. Vsak dan robot zahteva milijarde takšnih naslovov.

Toda ves ta velik proces indeksiranja interneta lahko razdelimo na majhne korake:

Najprej mora robot za indeksiranje vedeti, kdaj se je stran na vašem spletnem mestu pojavila. Na primer z indeksiranjem drugih strani na internetu, iskanjem povezav ali prenosom nabora nemp. Izvedeli smo za stran, po kateri nameravamo to stran obiti, poslati podatke na vaš strežnik, da zahtevamo to stran spletnega mesta, pridobimo vsebino in jo vključimo v rezultate iskanja.

Celoten ta postopek je proces izmenjave robota za indeksiranje z vašim spletnim mestom. Če se zahteve, ki jih pošlje robot za indeksiranje, praktično ne spremenijo in se spremeni le naslov strani, je odziv vašega strežnika na zahtevo strani robota odvisen od številnih dejavnikov:

iz nastavitev CMS;
iz nastavitev ponudnika gostovanja;
iz dela vmesnega ponudnika.

Ta odgovor se spreminja. Najprej, ko robot zahteva stran, prejme od vašega spletnega mesta naslednji odgovor storitve:

To so glave HTTP. Vsebujejo različne storitvene informacije, zaradi katerih je robotu jasno, katera vsebina bo zdaj posredovana.

Želim se osredotočiti na prvo glavo - to je odzivna koda HTTP, ki robotu za indeksiranje označuje status strani, ki jo je robot zahteval.

Obstaja več deset takih statusov kod HTTP:

Govoril bom o najbolj priljubljenih. Najpogostejša odzivna koda je HTTP-200. Stran je na voljo, jo je mogoče indeksirati, vključiti v rezultate iskanja, vse je v redu.

Nasprotje tega stanja je HTTP-404. Stran manjka na spletnem mestu, ni ničesar za indeksiranje, prav tako ni ničesar za vključiti v iskanje. Pri spreminjanju strukture spletnega mesta in spreminjanju naslovov notranjih strani priporočamo nastavitev strežnika 301 za preusmeritev. Samo on bo robotu nakazal, da se je stara stran premaknila na nov naslov in da je treba nov naslov vključiti v rezultate iskanja.

Če se vsebina strani ni spremenila, odkar je robot nazadnje obiskal stran, je najbolje, da vrnete kodo HTTP-304. Robot bo razumel, da strani v rezultatih iskanja ni treba posodabljati in tudi vsebina ne bo prenesena.

Ko je vaše spletno mesto na voljo kratek čas, na primer pri delu na strežniku, je najbolje, da konfigurirate HTTP-503. Robotu bo nakazal, da spletno mesto in strežnik zdaj nista na voljo, iti morate malo kasneje. V primeru kratkoročne nedostopnosti bo to preprečilo izključitev strani iz rezultatov iskanja.

Poleg teh kod HTTP, statusov strani, morate neposredno pridobiti tudi vsebino same strani. Če je za običajnega obiskovalca stran videti takole:

to so slike, besedilo, navigacija, vse je zelo lepo, potem je za robota za indeksiranje katera koli stran le niz izvorne kode, koda HTML:

Različne meta oznake, besedilna vsebina, povezave, skripti, veliko informacij. Robot jo zbere in vključi v rezultate iskanja. Zdi se, da je vse preprosto, zahtevali so stran - dobili so status, dobili vsebino, vključili so jo v iskanje.

A ni zaman, da storitev iskanja v Yandexu prejme več kot 500 pisem od spletnih skrbnikov in lastnikov spletnih mest, ki navajajo, da so se z odzivom strežnika pojavile določene težave.

Vse te težave lahko razdelimo na dva dela:

To so težave z odzivno kodo HTTP in težave s kodo HTML, z neposredno vsebino strani. Za te težave je lahko veliko razlogov. Najpogostejša je blokada robota za indeksiranje s strani ponudnika gostovanja.

Na primer, zagnali ste spletno mesto, dodali nov razdelek. Robot začne pogosteje obiskovati vaše spletno mesto, poveča obremenitev strežnika. Ponudnik gostovanja to vidi na svojem spremljanju, blokira robota za indeksiranje in zato robot ne more dostopati do vašega spletnega mesta. Pojdite na svoj vir - vse je v redu, vse deluje, strani so lepe, vse se odpre, vse je super, robot ne more indeksirati spletnega mesta hkrati. Če spletno mesto začasno ni na voljo, na primer, če ste pozabili plačati ime domene, je spletno mesto onemogočeno za več dni. Robot pride na spletno mesto, ni na voljo, pod takimi pogoji lahko dobesedno čez nekaj časa izgine iz rezultatov iskanja.

Nepravilne nastavitve CMS, na primer pri posodabljanju ali prehodu na drug CMS, pri posodabljanju dizajna, lahko povzročijo tudi, da strani vašega spletnega mesta izginejo iz rezultatov iskanja, če so nastavitve napačne. Na primer, prisotnost prepovedujoče meta oznake v izvorni kodi strani spletnega mesta, napačna nastavitev kanoničnega atributa. Preverite, ali so po vseh spremembah, ki jih naredite na spletnem mestu, strani na voljo robotu.

Pri tem vam bo pomagalo orodje v Yandexu. Spletni skrbnik za preverjanje odgovora strežnika:

Vidite lahko, katere glave HTTP vaš strežnik vrne robotu, neposredno vsebino strani.

Razdelek »indeksiranje« vsebuje statistiko, kjer si lahko ogledate, katere strani so izključene, dinamiko sprememb teh kazalnikov ter naredite različna sortiranja in filtriranja.

Danes sem govoril tudi o tem razdelku, razdelku »diagnostika spletnega mesta«. Če vaše spletno mesto robotu ni na voljo, boste prejeli obvestilo in priporočila. Kako je to mogoče popraviti? Če teh težav ni, je stran na voljo, odziva se na kode-200, vsebuje pravilno vsebino, nato robot začne samodejno obiskovati vse strani, ki jih prepozna. To ne vodi vedno do želenih posledic, zato je aktivnost robota mogoče na določen način omejiti. Za to obstaja datoteka robots.txt. O tem bomo govorili v naslednjem razdelku.

Robots.txt

Sama datoteka robots.txt je majhen besedilni dokument, leži v korenski mapi spletnega mesta in vsebuje stroga pravila za robota za indeksiranje, ki jih je treba upoštevati pri pajkanju spletnega mesta. Prednosti datoteke robots.txt so, da za njeno uporabo ne potrebuje posebnega in posebnega znanja.

Dovolj je, da odprete Notepad, vnesete določena pravila formata in nato preprosto shranite datoteko na strežnik. Čez dan začne robot uporabljati ta pravila.

Če vzamemo primer preproste datoteke robots.txt, je tukaj, samo na naslednjem diapozitivu:

Direktiva User-Agent:« prikazuje, katerim robotom je pravilo namenjeno, direktivi dovoli/zavrni ter pomožni direktivi zemljevid spletnega mesta in gostitelj. Malo teorije, rad bi prešel na prakso.

Pred nekaj meseci sem hotel kupiti pedometer, zato sem se obrnil na Yandex. Trg za pomoč pri izbiri. Premaknjeno z glavne strani Yandexa na Yandex. Market in prišel na glavno stran storitve.

Spodaj vidite naslov strani, na katero sem šel. Na naslov same storitve je bil dodan tudi identifikator mene, kot uporabnika na strani.

Nato sem šel v razdelek »katalog«.

Izbrali smo želeni pododsek in konfigurirali možnosti razvrščanja, ceno, filter, način razvrščanja, proizvajalca.

Prejel sem seznam izdelkov in naslov strani se je že povečal.

Odšel sem do želenega izdelka, kliknil na gumb “dodaj v košarico” in nadaljeval z blagajno.

Med mojim kratkim potovanjem so se naslovi strani na določen način spremenili.

Dodani so jim bili parametri storitve, ki so me identificirali kot uporabnika, nastavili razvrščanje, lastniku strani nakazali, kje sem šel na to ali ono stran strani.

Takšne strani, storitvene strani, mislim, da uporabnikom iskalnikov ne bodo kaj dosti zanimale. Če pa so na voljo robotu za indeksiranje, lahko vstopijo v iskanje, saj se robot v resnici obnaša kot uporabnik.

Gre na eno stran, vidi povezavo, na katero lahko kliknete, gre nanjo, naloži podatke v svojo bazo podatkov robotov in še naprej obide celotno spletno mesto. Ista kategorija takšnih naslovov lahko vključuje tudi osebne podatke uporabnikov, na primer podatke o dostavi ali kontaktne podatke uporabnikov.

Seveda jih je bolje prepovedati. Samo za to vam bo pomagala datoteka robots.txt. Lahko pridete na svojo stran nocoj po koncu Webmaster, kliknete, vidite, katere strani so res na voljo.

Za preverjanje datoteke robots.txt je v spletnem skrbniku na voljo posebno orodje:

Lahko prenesete, vnesete naslove strani, preverite, ali so na voljo robotu ali ne.

Izvedite nekaj sprememb, poglejte, kako se robot odzove na te spremembe.

Napake pri delu z robots.txt

Poleg tako pozitivnega učinka – zapiranja strani storitev, lahko robots.txt, če se z njim nepravilno ravna, igra kruto šalo.

Prvič, najpogostejša težava pri uporabi robots.txt je zapiranje strani spletnega mesta, ki so res potrebne, tiste, ki bi morale biti v iskanju in prikazane na zahtevah. Preden spremenite datoteko robots.txt, preverite, ali stran, ki jo želite zapreti, ne sodeluje, ali se prikaže za poizvedbe v iskanju. Morda je stran z nekaterimi parametri v rezultatih iskanja in obiskovalci pridejo nanjo iz iskanja. Zato preverite pred uporabo in spreminjanjem datoteke robots.txt.

Drugič, če so na vašem spletnem mestu uporabljeni cirilični naslovi, jih ne boste mogli določiti neposredno v robots.txt, morajo biti kodirani. Ker je robots.txt mednarodni standard, mu sledijo vsi roboti za indeksiranje, zato jih bo zagotovo treba kodirati. Cirilice ni mogoče izrecno določiti.

Tretji najbolj priljubljen problem so različna pravila za različne robote različnih iskalnikov. Pri enem robotu za indeksiranje so bile vse strani za indeksiranje zaprte, pri drugem pa sploh nič ni bilo zaprto. Zaradi tega je v enem iskalniku vse v redu, stran, ki jo potrebujete, je v iskanju, v drugem iskalniku pa so lahko smeti, razne strani za smeti, kaj drugega. Ne pozabite slediti, če nastavite prepoved, to je treba storiti za vse robote za indeksiranje.

Četrta najpogostejša težava je uporaba direktive o zakasnitvi pajkanja, kadar ni potrebna. Ta direktiva vam omogoča, da vplivate na čistost poizvedb s strani robota za indeksiranje. To je praktičen primer, majhno spletno mesto, postavljeno na majhno gostovanje, vse je v redu. Dodali so velik katalog, robot je prišel, videl kup novih strani, začel pogosteje obiskovati stran, poveča obremenitev, jo naloži in stran postane nedostopna. Nastavili smo direktivo Crawl-delay, robot to vidi, zmanjša obremenitev, vse je v redu, stran deluje, vse je indeksirano odlično, je v rezultatih iskanja. Čez nekaj časa spletno mesto še bolj zraste, se prenese na novo gostovanje, ki je pripravljeno na te zahteve, z velikim številom zahtev, direktivo o zakasnitvi pajkanja pa pozabimo odstraniti. Zaradi tega robot razume, da se je na vašem spletnem mestu pojavilo veliko strani, vendar jih ne more indeksirati zgolj zaradi nabora direktiv. Če ste že kdaj uporabljali direktivo o zakasnitvi pajkanja, preverite, ali je zdaj ni več in ali je vaša storitev pripravljena na obremenitev robota za indeksiranje.

Poleg opisane funkcionalnosti vam datoteka robots.txt omogoča tudi reševanje dveh zelo pomembnih nalog - znebiti se dvojnikov na spletnem mestu in določiti naslov glavnega ogledala. Prav o tem bomo govorili v naslednjem razdelku.

Dvojice

Pod dvojniki mislimo na več strani istega spletnega mesta, ki vsebujejo popolnoma identično vsebino. Najpogostejši primer so strani s poševnico in brez na koncu naslova. Prav tako lahko dvojnik razumemo kot isti izdelek v različnih kategorijah.

Na primer, rolerji so lahko za dekleta, za fante je lahko isti model v dveh delih hkrati. In tretjič, to so strani z nepomembnim parametrom. Kot v primeru z Yandexom. Tržite to stran "identifikator seje", ta parameter načeloma ne spreminja vsebine strani.

Če želite zaznati dvojnike, si ogledati, do katerih strani dostopa robot, lahko uporabite Yandex. spletni skrbnik.

Poleg statistike so na voljo tudi naslovi strani, ki jih je robot naložil. Vidite kodo in zadnji klic.

Težave, ki jih povzročajo dvojniki

Zakaj so dvojniki slabi?

Prvič, robot začne dostopati do popolnoma enakih strani spletnega mesta, kar ustvarja dodatno obremenitev ne le na vašem strežniku, ampak vpliva tudi na obhod spletnega mesta kot celote. Robot začne biti pozoren na podvojene strani in ne na tiste strani, ki jih je treba indeksirati in vključiti v rezultate iskanja.

Druga težava je, da lahko podvojene strani, če so na voljo robotu, pridejo v rezultate iskanja in tekmujejo z glavnimi stranmi za poizvedbe, kar seveda lahko negativno vpliva na spletno mesto, ki ga najdemo za določene poizvedbe.

Kako se spopasti z dvojniki?

Najprej vam svetujem, da uporabite oznako "canonical". da robota usmeri na glavno, kanonično stran, ki naj bo indeksirana in je v iskanju poizvedb.

V drugem primeru lahko uporabite preusmeritve strežnika 301, na primer za situacije s poševnico na koncu naslova in brez poševnice. Nameščena preusmeritev - brez dvojnikov.

In tretjič, kot sem rekel, je to datoteka robots.txt. Uporabite lahko tako direktivi onemogočanje kot direktivo Clean-param, da se znebite nepomembnih parametrov.

Zrcala spletnega mesta

Druga naloga, ki vam jo omogoča reševanje robots.txt, je, da robota usmerite na naslov glavnega ogledala.

Ogledala so skupina spletnih mest, ki so popolnoma enaka, kot dvojniki, le dve različni spletni strani. Spletni skrbniki običajno naletijo na ogledala v dveh primerih – ko se želijo preseliti na novo domeno ali ko mora uporabnik omogočiti več naslovov spletnih mest.

Na primer, veste, da uporabniki, ko v naslovno vrstico vnesejo vaš naslov, naslov vašega spletnega mesta, pogosto naredijo isto napako – tipkajo, vnesejo napačen znak ali kaj drugega. Lahko kupite dodatno domeno, da uporabnikom ne pokažete škrbine ponudnika gostovanja, ampak pokažete spletno mesto, na katero so resnično želeli iti.

Zadržimo se pri prvi točki, saj se pri njem najpogosteje pojavijo težave pri delu z ogledali.

Svetujem vam, da celoten postopek selitve izvedete po naslednjih navodilih. Majhno navodilo, ki vam bo omogočilo, da se izognete različnim težavam pri prehodu na novo ime domene:

Najprej morate omogočiti dostop do spletnih mest robotu za indeksiranje in nanje postaviti popolnoma identično vsebino. Prepričajte se tudi, da robot ve za obstoj spletnih mest. Najlažji način je, da jih dodate v Yandex. Webmaster in potrdite pravice do njih.

Drugič, z uporabo direktive Host usmerite robota na naslov glavnega zrcala - tistega, ki bi moral biti indeksiran in biti v rezultatih iskanja.

Čakamo na lepljenje in prenos vseh indikatorjev s starega mesta na novo.

Po tem lahko že nastavite preusmeritev s starega naslova na novega. Preprosta navodila, če se premikate, jih obvezno uporabite. Upam, da ni težav z
premikanje.

Seveda pa se pri delu z ogledali pojavljajo napake.

Prvič, glavna težava je pomanjkanje eksplicitnih navodil za robota za indeksiranje na naslov glavnega zrcala, naslov, ki bi moral biti v iskanju. Na svojih spletnih mestih preverite, ali imajo gostiteljsko direktivo v datoteki robots.txt in vodi do naslova, ki ga želite videti pri iskanju.

Druga najpogostejša težava je uporaba preusmeritve za spremembo glavnega ogledala v obstoječi skupini zrcal. Kaj se dogaja? Starega naslova, ker preusmerja, robot ne indeksira, je izključen iz rezultatov iskanja. Hkrati nova stran ne pride v iskanje, ker je ne-glavno ogledalo. Izgubljate promet, izgubljate obiskovalce, mislim, da tega nihče ne potrebuje.

In tretja težava je nedostopnost enega od ogledal pri premikanju. Najpogostejši primer v tej situaciji je, ko je bila vsebina spletnega mesta kopirana na nov naslov, stari naslov pa je bil preprosto onemogočen, ime domene ni bilo plačano in je postalo nedostopno. Seveda takšna mesta ne bodo zlepljena, morajo biti na voljo robotu za indeksiranje.

Koristne povezave v akciji:

Več koristnih informacij boste našli v storitvi Yandex.Help.
Vsa orodja, o katerih sem govoril, in še več - obstaja beta različica Yandex.Webmaster.

Odgovori na vprašanja

Hvala za poročilo. Ali moram zapreti indeksiranje datotek CSS za robota v robots.txt ali ne?

Trenutno ne priporočamo, da jih zaprete. Da, bolje je zapustiti CSS, JavaScript, ker zdaj delamo na tem, da bi robot za indeksiranje prepoznal tako skripte na vašem spletnem mestu kot sloge, ga bo videl kot obiskovalec iz običajnega brskalnika.

"Povejte mi, če so URL-ji naslovov spletnih mest enaki, za stare in za nove, ali je to normalno?".

V redu je. Pravzaprav morate samo posodobiti dizajn, dodati nekaj vsebine.

»Stran ima kategorijo in je sestavljena iz več strani: poševnica, stran1, stran2, do 10, na primer. Vse strani imajo eno besedilo kategorije in se izkaže, da je podvojeno. Ali bo to besedilo dvojnik ali ga je treba nekako zapreti, novo kazalo na drugi in nadaljnjih straneh?

Prvič, ker se paginacija na prvi strani in vsebina na drugi strani na splošno razlikujeta, ne bosta dvojnika. Vendar morate izračunati, da lahko druga, tretja in nadaljnje strani s paginacijo vstopijo v iskanje in se prikažejo ob kateri koli ustrezni zahtevi. Bolje pri straneh s paginacijo, priporočam uporabo kanoničnega atributa, v najboljšem primeru na strani, ki vsebuje vse izdelke, tako da robot v iskanje ne vključuje strani s paginacijo. Ljudje zelo pogosto uporabljajo canonical na prvi strani paginacije. Robot pride na drugo stran, vidi izdelek, vidi besedilo, ne vključi strani v iskanje in zaradi atributa razume, da je prva stran s paginacijo, ki bi morala biti vključena v rezultate iskanja. Uporabite kanonično in zaprite samo besedilo, mislim, da ni potrebno.

Vir (video): Kako nastaviti indeksiranje spletnega mesta- Aleksander Smirnov

Magomed Cherbizhev