페이지를 인덱싱한다는 것은 무엇을 의미합니까? 색인 검색

사이트의 모든 페이지가 검색 엔진(Yandex, Google 등)에서 인덱싱되는 것이 매우 중요합니다.

  • 첫째, 페이지가 색인에 없으면 사람들이 페이지를 찾을 수 없으며 작성, 작성 및 디자인에 시간(및 아마도 돈)을 낭비하게 됩니다. 색인의 각 페이지는 방문자의 소스입니다.
  • 둘째, 페이지가 색인에 없으면 중복 콘텐츠, 사이트 또는 호스팅 결함과 같은 사이트의 기술적인 문제를 나타낼 수 있습니다.
  • 셋째, 이 페이지는 연결 계획에 참여하는 것과 같은 기술적 역할을 할 수 있습니다(또는 페이지가 색인에 없으면 돈을 받지 못하는 유료 링크를 포함).

클라이언트와 함께 일하면서 인덱싱 문제로 인해 잘못된 위치가 있다는 사실을 반복적으로 접했습니다. 이것 기술적 문제, 일반적으로 협력 첫 달에 수정하므로 두 번째 달부터 방문자와 위치가 눈에 띄게 증가합니다.

아래에서는 Yandex 및 Google에서 페이지 색인 생성을 확인하는 수동 및 자동 방법을 고려할 것입니다. 내가 보여줄게 웹사이트 인덱싱을 확인하는 방법일반적으로 그리고 각 페이지는 별도로.

사이트의 페이지 수를 찾는 방법

이것은 여러 가지 방법으로 수행할 수 있습니다.

이제 실제 페이지 수를 알았으므로 Yandex와 Google에서 색인이 생성된 페이지 수를 확인해야 합니다.

우리는 사이트의 인덱싱을 전체적으로 봅니다.

이 경우 우리는 알게 될 것입니다. 사이트의 몇 페이지가 색인되어 있는지 검색 엔진 . 이것은 우리에게 무엇을 제공합니까? 사이트의 실제 페이지 수를 알면 인덱싱된 페이지 수와 일치하는지 여부를 비교할 수 있습니다. 일치하는 경우 모든 것이 정상이며 그렇지 않은 경우 문제를 처리하고 누락된 페이지(또는 중복된 페이지가 있는 페이지)를 찾아야 합니다.

Yandex의 사이트 인덱싱

몇 가지 방법들.


보시다시피 데이터가 약간 다릅니다. 이는 사이트의 url: 구성이 페이지뿐만 아니라 다른 유형의 파일(doc, xls, jpg 등)을 보여주기 때문입니다. 웹마스터는 페이지 수를 정확히 보여줍니다.

Google의 사이트 인덱싱

Yandex와 마찬가지로 2가지 방법이 있습니다.

  • site:your site 구성을 수동으로 사용합니다. 효과는 Yandex와 거의 동일합니다.
  • Google 웹마스터 도구 사용 https://www.google.com/webmasters/(Yandex.Webmaster와 유사)

자동 방법


무엇 향후 계획

이제 실제 숫자의 몇 페이지가 인덱싱되는지 알았으므로 3가지 상황이 있을 수 있습니다.

  1. 검색 엔진과 사이트의 페이지 수는 동일합니다. 이것은 이상적인 옵션이므로 모든 것이 사이트와 조화를 이룹니다.
  2. 인덱싱된 페이지 수가 적습니다. 사이트에 문제가 있음을 의미합니다(가장 인기 있는 문제는 정보가 없거나 고유하지 않은 콘텐츠입니다)
  3. 인덱싱된 페이지 수가 더 많습니다. 페이지 복제에 문제가 있을 가능성이 높습니다. 한 페이지는 여러 주소에서 액세스할 수 있습니다. 이것은 승진에 좋지 않습니다. 왜냐하면 페이지의 정적인 무게가 흐려지고 또한 반복적인 내용이 많은 페이지가 있습니다.

사이트를 더 자세히 진단하려면 정확히 색인이 생성된 페이지와 색인에 포함되지 않은 페이지를 알아야 합니다.

한 페이지의 인덱싱을 확인하는 방법

우리 사이트의 특정 페이지(예: 최근에 게시됨) 또는 다른 사람 사이트의 페이지(예: 링크를 구입하고 색인이 생성되기를 기다리는 위치)를 확인하려는 경우 필요할 수 있습니다.


모든 페이지의 색인을 개별적으로 확인하는 방법

이 경우 사이트의 모든 페이지에서 색인을 한 번에 확인하여 결과를 알아낼 것입니다. 검색 엔진에서 인덱싱되지 않은 특정 페이지.

여기서 우리는 사이트의 실제 페이지 수뿐만 아니라 이러한 페이지의 주소 목록(URL)도 알아야 합니다. 이것은 아마도 이 기사에서 가장 어려운 부분일 것입니다. 사이트맵을 생성할 때 페이지 목록을 얻은 것 같았지만 거기에 있는 주소는 순수한 형식이 아니며 추출하려면 일종의 데이터 처리 프로그램으로 작업할 수 있어야 합니다. 따라서 우리는 다른 프로그램을 사용할 것입니다.

사이트의 모든 페이지 목록을 얻는 방법

링크를 수집하기 전에 제외 패턴 매개변수를 구성해야 합니다. 이것은 예를 들어 https://website/prodvizhenie/kak-prodvigayut-sajjty.html 형식의 많은 주소를 수집할 때와 같이 수집할 때 불필요한 링크를 제외하기 위해 수행됩니다. 응답하다=324#respond는 페이지의 댓글을 나타냅니다. 그리고 내가 필요한 것은 페이지의 URL입니다. 따라서 *replytocom* 마스크로 주소 제외를 설정했습니다.

다음으로, 우리는 url 수집을 시작하고 프로그램이 수집을 마치면 Yahoo Map / Text 탭으로 이동하여 거기에서 주소를 복사합니다 (저장 버튼은 작동하지 않습니다. 무료 버전프로그램들)

이제 모든 페이지의 주소가 있습니다.

페이지 인덱싱을 자동으로 확인하는 방법

여기에서는 모든 것이 간단합니다. 프로그램 시작 후 마지막 단계에서 수집한 사이트의 URL 목록을 추가하고 초기 URL 목록에 추가합니다. 이 프로그램을 사용하면 Yandex, Google 및 Rambler의 인덱싱을 확인하고 필요한 검색 엔진을 선택하고 확인을 실행할 수 있습니다.

색인에 포함되지 않은 페이지 목록을 얻은 후에는 왜 이런 일이 발생했는지 이해해야 합니다. 모든 것이 페이지의 순서대로 되어 있다면 색인에 진입하기 위해 해당 페이지에 대한 링크를 구매하거나 펌핑된 계정에서 여러 리트윗을 구매할 수 있습니다.

결론

사이트 페이지의 인덱싱을 확인하는 기능을 사용하면 검색 엔진에서 보다 생산적으로 작업하고 사이트의 기존 문제를 계산할 수 있습니다.

대체로 리소스가 훌륭하고 잘 만들어진 경우 인덱싱에 문제가 없어야 합니다. 사이트가 100%는 아니지만 "사람을 위한" 검색 엔진의 요구 사항을 충족하는 경우 기꺼이 귀하를 보고 추가될 모든 새로운 항목을 색인화할 것입니다.

그러나 사이트를 홍보하는 첫 번째 단계는 사이트를 PS 색인에 추가하는 것입니다. 리소스가 인덱싱될 때까지는 검색 엔진이 해당 리소스에 대해 전혀 알지 못하기 때문에 일반적으로 홍보할 것이 없습니다. 따라서이 기사에서는 Yandex의 사이트 인덱싱이 무엇이며 인덱싱을 위해 리소스를 제출하는 방법을 고려할 것입니다. 또한 Yandex 색인에 사이트 또는 별도 페이지가 포함되어 있는지 확인하는 방법과 Yandex에서 색인 생성 속도를 높이려면 어떻게 해야 하는지도 알려 드리겠습니다.

Yandex에서 사이트를 인덱싱하는 것은 yandex 검색 엔진의 로봇이 사이트를 우회하고 모두 입력하는 것입니다. 열린 페이지베이스로. 러시아 검색 엔진 스파이더는 검색 가능한 페이지, 사진, 비디오, 문서 등 사이트에 대한 데이터를 데이터베이스에 추가합니다. 또한 검색 봇은 특수 태그 및 파일로 닫히지 않은 링크 및 기타 요소를 인덱싱합니다.

리소스를 인덱싱하는 주요 방법:

    강제 - 특별한 양식을 통해 Yandex에서 인덱싱을 위해 사이트를 보내야합니다.

    자연 - 검색 스파이더는 웹 사이트에 연결되는 외부 리소스에서 이동하여 자체적으로 사이트를 찾습니다.

Yandex에서 사이트를 인덱싱하는 시간은 사람마다 다르며 몇 시간에서 몇 주까지 걸릴 수 있습니다.

Sitemap.xml에 어떤 값이 있는지, 리소스가 채워지는 빈도, 사이트에 대한 언급이 다른 리소스에 나타나는 빈도 등 많은 요인에 따라 다릅니다. 인덱싱 프로세스는 주기적이므로 로봇은 (사실상) 동일한 시간 간격으로 사용자에게 옵니다. 그러나 어떤 빈도로 - 위에서 언급한 요인과 특정 로봇에 따라 다릅니다.

스파이더는 전체 웹사이트(작은 경우) 또는 별도의 섹션(온라인 상점 또는 미디어에 적용됨)을 색인화할 수 있습니다. 미디어 및 정보 포털라이브, Yandex에서 빠른 사이트 인덱싱을 위한 소위 빠른 로봇.

때때로 프로젝트에 기술적인 문제(또는 서버 문제)가 발생할 수 있습니다. 이 경우 사이트의 yandex 인덱싱이 수행되지 않아 검색 엔진이 다음 시나리오에 의존할 수 있습니다.

  • 데이터베이스에서 인덱싱되지 않은 페이지를 즉시 버립니다.
  • 특정 시간 후에 리소스를 다시 인덱싱합니다.
  • 인덱싱되지 않은 페이지를 데이터베이스에서 제외하도록 하고, 인덱싱하는 동안 찾지 못하면 인덱스에서 제외됩니다.

Yandex에서 사이트 인덱싱 속도를 높이는 방법

Yandex에서 인덱싱 속도를 높이는 방법 - 자주 묻는 질문다양한 웹마스터 포럼에서 실제로 전체 사이트의 수명은 인덱싱에 따라 달라집니다. 즉, PS의 리소스 위치, 클라이언트의 클라이언트 수, 프로젝트의 인기도, 결국 이익입니다.

나는 당신에게 유용하기를 바라는 10 가지 방법을 준비했습니다. 처음 5개는 리소스의 영구 인덱싱을 위한 표준이며 다음 5개는 Yandex에서 사이트의 인덱싱 속도를 높이는 데 도움이 됩니다.

    북마크 서비스;

    RSS 피드 - 귀하의 리소스에서 구독자 메일 및 RSS 디렉토리로 새로운 자료를 방송할 수 있도록 합니다.

    링크 교환 - 올바른 선택(올바른 선택 방법)과 함께 양질의 기증자로부터 dofollow 링크의 안정적인 증가를 제공합니다.

    -아직 디렉토리에 사이트를 등록하지 않은 경우이를 수행하는 것이 좋습니다. 많은 사람들이 디렉토리가 오래 전에 죽었거나 등록하면 사이트가 종료될 것이라고 말합니다. 이는 사실이 아닙니다. 더 정확하게 말하면 모든 디렉토리에 연속으로 등록하면 리소스가 이것으로 인해 어려움을 겪을 수 있습니다. 그러나 신뢰와 좋은 카탈로그를 올바르게 선택하면 그 효과는 부인할 수 없습니다.

Yandex에서 사이트 인덱싱 확인

  • 사이트 및 URL 연산자. Yandex에서 사이트의 인덱싱을 확인하려면 검색 엔진..biz의 표준 연산자를 사용할 수 있습니다. (물론 내 도메인 대신 당신의 도메인)

  • RDS 바. 내가 생각하는 최고와 빠른 길 Yandex에서 페이지 인덱싱을 확인합니다. 이 플러그인은 널리 사용되는 모든 브라우저에 설치할 수 있으며 색인의 사이트 페이지 수와 색인에 포함된 특정 자료의 존재 여부에 대한 자세한 정보를 즉시 제공합니다. 이 확장을 사용하면 서비스나 검색에 URL을 수동으로 입력하는 데 시간을 낭비하지 않아도 됩니다. 일반적으로 RDS 막대가 매우 편리할 것을 권장합니다.
  • 서비스 서펀트. 사이트를 분석할 수 있는 다기능 리소스: 효율성 평가 및 사이트 모니터링, 경쟁자 페이지 분석, 위치 확인 및 사이트 색인 생성. 이 링크에서 무료로 페이지 인덱싱을 확인할 수 있습니다: https://serphunt.ru/indexing/. 일괄 검사(최대 50개 주소)와 결과의 높은 신뢰성으로 인해 이 서비스는 제 생각에 상위 3위 안에 듭니다.

  • XSEO 서비스. 웹마스터를 위한 도구 세트인 XSEO.in에서 Yandex에서 사이트 인덱싱을 볼 수 있습니다. 추가로 많이 받으세요 유용한 정보리소스에 대해:

  • 서비스 PR-CY 및 CY-PR. 색인된 총 페이지 수에 대한 정보를 제공하는 몇 가지 추가 서비스:

  • 사이트 리포트 서비스. 사이트에서 작업할 때의 모든 실수를 지적할 훌륭한 서비스입니다. 또한 Yandex 및 Google 검색 엔진에서 색인이 생성되었는지 여부를 나타내는 정보가 사이트의 각 페이지에 제공되는 "색인화" 섹션이 있습니다. 따라서이 리소스를 사용하여 사이트의 문제를 감지하고 Yandex 대량 인덱싱을 확인하는 것이 좋습니다.

검색 엔진의 사이트 인덱싱은 모든 웹마스터에게 중요합니다. 실제로 프로젝트의 질적 추진을 위해서는 색인 생성을 모니터링해야 합니다. Yandex에서 인덱싱을 확인하는 과정을 설명하겠습니다.

Yandex에서 인덱싱

Yandex 로봇은 "맛있는" 것을 찾기 위해 매일 웹사이트를 스캔합니다. 그의 의견으로는 가장 가치가 있는 사이트와 페이지를 문제의 맨 위에 수집합니다. 글쎄, 아니면 Yandex가 그렇게 원했는지 누가 알겠습니까?

실제 웹마스터로서 우리는 사이트가 더 잘 만들어질수록 더 높은 위치와 더 많은 트래픽이 발생한다는 이론을 고수할 것입니다.

Yandex에서 사이트의 인덱싱을 확인하는 방법에는 여러 가지가 있습니다.

  • Yandex 웹마스터 사용
  • 검색 엔진 연산자 사용
  • 확장 및 플러그인 사용
  • 온라인 서비스를 사용합니다.

Yandex 웹마스터에서 사이트 페이지 인덱싱

검색 엔진이 사이트에서 무엇을 파헤 쳤는지 이해하려면 "인덱싱"섹션에서 가장 좋아하는 Yandex 웹 마스터로 이동해야합니다.

Yandex 웹마스터의 크롤링 통계

먼저 "통계 우회" 항목으로 이동합니다. 이 섹션에서는 로봇이 크롤링하는 사이트 페이지를 찾을 수 있습니다. 사이트가 있는 서버를 사용할 수 없거나 페이지 내용 자체의 오류로 인해 로봇이 로드할 수 없는 주소를 식별할 수 있습니다.

이 섹션에는 페이지에 대한 정보가 포함되어 있습니다.

  • new - 최근에 사이트에 나타난 페이지 또는 로봇이 방금 이를 우회했습니다.
  • 변경됨 - Yandex 검색 엔진이 보았던 페이지이지만 변경되었습니다.
  • 크롤링 기록 - 서버 응답 코드(200, 301, 404 등)를 고려하여 Yandex가 크롤링한 페이지 수입니다.

그래프는 새 페이지(녹색) 및 변경된 페이지(파란색)를 보여줍니다.

그리고 이것은 우회 이력 그래프입니다.

이 항목은 Yandex가 찾은 페이지를 표시합니다.

N/a - 로봇이 URL을 알 수 없습니다. 로봇은 전에 그녀를 만난 적이 없었습니다.

화면에서 어떤 결론을 내릴 수 있습니까?

  1. Yandex는 실제로 논리적인 주소 /xenforo/xenforostyles/를 찾지 못했습니다. 이 페이지는 더 이상 존재하지 않습니다.
  2. Yandex는 주소 /bystrye-ssylki-v-yandex-webmaster/를 찾았습니다. 이 주소 역시 매우 논리적입니다. 페이지가 새롭습니다.

그래서 제 경우에는 Yandex 웹마스터가 제가 예상했던 것을 반영합니다. 필요하지 않은 것 - Yandex가 제거되고 필요한 것 - Yandex가 추가되었습니다. 그래서 바이패스를 사용하면 모든 것이 괜찮고 막힘이 없습니다.

검색 페이지

검색 결과는 지속적으로 변경됩니다. 새 사이트가 추가되고, 이전 사이트가 삭제되고, 결과의 위치가 조정되는 등의 작업이 수행됩니다.

"검색된 페이지" 섹션의 정보를 사용할 수 있습니다.

  • Yandex에서 페이지 수의 변경 사항을 추적합니다.
  • 추가 및 제외된 페이지를 추적하기 위해
  • 검색 결과에서 사이트를 제외하는 이유를 찾기 위해
  • 검색 엔진이 사이트를 방문한 날짜에 대한 정보를 얻기 위해
  • 검색 결과의 변경 사항에 대한 정보.

페이지 인덱싱을 확인하려면 이 섹션이 필요합니다. 여기 Yandex 웹마스터는 다음에 추가된 페이지를 보여줍니다 검색 결과. 모든 페이지가 섹션에 추가되면(새 페이지가 일주일 이내에 추가됨) 모든 것이 페이지와 함께 순서대로 진행됩니다.

연산자를 사용하여 Yandex 인덱스의 페이지 수 확인

Yandex 웹마스터 외에도 검색 자체에서 직접 연산자를 사용하여 페이지 인덱싱을 확인할 수 있습니다.

우리는 두 개의 연산자를 사용할 것입니다:

  • "사이트" - 지정된 사이트의 모든 하위 도메인 및 페이지를 검색합니다.
  • "호스트" - 이 호스트에서 호스팅되는 페이지를 검색합니다.

"사이트" 연산자를 사용합시다. 운영자와 사이트 사이에는 공백이 없습니다. Yandex 검색에 18페이지가 있습니다.

"호스트" 연산자를 사용합시다. Yandex에서 인덱싱한 19페이지.

플러그인 및 확장으로 인덱싱 확인

서비스를 사용하여 사이트 인덱싱 확인

그런 서비스가 많이 있습니다. 두 가지를 보여드리겠습니다.

서펀트

Serphunt는 온라인 웹사이트 분석 서비스입니다. 그들은 가지고있다 유용한 도구페이지 인덱싱을 확인합니다.

동시에 Yandex와 Google의 두 가지 검색 엔진을 사용하여 사이트의 최대 100페이지를 확인할 수 있습니다.

"스캔 시작"을 클릭하고 몇 초 후에 결과를 얻습니다.


인덱싱이란 무엇입니까? 이것은 사이트 페이지의 콘텐츠를 로봇으로 가져오고 이 콘텐츠를 검색 결과에 포함시키는 프로세스입니다. 숫자로 전환하면 인덱싱 로봇의 데이터베이스에는 수조 개의 사이트 페이지 주소가 포함됩니다. 로봇은 매일 수십억 개의 주소를 요청합니다.

그러나 인터넷 인덱싱의 이 전체 큰 프로세스는 작은 단계로 나눌 수 있습니다.


먼저 인덱싱 로봇은 사이트의 페이지가 언제 나타났는지 알아야 합니다. 예를 들어, 인터넷에서 다른 페이지의 색인을 생성하거나, 링크를 찾거나, 세트 nemp를 다운로드하여. 페이지에 대해 알게 된 후 이 페이지를 건너뛰고 서버에 데이터를 보내 사이트의 이 페이지를 요청하고 콘텐츠를 가져와서 검색 결과에 포함할 계획입니다.

이 전체 과정은 인덱싱 로봇을 사이트와 교환하는 과정입니다. 인덱싱 로봇이 보낸 요청이 실제로 변경되지 않고 페이지 주소만 변경된 경우 로봇의 페이지 요청에 대한 서버의 응답은 다음과 같은 여러 요인에 따라 달라집니다.

  • CMS 설정에서
  • 호스팅 공급자의 설정에서
  • 중간 공급자의 작업에서.

이 대답이 바뀌고 있습니다. 우선 페이지를 요청할 때 로봇은 사이트에서 다음과 같은 서비스 응답을 받습니다.


HTTP 헤더입니다. 여기에는 현재 전송될 콘텐츠가 무엇인지 로봇에 명확하게 알려주는 다양한 서비스 정보가 포함되어 있습니다.

첫 번째 헤더에 초점을 맞추고 싶습니다. 이것은 로봇이 요청한 페이지의 상태를 인덱싱 로봇에 나타내는 HTTP 응답 코드입니다.

HTTP 코드에는 다음과 같은 수십 가지 상태가 있습니다.


나는 가장 인기있는 것에 대해 이야기 할 것입니다. 가장 일반적인 응답 코드는 HTTP-200입니다. 페이지를 사용할 수 있고 색인을 생성할 수 있고 검색 결과에 포함할 수 있으며 모든 것이 정상입니다.

이 상태의 반대는 HTTP-404입니다. 사이트에 페이지가 없고 색인을 생성할 항목이 없으며 검색에 포함할 항목도 없습니다. 사이트 구조 변경 및 주소 변경 시 내부 페이지리디렉션을 위해 301 서버를 설정하는 것이 좋습니다. 그는 로봇에게 다음과 같이 지적할 것입니다. 오래된 페이지새 주소로 이전되었으며 검색 결과에 새 주소를 포함해야 합니다.

로봇이 페이지를 마지막으로 방문한 이후 페이지 콘텐츠가 변경되지 않은 경우 HTTP-304 코드를 반환하는 것이 가장 좋습니다. 로봇은 검색 결과에서 페이지를 업데이트할 필요가 없으며 콘텐츠도 전송되지 않는다는 것을 이해합니다.

예를 들어 서버에서 일부 작업을 수행할 때와 같이 사이트를 잠시 사용할 수 있는 경우 HTTP-503을 구성하는 것이 가장 좋습니다. 그는 로봇에게 지금 사이트와 서버를 사용할 수 없다고 알려줄 것입니다. 당신은 조금 후에 가야 합니다. 단기적으로 사용할 수 없는 경우 페이지가 검색 결과에서 제외되는 것을 방지합니다.

이러한 HTTP 코드, 페이지 상태 외에도 페이지 자체의 콘텐츠를 직접 가져와야 합니다. 일반 방문자의 경우 페이지가 다음과 같이 표시됩니다.


이것들은 그림, 텍스트, 탐색이며 모든 것이 매우 아름답습니다. 인덱싱 로봇의 경우 모든 페이지는 소스 코드, HTML 코드의 집합일 뿐입니다.


다양한 메타 태그, 텍스트 콘텐츠, 링크, 스크립트, 많은 정보. 로봇은 이를 수집하고 검색 결과에 포함합니다. 모든 것이 간단하고 페이지를 요청했습니다. 상태를 얻었고 콘텐츠를 얻었고 검색에 포함했습니다.

그러나 Yandex의 검색 서비스가 웹마스터와 사이트 소유자로부터 서버 응답에 특정 문제가 발생했다는 500통 이상의 편지를 받는 것은 헛된 것이 아닙니다.

이 모든 문제는 두 부분으로 나눌 수 있습니다.

HTTP 응답 코드의 문제와 페이지의 직접적인 내용과 관련된 HTML 코드의 문제입니다. 이러한 문제에는 여러 가지 이유가 있을 수 있습니다. 가장 일반적인 것은 호스팅 제공자가 인덱싱 로봇을 차단하는 것입니다.


예를 들어 웹 사이트를 시작하고 새 섹션을 추가했습니다. 로봇은 귀하의 사이트를 더 자주 방문하기 시작하여 서버의 부하를 증가시킵니다. 호스팅 공급자는 모니터링에서 이를 보고 인덱싱 로봇을 차단하므로 로봇이 사이트에 액세스할 수 없습니다. 리소스로 이동합니다. 모든 것이 정상이고, 모든 것이 작동하고, 페이지가 아름답고, 모든 것이 열리고, 모든 것이 훌륭하고, 로봇이 동시에 사이트를 색인화할 수 없습니다. 사이트를 일시적으로 사용할 수 없는 경우(예: 도메인 이름 지불을 잊어버린 경우) 사이트는 며칠 동안 사용할 수 없습니다. 로봇이 사이트에 오면 사용할 수 없으며 이러한 조건에서는 잠시 후 문자 그대로 검색 결과에서 사라질 수 있습니다.

예를 들어, 다른 CMS로 업데이트하거나 전환할 때 잘못된 CMS 설정으로 인해 디자인을 업데이트할 때 설정이 잘못된 경우 사이트 페이지가 검색 결과에서 사라질 수도 있습니다. 예를 들어, 금지 메타 태그의 존재 소스 코드사이트 페이지, 표준 속성의 잘못된 설정. 사이트를 변경한 후 로봇이 페이지를 사용할 수 있는지 확인하십시오.

Yandex의 도구가 도움이 될 것입니다. 서버 응답 확인을 위한 웹마스터:


서버가 로봇에 반환하는 HTTP 헤더를 페이지의 콘텐츠에서 직접 확인할 수 있습니다.


"인덱싱" 섹션에는 제외된 페이지, 이러한 지표의 변화의 역학을 확인하고 다양한 정렬 및 필터링을 수행할 수 있는 통계가 포함되어 있습니다.


또한 오늘 저는 이 섹션인 "현장 진단" 섹션에 대해 이야기했습니다. 로봇이 사이트를 사용할 수 없게 되면 알림과 권장 사항을 받게 됩니다. 이것은 어떻게 고칠 수 있습니까? 이러한 문제가 없으면 사이트를 사용할 수 있고 코드-200에 응답하고 올바른 콘텐츠가 포함된 다음 로봇이 다음에서 시작됩니다. 자동 모드그가 인식하는 모든 페이지를 방문하십시오. 이것이 항상 원하는 결과로 이어지는 것은 아니므로 로봇의 활동이 특정 방식으로 제한될 수 있습니다. 이를 위한 robots.txt 파일이 있습니다. 우리는 다음 섹션에서 그것에 대해 이야기 할 것입니다.

로봇.txt

robots.txt 파일 자체는 작은 텍스트 문서이며 사이트의 루트 폴더에 있으며 사이트를 크롤링할 때 따라야 하는 인덱싱 로봇에 대한 엄격한 규칙이 포함되어 있습니다. robots.txt 파일의 장점은 이 파일을 사용하는 데 특별한 지식이 필요하지 않다는 것입니다.

메모장을 열고 특정 형식 규칙을 입력한 다음 서버에 파일을 저장하기만 하면 됩니다. 낮에는 로봇이 이러한 규칙을 사용하기 시작합니다.

간단한 robots.txt 파일의 예를 들면 다음 슬라이드에 있습니다.


User-Agent:” 지시문은 규칙이 의도된 로봇, 허용/거부 지시문, Sitemap 및 Host 보조 지시문을 보여줍니다. 약간의 이론, 나는 연습으로 이동하고 싶습니다.

몇달전 만보계를 사고싶어서 Yandex로 눈을 돌렸습니다. 선택에 도움이 필요한 시장. Yandex 메인 페이지에서 Yandex로 이동했습니다. 시장과 히트 홈페이지서비스.


아래에 내가 방문한 페이지의 주소가 표시됩니다. 서비스 자체의 주소에는 사이트의 사용자인 나를 식별하는 식별자도 추가되었습니다.

그런 다음 "카탈로그"섹션으로 이동했습니다.


원하는 하위 섹션을 선택하고 정렬 옵션, 가격, 필터, 정렬 방법, 제조업체를 구성했습니다.

상품 목록을 받았는데 페이지 주소가 이미 늘어났습니다.

원하는 상품으로 가서 '장바구니에 담기' 버튼을 누르고 결제를 계속했다.

내 짧은 여행 동안 페이지 주소가 특정 방식으로 변경되었습니다.


서비스 매개 변수가 추가되어 나를 사용자로 식별하고 정렬을 설정하고 내가 사이트의 이 페이지 또는 해당 페이지로 이동한 사이트 소유자에게 표시됩니다.

이러한 페이지, 서비스 페이지는 검색 엔진 사용자에게별로 관심이 없을 것입니다. 그러나 인덱싱 로봇이 사용할 수 있는 경우 로봇이 실제로 사용자처럼 행동하기 때문에 검색에 참여할 수 있습니다.

그는 한 페이지로 이동하여 클릭할 수 있는 링크를 보고 해당 페이지로 이동하여 데이터를 로봇 데이터베이스에 로드하고 전체 사이트를 계속 우회합니다. 이러한 주소의 동일한 범주에는 사용자의 개인 데이터(예: 배달 정보 또는 사용자의 연락처 데이터)도 포함될 수 있습니다.

당연히 금지하는 것이 좋습니다. 이를 위해 robots.txt 파일이 도움이 될 것입니다. 웹마스터가 끝난 후 오늘 밤 귀하의 사이트에 방문하여 실제로 사용 가능한 페이지를 확인하십시오.

robots.txt를 확인하기 위해 웹마스터에 다음과 같은 특별한 도구가 있습니다.


다운로드하고 페이지 주소를 입력하고 로봇이 사용할 수 있는지 여부를 확인할 수 있습니다.


일부 변경을 수행하고 로봇이 이러한 변경에 어떻게 반응하는지 확인하십시오.

robots.txt 작업 시 오류

서비스 페이지를 닫는 이러한 긍정적인 영향 외에도 robots.txt를 잘못 처리하면 잔인한 농담이 될 수 있습니다.

첫째, robots.txt를 사용할 때 가장 일반적인 문제는 실제로 필요한 사이트 페이지, 즉 검색에 있어야 하고 요청에 따라 표시되어야 하는 페이지를 닫는 것입니다. robots.txt를 변경하기 전에 닫으려는 페이지가 참여하지 않는지, 검색에 검색어가 표시되는지 확인하십시오. 아마도 일부 매개변수가 있는 페이지가 검색 결과에 있고 방문자는 검색을 통해 페이지를 방문합니다. 따라서 robots.txt를 사용 및 변경하기 전에 반드시 확인하시기 바랍니다.

둘째, 사이트에서 키릴 자모 주소를 사용하는 경우 robots.txt에서 직접 지정할 수 없으며 인코딩해야 합니다. robots.txt는 국제 표준이므로 모든 인덱싱 로봇이 이를 따르므로 반드시 인코딩해야 합니다. 키릴 문자는 명시적으로 지정할 수 없습니다.

세 번째로 가장 인기 있는 문제는 검색 엔진이 다른 로봇마다 규칙이 다르다는 것입니다. 한 인덱싱 로봇의 경우 모든 인덱싱 페이지가 닫혔고 두 번째 로봇에서는 아무 것도 닫히지 않았습니다. 결과적으로 한 검색 엔진에서는 모든 것이 정상이고 필요한 페이지는 검색에 있으며 다른 검색 엔진에는 휴지통, 다양한 쓰레기 페이지 등이 있을 수 있습니다. 금지를 설정한 경우 모든 인덱싱 로봇에 대해 수행해야 합니다.

네 번째로 가장 일반적인 문제는 필요하지 않을 때 Crawl-delay 지시문을 사용하는 것입니다. 이 지시문을 사용하면 인덱싱 로봇 측에서 쿼리의 청결도에 영향을 줄 수 있습니다. 이것은 실용적인 예이며 작은 호스팅에 배치된 작은 사이트이며 모든 것이 정상입니다. 그들은 큰 카탈로그를 추가했고 로봇이 와서 많은 새 페이지를 보고 사이트를 더 자주 방문하기 시작했으며 로드가 증가하고 다운로드하여 사이트를 사용할 수 없게 되었습니다. Crawl-delay 지시어를 설정하면 로봇이 이것을 보고 부하를 줄이며 모든 것이 정상이고 사이트가 작동하며 모든 것이 완벽하게 색인화되고 검색 결과에 있습니다. 일정 시간이 지나면 사이트가 더 커지고 이러한 요청에 대처할 준비가 된 새 호스팅으로 이전됩니다. 많은 양요청 및 Crawl-delay 지시문을 제거하는 것을 잊었습니다. 결과적으로 로봇은 귀하의 사이트에 많은 페이지가 표시되었음을 이해하지만 지시어 세트 때문에 단순히 페이지를 색인화할 수 없습니다. Crawl-delay 지시문을 사용한 적이 있다면 지금은 사라지고 서비스가 인덱싱 로봇의 로드를 처리할 준비가 되었는지 확인하십시오.


설명된 기능 외에도 robots.txt 파일을 사용하면 사이트에서 중복을 제거하고 기본 미러의 주소를 지정하는 두 가지 매우 중요한 작업을 해결할 수 있습니다. 이것이 바로 다음 섹션에서 이야기할 내용입니다.

더블스


중복이란 완전히 동일한 콘텐츠를 포함하는 동일한 사이트의 여러 페이지를 의미합니다. 가장 일반적인 예는 주소 끝에 슬래시가 있거나 없는 페이지입니다. 또한 중복은 다른 범주의 동일한 제품으로 이해될 수 있습니다.

예를 들어, 롤러 스케이트는 소녀를 위한 것일 수 있고 소년의 경우 동일한 모델이 동시에 두 섹션에 있을 수 있습니다. 그리고 세 번째로 중요하지 않은 매개 변수가 있는 페이지입니다. Yandex의 예에서와 같이. 이 페이지를 "세션 식별자"로 마케팅하며, 이 매개변수는 원칙적으로 페이지의 내용을 변경하지 않습니다.

중복을 감지하려면 로봇이 액세스하는 페이지를 확인하려면 Yandex를 사용할 수 있습니다. 웹마스터.


통계 외에도 로봇이 로드한 페이지의 주소도 있습니다. 코드와 마지막 호출이 표시됩니다.

중복으로 인한 문제

중복이 나쁜 이유는 무엇입니까?

첫째, 로봇은 사이트의 절대적으로 동일한 페이지에 액세스하기 시작하여 서버에 추가 로드를 생성할 뿐만 아니라 사이트 전체의 우회에도 영향을 미칩니다. 로봇은 색인을 생성하고 검색 결과에 포함해야 하는 페이지가 아니라 중복 페이지에 주의를 기울이기 시작합니다.


두 번째 문제는 로봇이 사용할 수 있는 경우 중복 페이지가 검색 결과에 들어가 기본 페이지와 쿼리를 경쟁할 수 있다는 것입니다. 이는 물론 특정 쿼리에 대해 검색되는 사이트에 부정적인 영향을 미칠 수 있습니다.

어떻게 중복을 처리할 수 있습니까?

우선 "canonical" 태그를 사용하는 것이 좋습니다. 인덱싱되고 쿼리 검색에 있어야 하는 기본 표준 페이지로 로봇을 가리키기 위해.

두 번째 경우에는 주소 끝에 슬래시가 있고 슬래시가 없는 경우와 같이 301 서버 리디렉션을 사용할 수 있습니다. 리디렉션을 설치했습니다. 중복되지 않습니다.


그리고 세 번째로 제가 말했듯이 이것은 robots.txt 파일입니다. disable 지시문과 Clean-param 지시문을 모두 사용하여 중요하지 않은 매개변수를 제거할 수 있습니다.

사이트 미러

robots.txt를 사용하여 해결할 수 있는 두 번째 작업은 로봇이 메인 미러의 주소를 가리키도록 하는 것입니다.


미러는 복제와 같이 두 개의 다른 사이트만 있는 절대적으로 동일한 사이트 그룹입니다. 웹마스터는 일반적으로 새 도메인으로 이동하려는 경우 또는 사용자가 여러 사이트 주소를 사용할 수 있도록 해야 하는 경우 두 가지 경우에 미러를 접합니다.

예를 들어 사용자가 귀하의 주소를 입력할 때 귀하의 웹사이트 주소는 주소 표시 줄, 종종 같은 실수를 합니다. 그들은 봉인되거나 잘못된 문자를 넣거나 다른 것을 넣습니다. 사용자에게 호스팅 제공업체의 스텁이 아니라 실제로 가고 싶었던 사이트를 보여주기 위해 추가 도메인을 구입할 수 있습니다.

거울로 작업 할 때 가장 자주 문제가 발생하는 것이 그와 함께 있기 때문에 첫 번째 요점에 대해 생각해 봅시다.

다음 지침에 따라 이사의 전 과정을 수행하는 것이 좋습니다. 새 도메인 이름으로 이동할 때 다양한 문제를 피할 수 있는 작은 지침:

먼저 인덱싱 로봇이 사이트에 액세스할 수 있도록 하고 사이트에 완전히 동일한 콘텐츠를 배치해야 합니다. 또한 로봇이 사이트의 존재를 알고 있는지 확인하십시오. 가장 쉬운 방법은 Yandex에 추가하는 것입니다. 웹 마스터 및 권한을 확인하십시오.

둘째, 호스트 지시문을 사용하여 로봇이 메인 미러의 주소를 가리키도록 합니다. 이 주소는 인덱싱되어야 하고 검색 결과에 있어야 합니다.

우리는 이전 사이트에서 새 사이트로 모든 지표의 접착 및 이전을 기다리고 있습니다.


그 후에 이미 이전 주소에서 새 주소로 리디렉션을 설정할 수 있습니다. 간단한 사용법, 이사하실 분들은 꼭 이용하세요. 에 문제가 없기를 바랍니다.
움직이는.

그러나 물론 미러로 작업할 때 오류가 발생합니다.

우선, 주요 문제는 검색에 있어야 하는 주소인 메인 미러의 주소에 대한 인덱싱 로봇에 대한 명시적 지침이 부족하다는 것입니다. 귀하의 사이트에서 robots.txt에 호스트 지시문이 있는지 확인하십시오. 그러면 검색에서 보고자 하는 주소로 연결됩니다.

두 번째로 가장 일반적인 문제는 리디렉션을 사용하여 기존 미러 그룹의 마스터 미러를 변경하는 것입니다. 무슨 일이야? 이전 주소는 리디렉션되기 때문에 로봇에 의해 인덱싱되지 않으므로 검색 결과에서 제외됩니다. 동시에 새 사이트는 기본 미러가 아니기 때문에 검색에 포함되지 않습니다. 당신은 트래픽을 잃고 방문자를 잃고, 나는 아무도 그것을 필요로하지 않는다고 생각합니다.


그리고 세 번째 문제는 움직일 때 거울 중 하나에 접근 할 수 없다는 것입니다. 이 상황의 가장 일반적인 예는 사이트의 콘텐츠가 새 주소로 복사되고 이전 주소가 단순히 비활성화되고 도메인 이름에 대한 비용이 지불되지 않아 사용할 수 없게 된 경우입니다. 당연히 이러한 사이트는 접착되지 않으며 인덱싱 로봇에 사용할 수 있어야 합니다.

유용한 링크:

  • Yandex.Help 서비스에서 더 유용한 정보를 찾을 수 있습니다.
  • 내가 말한 모든 도구와 그 이상 - Yandex.Webmaster의 베타 버전이 있습니다.

질문에 대한 답변

신고해 주셔서 감사합니다. robots.txt에서 로봇에 대한 CSS 파일의 인덱싱을 닫아야 합니까?

현재로서는 닫는 것을 권장하지 않습니다. 예, 이제 인덱싱 로봇이 사이트의 스크립트와 스타일을 모두 인식하여 일반 브라우저의 방문자처럼 보이게 하기 위해 CSS, JavaScript를 그대로 두는 것이 좋습니다.

"사이트 주소의 URL이 동일한 경우 이전 및 새 URL이 동일한지 알려주세요. 정상인가요?"

괜찮아요. 사실 디자인을 업데이트하고 콘텐츠를 추가하기만 하면 됩니다.

“사이트에는 카테고리가 있고 여러 페이지로 구성되어 있습니다. 예를 들어 슬래시, 페이지 1, 페이지 2, 최대 10개입니다. 모든 페이지에는 하나의 카테고리 텍스트가 있으며 중복된 것으로 판명되었습니다. 이 텍스트가 중복되거나 닫혀야 합니까? 두 번째 페이지와 추가 페이지에 새 색인이 있습니까?

우선 첫 번째 페이지의 페이지 매김과 두 번째 페이지의 내용이 일반적으로 다르기 때문에 중복되지 않습니다. 그러나 두 번째, 세 번째 및 추가 페이지 매김 페이지가 검색에 포함되어 관련 요청에 대해 표시될 수 있음을 계산해야 합니다. 페이지 매김 페이지에서는 로봇이 검색에 페이지 매김 페이지를 포함하지 않도록 모든 제품이 포함된 페이지에서 가장 좋은 경우 표준 속성을 사용하는 것이 좋습니다. 사람들은 페이지 매김의 첫 페이지에서 매우 자주 표준을 사용합니다. 로봇은 두 번째 페이지에 와서 제품을 보고 텍스트를 보고 검색에 페이지를 포함하지 않고 검색 결과에 포함되어야 하는 첫 번째 페이지 매김 페이지라는 속성으로 이해합니다. 표준을 사용하고 텍스트 자체를 닫으면 필요하지 않다고 생각합니다.

출처(동영상): 사이트 인덱싱을 설정하는 방법- 알렉산더 스미르노프

마고메드 체르비제프



관련 기사: