컴퓨터프로그래밍

크롤러는 무엇인가? 크롤러 도구 "Yandex 주차"구글

인터넷에서 매일 웹 사이트는 기존 웹 페이지를 업데이트 만들고 사진과 동영상을 업로드 할 수있는 새로운 재료의 거대한 양의가있다. 검색 엔진에서 숨겨진하지 않고는 월드 와이드 웹에서이 문서의 어떤 것도 발견 할 수 없었다. 주어진 시간에 로봇 프로그램과 같은 대안이 존재하지 않습니다. 검색 로봇은 어떻게 운영하는 IT 및 필요한 이유, 무엇입니까?

검색 로봇은 무엇입니까

크롤러 사이트 (검색 엔진) - 그것은 신속 운영자의 개입없이 인터넷을 통해 탐색, 웹 페이지의 수백만을 방문 할 수있는 자동 프로그램입니다. 봇은 지속적으로 스캔 공간입니다 월드 와이드 웹의 새로운 웹 페이지를 발견하고 정기적으로 이미 색인을 방문하십시오. 웹 크롤러 스파이더, 크롤러, 로봇에 대한 다른 이름.

왜 검색 엔진 거미는

색인 웹 페이지뿐만 아니라 텍스트, 이미지, 오디오, 그들에있는 비디오 파일 - 검색 엔진 스파이더을 수행하는 주요 기능. 봇은 참조, 미러 사이트 (사본) 및 업데이트를 확인합니다. 로봇은 또한 월드 와이드 웹 (World Wide Web) 기술 표준을 개발하고 구현하는 세계기구의 적합성 표준 HTML 코드 제어를 수행한다.

무엇 색인이며, 왜 필요

인덱싱 - 사실, 검색 엔진에 의해 특정 웹 페이지를 방문하는 과정입니다. 이 프로그램은이 사이트의 텍스트를 검색, 이미지, 비디오, 아웃 바운드 링크, 다음 페이지가 검색 결과에 나타납니다. 일부의 경우, 사이트는 다음 수동으로 웹 마스터 검색 엔진에 추가 할 수 있습니다, 자동으로 스캔 할 수 없습니다. 일반적으로이없는 상태에서 발생하는 외부 링크의 특정 (종종 최근에 생성 된) 페이지로 이동합니다.

검색 엔진 스파이더 어떻게

각 검색 엔진은 유사한 프로그램 "Yandex 주차"또는 다른 시스템에서 작동 메커니즘에 따라 크게 달라질 수있는 Google 검색 로봇 자신의 로봇이있다.

프로그램은 사이트에서 "온다"메인 페이지에서 외부 링크 (사용자가 표시되지 않는 사람을 찾고 오버 헤드 포함) 웹 리소스를 "읽고": 일반적으로, 로봇 작동 원리는 다음과 같다. 보트 사이트의 페이지 사이를 탐색하고 다른 사람에게 이동하는 방법입니다.

이 프로그램은 인덱스에있는 사이트를 선택할 것인가? 보다 더 자주는 아니지만 거미는 큰 기준 중량 뉴스 사이트 또는 주요 자원 디렉토리와 애그리 게이터로 시작 "여행". 크롤러는 지속적으로 속도와 다음과 같은 요소를 색인의 일관성에 페이지 하나 하나를 검사합니다 :

  • 내부 : perelinovka, 사이트 크기, 정확한 코드, 사용자 친화적 인 등등과 (같은 자원의 페이지 사이의 내부 링크)
  • 외부 : 사이트로 연결 총 참조 무게.

우선 robots.txt에 의한 웹 사이트의 검색 로봇을 검색합니다. 또한, 자원은 인덱싱 된 정보가이 문서 내지 수신에 기초하여 수행된다. 이 파일은 "Yandex 주차"또는 Google의 초기 히트 사이트를 달성하기 위해, 결과적으로, 검색 엔진에 의해 페이지 방문의 기회를 증가하고 있습니다 "거미"에 대한 특정 지침이 포함되어 있습니다.

프로그램은 크롤러 유사체

종종 용어 "검색 로봇은"지능형, 사용자 또는 자율적 인 에이전트, "개미"또는 "벌레"와 혼동된다. 에이전트 만에 비해 몰입에 유의 한 차이는, 다른 정의는 로봇의 유사한 유형을 참조하십시오.

예를 들어, 에이전트가 될 수 있습니다 :

  • 지적 : 사이트에 사이트에서 이동되는 프로그램이 독립적으로 수행하는 방법을 결정하는 단계; 그들은 인터넷에서 매우 일반적인하지 않습니다;
  • . 자율 : 이러한 에이전트는 제품 검색을 선택, 또는 양식, 네트워크 프로그램에 약간 관련있는 소위 필터를 작성에서 사용자에게 도움이;
  • 사용자 : 프로그램, 월드 와이드 웹과 사용자의 상호 작용에 브라우저에 기여 (예를 들어, 오페라, IE, 구글 크롬, 파이어 폭스), 사자 (Viber, 전보) 또는 전자 메일 프로그램 (MS Outlook과 퀄컴).

"개미"와 "웜"검색 엔진 "거미"더 유사하다. 네트워크와 지속적 사이의 첫 번째 양식이 개미 식민지처럼 상호 작용, "웜"표준 크롤러와 같은 다른 측면에서 복제 할 수 있습니다.

검색 엔진 로봇의 다양한

크롤러의 여러 유형을 구분합니다. 프로그램의 목적에 따라, 그들은 :

  • "거울"- 중복 웹 사이트를 탐색 할 수 있습니다.
  • 모바일 - 웹 페이지의 모바일 버전에 초점을 맞 춥니 다.
  • 빠른 - 최신 업데이트를 확인하여 신속하게 새로운 정보를 수정합니다.
  • 참조 - 참조 인덱스는 그 수를 계산합니다.
  • 인덱서 서로 다른 유형의 콘텐츠 - 텍스트, 오디오, 비디오, 이미지에 대한 구체적인 프로그램.
  • "스파이웨어"- 아직 검색 엔진에 표시되지 않은 페이지를 찾고.
  • "딱따구리"- 주기적으로 관련성과 효율성을 확인하기 위해 사이트를 방문하십시오.
  • 내셔널은 - 국가 도메인 중 하나에있는 웹 자원 탐색 (예를 들어, .mobi를을, 또는 .kz .ua).
  • 글로벌 - 인덱스 모든 국가 사이트.

로봇 주요 검색 엔진

일부 검색 엔진 거미도 있습니다. 이론적으로, 그 기능은 다양 할 수 있지만, 실제로 프로그램은 거의 동일하다. 웹 페이지를 색인의 주요 차이점은 다음과 같이 두 가지 주요 검색 엔진은 로봇 :

  • 시험의 엄격 성. 그것은 생각됩니다 그 크롤러의 메커니즘 "Yandex 주차"다소 엄격한 추정 월드 와이드 웹의 표준 준수 사이트.
  • 사이트의 무결성을 보존. 구글 크롤러 인덱스 (미디어 콘텐츠 포함) 전체 사이트, "Yandex 주차는"선택적 내용을 볼 수 있습니다.
  • 속도 테스트 새로운 페이지. 구글은 2 주 이상 걸릴 수 있습니다 "Yandex 주차하여"프로세스의 경우, 몇 일 이내에 검색 결과에 새 리소스를 추가합니다.
  • 다시 인덱싱의 주파수. 일주일에 두 번 업데이트 확인 "Yandex 주차를"크롤러, 구글 - 일 14 일마다.

인터넷은 물론, 두 검색 엔진에 제한되지 않는다. 다른 검색 엔진에 자신의 색인 매개 변수에 따라 자신의 로봇이있다. 또한,하지 주요 검색 자원을 설계하는 몇 가지 "거미", 개별 팀 또는 웹 마스터가있다.

일반적인 오해

반대로 대중적인 신념에, "거미"는 정보를 처리하지 않습니다. 이 프로그램은 검색 및 웹 페이지를 저장하고 추가 처리는 완전히 다른 로봇을합니다.

또한, 많은 사용자가 검색 엔진 스파이더가 부정적인 영향 및 "유해"인터넷을 가지고 있다고 생각합니다. 사실, "거미"의 일부 버전은 크게 서버에 과부하를 할 수 있습니다. 로봇의 구성에서 실수를 할 수있는 프로그램을 만들어 웹 마스터 - 인간 요인도 있습니다. 그러나 기존 프로그램의 대부분은 잘 설계하고 전문적으로 관리하고, 어떤 새로운 문제가 즉시 제거.

어떻게 색인을 관리하는 방법

검색 엔진 로봇은 자동화 된 프로그램입니다,하지만 인덱싱 프로세스는 부분적으로 웹 마스터에 의해 제어 될 수있다. 이것은 크게 외부와 도움이 내부 최적화 자원을. 또한, 수동 검색 엔진에 새 사이트를 추가 할 수 있습니다 많은 자원이 웹 페이지 등록의 특별한 형태를 가지고있다.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 ko.delachieve.com. Theme powered by WordPress.