홈페이지 또는 웹사이트를 운영하고 있다면 내가 보유하고 있는 웹 사이트를 다양한 검색엔진에 검색되어지는 것을 원하실 겁니다.
최근 검색엔진이 좋아져서 페이지 몇 개 등록하고 나면 다른 검색에도 자동 노출되긴 하지만 정확하게 등록하기 위해서는 웹 마스터도구나 검색 등록을 이용하게 됩니다. 이러한 검색엔진은 지속적으로 홈페이지에 방문하여 사이트 정보와 변경된 페이지 또는 링크 정보를 수집하여 사용자에게 원하는 정보를 찾을 수 있도록 해 줍니다.
좋은 검색엔진은 어떤 게 있을까요?
어느 정도 공신력이 있으면서 많이 사용하고 있는 검색엔진에 사용하고 있는 웹 클롤러를 소개합니다. 크롤러라는 게 웹페이지 링크나 내용을 분석 데이터베이스로 만들어 검색엔진에서 사용자가 결과를 볼 수 있는 데이터가 됩니다.
웹 크롤러 | 상세 설명 |
Yeti | Naver에서 사용하는 로봇으로 사이트 정보, 사이트맵, RSS 등을 참고하여 콘텐츠를 수집합니다. |
Googlebot | Google의 웹 크롤링 봇으로서 웹마스터가 제공한 사이트맵이나 웹페이지 정보를 수집합니다. |
Bingbot | 표준 Bing 크롤러이며 마이크로소프트웨어 제공하는 bing 검색엔진에 반영 합니다. |
Slurp | 웹 페이지 정보를 인덱싱하는 Yahoo 로봇으로 Yahoo News, Yahoo Finance, Yahoo Sports 에 사용하기 위해 사이트 정보를 수집합니다. |
DuckDuckBot | 개인정보를 보호하고 수집하는걸로 최근 인기가 있는 웹 크롤러이며 하루 1200만개 이상 쿼리를 처리하고 개인과 기업을 연결하는데 도움이 됩니다. |
Yandexbot | 러시아 검색 트리픽 50%를 차지하는 러시아 최대 검색엔진의 Yandex 웹 크롤러 입니다. |
나쁜 검색엔진이라?
웹 크롤러 | 상세설명 |
MJ12Bot | Majestic 영국 기반은 검색엔진으로 13개 언어와 60개 이상 검색엔진과 독립적 인터넷 주소를 사용합니다. |
PetalBot | Petal 자동 검색 프로그램으로 사이트의 콘텐츠 검색을 위한 인덱스 데이터베이스를 생성하고 수집합니다. |
AhrefsBot | 온라인 마케팅 도구 세트로 구동하는 크롤러 입니다. 다양한 링크를 업데이트하여 사용자에게 최신 데이터를 제공 합니다. |
SEMrushBot | SEMrush 봇이 새롭게 업데이트 된 웹 데이터를 찾고 수집하는 검색 봇 소프트웨어로 보고서 연구 및 그래프에 사용 됩니다. |
DotBot | Moz.com 에서 사용하는 웹 크롤러로 수집되 사이트를 Moz 도구에 표시하고 API를 제공합니다. |
MauiBot | Amazon 서버에서 웹사이트를 수집하는 미확인 봇 입니다. 다량의 요청이 있을 수 있으므로 차단하는 게 좋습니다. |
나쁜 검색엔진을 차단하는 방법은?
웹사이트의 robots.txt 파일에서 아래와 같이 특정 검색엔진을 차단할 수 있습니다. 아래와 같이 설정하면 구글 검색 로봇 허용, 네이버 검색 로봇 허용 이외 검색 로봇 차단으로 설정 됩니다. 여러가지 옵션이 있으므로 이전에 작성한 글 https://www.opm.kr/story/1/16 을 참고하면 추가 조건을 볼 수 있습니다.
User-agent: Google
Disallow:
User-agent: Yeti
Allow:/
User-agent : *
Disabllow: /
해외에 개인정보 노출을 차단하고 싶거나 트레픽 리소스 비용을 절약하고 싶다면 차단하는 걸 권장합니다.
일반적인 호스팅 사이트에서는 방화벽을 통해 차단이 되고 있을 수 있습니다.