테크정보
목록
운영중인 홈페이지에서 robots.txt 파일은 검색로봇에게 수집할 정보 권한을 지정합니다.
robots.txt검색로봇수집SearchEngineUser-agentgooglebot
SEO 2024.04.09 64 회 읽음
SEO 24.04.09 64


네이버, 다음, 구글, Bing 등의 검색엔진은 여러분의 웹사이트를 검색로봇이라는 프로그램을 이용해서 수집 해 가고 다양한 사용자들에게 검색을 통해 링크와 이미지, 문서 정보를 제공하고 있습니다.

robots.txt 파일이 없으면 홈페이지의 모든 데이터를 수집하는 일이 생깁니다. 관리자도 없고 개인정보를 취급하지 않는 사이트라면 큰 문제가 없겠지만 본인도 모르는사이에 개인정보나 이미지가 검색에 노출되어 문제가 생기는 경우가 많습니다. 그렇기에 해당 문서를 설정하여 검색엔진에게 수집정책을 정해주는게 필요합니다.


robotst.txt 생성은 어떻게 하나요?

코드 편집기나 메모장으로 쉽게 작성할 수 있으며 작성된 파일을 홈페이지 홈 디렉토리에 위치하도록 업로드 합니다. 

https://www.opm.kr/robots.txt 해당 링크를 누르면 이 사이트의 로봇 정책을 확인할 수 있습니다.


샘플을 복사해서 사용하세요.

user-agent: *
disallow: /admin

모든 검색엔진에 사이트 수집을 허용 /admin 하위 폴더는 접근을 제외 한다.

user-agent: Yati
disallow: /admin
Allow: /

네이버 검색엔진 Yati를 허용하지만 /admin 하위 폴더 접근은 제외 한다.

user-agent: Yati
Allow: /
user-agent: googlebot
disallow: /

네이버 Yati는 허용하지만 구글 Googlebot 수집을 허용하지 않는다.


응용하기

검색 로봇은 홈페이지 정보를 수집할 때 테그가 완벽하지 않거나 사이트 분석에서 오류가 있을 수 있어 홈페이지의 링크를 모아 놓은 사이트맵을 포함할 수 있습니다. 

User-agent: *
Allow: / Sitemap: https://www.example.com/sitemap.xml


관리자 전용 페이지나 보안을 위해 수집을 전체 차단하는 방법은 아래와 같습니다.

User-agent: *
Disallow: /


특정 검색 로봇만을 차단할 때에는 아래와 같이 차단할 검색 로봇  User-agent를 지정하고 아래 User-agent를 허용합니다.

User-agent: PetalBot
Disallow: /
User-agent: *
Allow: /


특정 웹 페이지만을 수집 금지 할 수 있습니다.

User-agent: *
Disallow: /map.html
Disallow: /address.html


구글 참고문서

https://developers.google.com/search/docs/crawling-indexing/robots/intro?hl=ko


검색엔진 최적화의 기본이 되는 robots.txt 설정 방법에 대해 알아보았습니다. 간단히 관리자와 차단이 필요한 폴더를 지정하는 게 일반적이며 자주 사용하는 검색 로봇 이외의 경우 사이트 트래픽을 증가할 수 있으니 차단하는 것도 좋은 방안입니다. 국내 전용 서비스의 경우 해외 검색엔진을 차단하면 과도한 접속 트레픽을 줄이는데 도움이 됩니다.

목록