검색 엔진의 ROBOTS.txt 파일 접근 제한 방법

Posted by Breeze24
2016. 10. 16. 13:10 중급 강의

블로그 또는 사이트를 유지하고 있다면 ROBOTS 파일에 대해 알아야 한다. 

구글, 다음, 네이버, 빙 같은 검색엔진들은 검색엔진 봇이라는 것을 이용하여 각 사이트들의 페이지들을 수집해간다. 

검색엔진들은 이 수집된 페이지들을 가지고 검색 결과로 보여줄 수가 있다. 

이런 이유로 인해 자신의 컨텐츠가 검색엔진에 잘 보여 줄수 있도록 또는 보안 요인으로 인해 보여지지 않도록 제어할 필요성이 있다. 

이번 포스팅에서는 각 검색엔진의 명칭과 어떻게 접근을 제한할 수 있는지에 대해 알아보자. 


검색 엔진 접근 제한 ROBOTS.TXT

모든 검색 엔진의 접근을 제한하고 싶으면 ROBOTS.txt 파일을 아래와 같이 작성하면 된다. 

User-agent : *
Disallow : /


그러나 모든 검색 엔진이 아니라 특정 검색 엔진만 접근을 제한하려고 하면 어떻게 해야할까?

ROBOTS.TXT

위와 같이 하게 되면 BngBot을 제외한 모든 검색 엔진을 제한하게 된다. 

오직 BingBot만 컨텐츠를 가져갈 수 있다. 

.

그럼 BingBot이라는 것은 뭘까?

검색 엔진들은 고유한 이름이 있다. BingBot은 빙의 검색 엔진 이름이다. 


네이버 : Yetibot Naverbot

다음 : Daumoa

구글 : Googlebot

야후 : Yahoo! Slurp

마이크로소프트 : Msnbot

빙 : Bingbot


위의 검색 엔진을 참고해서 ROBOTS.TXT를 참고하면 된다. 

페이지별 검색 엔진 제한 방법

마지막으로 각 페이지 또는 컨텐츠에 검색 엔진의 접근을 막는 방법이 있을까?

아래와 같은 소스를 각 페이지에 삽입하면 검색엔진은 해당 페이지를 가지고 가지 않는다. 


NOINDEX 사용법

블로그에서도 위의 메타 태그를 이용하면 포스트의 검색 엔진 접근을 적절하게 제한할 수 있다. 

.