본문 바로가기

Computer/Other

도메인에 등록된 내 서버, 비슷한 IP에서 접속을 주기적으로 한다면?

도메인에 등록된 내 서버, 비슷한 IP에서 접속을 주기적으로 한다면 주로 2가지 경우가 있습니다.

1. 공격
2. 검색엔진 등에서 봇 등으로 정보를 수집하는 것

검색엔진 등에서 봇 등으로 정보를 수집하는 것을 리뷰하겠습니다.

대표적으로 구글봇이 있습니다.
구글봇에 관해 자세한 내용은  http://support.google.com/webmasters/bin/answer.py?hl=ko&answer=182072  이 페이지를 참고해 주시기 바랍니다.

간략하게 설명하자면 이렇습니다.
 
구글봇은 웹페이지를 주기적으로 크롤링(새로 업데이트 된 페이지를 구글 색인에 추가하는 과정)을 합니다. 이 구글봇은 대부분 몇초에 한번 사이트에 액세스하는데, 네트워크 지연으로 빈도가 잦아질 수 있고, 구글의 목표는 대역폭에 무리가 없게 최대한 많은 사이트를 크롤링하는것이 목표입니다. 구글봇이나 여러 잘 만들어진 봇들은 웹페이지를 크롤링하지 못하게 차단하는 규칙을 지키고 있으며, 대표적으로는 robots.txt가 있다고 합니다.

제 HFS 로그에 구글봇이 크롤링하려고 접속이 로그에 기록이 된 적이 있습니다.(링크)

제가 잘못 이해한 부분이 있다면, 언제든지 지적해 주시기 바랍니다.