'인덱싱'에 해당되는 글 1건

  1. 2008.04.28 robots.txt

robots.txt

l33t 2008. 4. 28. 00:05
IIS로 전체 HDD를 열어놓고 쓴 적이 있었는데
알 수 없는 IP에서 하루에 두세 번씩 connect 하더니
얼마 안가서 야후와 구글에서 내 HDD의 파일 링크들이 검색되기 시작했고
외국 IP들이 들어와서 게임들을 다운로드 받아갔다. -_-

robots.txt를 사용하면 웹을 인덱싱하는 검색엔진 로봇을 차단할 수 있다.

robots.txt 는 웹페이지 root에 두어야 검색엔진 로봇이 인식하며
도메인마다 (서비스마다, 포트마다) 존재해야 한다.

전체 웹 사이트를 인덱스하지 않도록 차단할 경우
User-agent: *
Disallow: /
전체 웹사이트를 인덱스하도록 허용할 경우
robots.txt를 두지 않음

User-agent: *
Disallow:
특정 디렉토리, 파일 타입, GET방식 DATA를 인덱스 하지 않도록 차단할 경우
User-agent: *
Disallow:/cgi-bin/
Disallow: /*.php$
Disallow: /*?
Posted by in0de
,