robots.txt

robots.txt 파일은 웹사이트의 뿌리 디렉토리에 위치하는 텍스트 파일로, 검색 엔진 크롤러에게 어떤 페이지를 크롤링하고 색인할 수 있는지에 대한 지침을 제공하는 파일입니다. 마치 웹사이트의 안내판과 같은 역할을 하며, 검색 엔진이 웹사이트를 효율적으로 크롤링하고 색인하는 데 도움을 줍니다.

검색 엔진 크롤링 제어: 검색 엔진이 특정 페이지나 디렉토리를 크롤링하지 못하도록 설정할 수 있습니다.
사이트 부하 감소: 불필요한 페이지를 크롤링하지 않도록 함으로써 서버 부하를 줄일 수 있습니다.
개인 정보 보호: 개인 정보가 포함된 페이지를 검색 엔진에서 노출되지 않도록 할 수 있습니다.
중복 콘텐츠 방지: 동일하거나 유사한 콘텐츠가 여러 URL에 존재할 경우, 검색 엔진이 하나의 URL만 색인하도록 지시할 수 있습니다.

robots.txt 파일의 기본 구조

User-agent: *
Disallow: /admin/
Disallow: /cgi-bin/

User-agent: 어떤 크롤러에게 지시를 내릴 것인지 지정합니다. *는 모든 크롤러를 의미합니다.
Disallow: 크롤링을 금지할 디렉토리나 파일을 지정합니다.

robots.txt 파일의 주요 지시문

User-agent: 특정 크롤러를 지정합니다.
Disallow: 지정된 URL을 크롤링하지 못하도록 합니다.
Allow: 지정된 URL을 크롤링할 수 있도록 허용합니다.
Sitemap: 사이트맵의 위치를 지정합니다.
Crawl-delay: 크롤링 간의 간격을 지정합니다.

robots.txt 파일 작성 시 주의사항

정확한 문법: robots.txt 파일의 문법이 틀리면 의도한대로 작동하지 않을 수 있습니다.
과도한 제한: 너무 많은 페이지를 차단하면 검색 엔진이 웹사이트를 제대로 이해하지 못할 수 있습니다.
동적 콘텐츠: 동적 콘텐츠는 robots.txt 파일로 제어하기 어려울 수 있습니다. 자바스크립트 렌더링된 페이지는 검색 엔진이 직접 읽을 수 없기 때문입니다.
변경 사항 반영: robots.txt 파일을 변경한 후에는 검색 엔진이 변경 사항을 반영하는 데 시간이 걸릴 수 있습니다.

robots.txt 파일 예시

User-agent: *
Disallow: /admin/
Disallow: /cgi-bin/
Disallow: /tmp/
Sitemap: https://www.example.com/sitemap.xml

위 예시는 모든 크롤러에게 /admin/, /cgi-bin/, /tmp/ 디렉토리에 대한 접근을 금지하고, 사이트맵의 위치를 지정하는 예입니다.

robots.txt 파일은 검색 엔진 크롤러에게 지침을 제공하는 것이지, 검색 엔진이 반드시 따라야 하는 절대적인 규칙은 아닙니다. 검색 엔진은 robots.txt 파일의 내용을 무시하고 크롤링을 진행할 수도 있습니다.

http://www.robotstxt.org/

http://humanstxt.org/

2.9 KiB Raw Blame History

robots.txt

robots.txt 파일의 기본 구조

robots.txt 파일의 주요 지시문

robots.txt 파일 작성 시 주의사항

robots.txt 파일 예시

2.9 KiB

Raw Blame History