2025-01-24T03:41:27

This commit is contained in:
2025-01-24 03:41:27 +09:00
parent 3d30ee3192
commit ef04610bd1
14 changed files with 450 additions and 165 deletions

49
doc/seo/03_robot_txt.md Normal file
View File

@@ -0,0 +1,49 @@
# robots.txt
robots.txt 파일은 웹사이트의 뿌리 디렉토리에 위치하는 텍스트 파일로, 검색 엔진 크롤러에게 어떤 페이지를 크롤링하고 색인할 수 있는지에 대한 지침을 제공하는 파일입니다. 마치 웹사이트의 안내판과 같은 역할을 하며, 검색 엔진이 웹사이트를 효율적으로 크롤링하고 색인하는 데 도움을 줍니다.
* 검색 엔진 크롤링 제어: 검색 엔진이 특정 페이지나 디렉토리를 크롤링하지 못하도록 설정할 수 있습니다.
* 사이트 부하 감소: 불필요한 페이지를 크롤링하지 않도록 함으로써 서버 부하를 줄일 수 있습니다.
* 개인 정보 보호: 개인 정보가 포함된 페이지를 검색 엔진에서 노출되지 않도록 할 수 있습니다.
* 중복 콘텐츠 방지: 동일하거나 유사한 콘텐츠가 여러 URL에 존재할 경우, 검색 엔진이 하나의 URL만 색인하도록 지시할 수 있습니다.
## robots.txt 파일의 기본 구조
```
User-agent: *
Disallow: /admin/
Disallow: /cgi-bin/
```
* User-agent: 어떤 크롤러에게 지시를 내릴 것인지 지정합니다. *는 모든 크롤러를 의미합니다.
* Disallow: 크롤링을 금지할 디렉토리나 파일을 지정합니다.
## robots.txt 파일의 주요 지시문
* User-agent: 특정 크롤러를 지정합니다.
* Disallow: 지정된 URL을 크롤링하지 못하도록 합니다.
* Allow: 지정된 URL을 크롤링할 수 있도록 허용합니다.
* Sitemap: 사이트맵의 위치를 지정합니다.
* Crawl-delay: 크롤링 간의 간격을 지정합니다.
## robots.txt 파일 작성 시 주의사항
* 정확한 문법: robots.txt 파일의 문법이 틀리면 의도한대로 작동하지 않을 수 있습니다.
* 과도한 제한: 너무 많은 페이지를 차단하면 검색 엔진이 웹사이트를 제대로 이해하지 못할 수 있습니다.
* 동적 콘텐츠: 동적 콘텐츠는 robots.txt 파일로 제어하기 어려울 수 있습니다. 자바스크립트 렌더링된 페이지는 검색 엔진이 직접 읽을 수 없기 때문입니다.
* 변경 사항 반영: robots.txt 파일을 변경한 후에는 검색 엔진이 변경 사항을 반영하는 데 시간이 걸릴 수 있습니다.
## robots.txt 파일 예시
```
User-agent: *
Disallow: /admin/
Disallow: /cgi-bin/
Disallow: /tmp/
Sitemap: https://www.example.com/sitemap.xml
```
위 예시는 모든 크롤러에게 /admin/, /cgi-bin/, /tmp/ 디렉토리에 대한 접근을 금지하고, 사이트맵의 위치를 지정하는 예입니다.
> robots.txt 파일은 검색 엔진 크롤러에게 지침을 제공하는 것이지, 검색 엔진이 반드시 따라야 하는 절대적인 규칙은 아닙니다. 검색 엔진은 robots.txt 파일의 내용을 무시하고 크롤링을 진행할 수도 있습니다.
---
http://www.robotstxt.org/
http://humanstxt.org/