Robots.txt 생성기
검색엔진·AI 크롤러의 접근을 제어하는 robots.txt 파일을 간편하게 생성합니다.
빠른 프리셋
크롤러별 접근 설정
검색엔진
AI 크롤러
차단할 디렉토리
커스텀 규칙 추가
추가 설정
생성 결과
Robots.txt란?
robots.txt는 웹사이트 루트 디렉토리에 위치하는 텍스트 파일로, 검색엔진 크롤러에게 어떤 페이지를 크롤링해도 되는지 알려줍니다. 파일은 반드시 https://도메인/robots.txt 경로에 UTF-8 인코딩으로 배치해야 합니다.
주요 지시어
User-agent: 규칙을 적용할 크롤러를 지정합니다. *는 모든 크롤러를 의미합니다.
Allow: 지정 경로의 크롤링을 허용합니다. Disallow 규칙보다 우선합니다.
Disallow: 지정 경로의 크롤링을 차단합니다.
Sitemap: 사이트맵 URL을 알려주어 크롤러가 페이지를 더 잘 발견하도록 합니다.
Crawl-delay: 요청 간 대기 시간(초)을 지정합니다(Google은 무시, Bing·Yandex 등이 지원).
실전 예시로 배우는 패턴
실제 운영 사이트에서 자주 쓰는 규칙 조합입니다. 복사해 쓰기 전에 경로를 자신의 사이트 구조에 맞게 수정해주세요.
개인 블로그·기본 사이트
User-agent: *
Allow: /
Sitemap: https://example.com/sitemap.xml
대부분의 개인 블로그·소규모 사이트에는 이 정도면 충분합니다. Sitemap 선언만으로도 색인 발견 속도가 향상됩니다.
WordPress 표준 설정
User-agent: *
Allow: /
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /feed/
Disallow: /trackback/
Disallow: /?s=
Sitemap: https://example.com/sitemap_index.xml
admin-ajax.php는 프론트엔드가 호출하는 공개 엔드포인트라 허용이 필요합니다. /?s=는 내부 검색 결과 페이지로, 색인되면 중복 콘텐츠 문제가 생겨 차단이 권장됩니다.
AI 학습만 차단, 검색은 허용
User-agent: *
Allow: /
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: CCBot
Disallow: /
Sitemap: https://example.com/sitemap.xml
일반 검색엔진(Googlebot·Bingbot·Yeti)은 그대로 접근하지만, 생성형 AI 학습용 크롤러만 차단하는 구성입니다. 2024년 이후 AI 기업이 User-Agent를 학습용과 실시간 답변용으로 분리하면서 가능해진 전략입니다.
스테이징·테스트 서버 전면 차단
User-agent: *
Disallow: /
배포 전 테스트 서버가 실수로 색인되어 중복 콘텐츠 페널티를 받는 일을 막으려면 이 한 줄이면 충분합니다. 배포 시 전체 허용 버전으로 되돌리는 것 잊지 마세요.
robots.txt로 할 수 있는 것과 없는 것
- 가능 - 크롤러가 특정 경로를 크롤링하지 않도록 요청(권고)하기. 크롤 예산을 아끼고, 중요하지 않은 페이지가 발견되는 빈도를 낮춥니다.
- 가능 - 사이트맵 위치를 크롤러에게 알려 색인 발견 속도를 높이기. 여러 사이트맵이 있으면 여러
Sitemap:라인을 쓸 수 있습니다. - 가능 - AI 학습용 크롤러(GPTBot·ClaudeBot·Google-Extended 등)를 선별적으로 차단. 주요 AI 기업은 자사 봇이 robots.txt를 준수한다고 공식 선언했습니다.
- 불가능 - 색인 제거 - 이미 색인된 URL을 robots.txt로 제거할 수 없습니다. 크롤링이 차단되면 구글은 메타 태그를 재확인할 수 없어 오히려 예전 상태로 남을 수 있습니다. 색인 제거는
<meta name="robots" content="noindex">또는 Search Console의 URL 제거 도구를 사용. - 불가능 - 보안 - robots.txt는 공개 파일이며, 차단된 경로가 오히려 "여기 뭔가 있다"는 힌트가 됩니다. 관리자 페이지 보안은 인증·IP 제한·방화벽으로 처리하고, robots.txt에는 일반 색인 방지 용도로만 기재하세요.
- 불가능 - 강제력 - 악성 봇이나 스크레이퍼는 robots.txt를 무시합니다. 정당한 크롤러(검색엔진·주요 AI 기업)만 자발적으로 준수합니다.
검증·배포 체크리스트
- 접근 가능성 확인 - 브라우저로
https://도메인/robots.txt를 열어 200 OK로 내용이 보이는지 확인. 서브도메인마다 별도 파일 필요. - Google Search Console의 robots.txt 리포트 - 최신 Search Console은 robots.txt 파싱 상태를 자동으로 보여줍니다. 문법 오류·캐시된 버전·마지막 크롤링 시점 확인.
- Bing Webmaster Tools의 "robots.txt Tester" - 특정 URL이 Bingbot에게 허용/차단되는지 즉석 점검.
- 대소문자와 슬래시 - URL은 대소문자를 구별합니다.
/Admin/과/admin/은 다른 경로로 해석됩니다. 마지막 슬래시 유무도 중요합니다. - 와일드카드 -
*(임의 문자),$(문자열 종료)를 조합할 수 있습니다. 예:Disallow: /*.pdf$는 모든 PDF 파일 차단. - 주석 -
#로 시작하는 줄은 크롤러가 무시합니다. 규칙의 의도를 주석으로 남겨두면 나중에 디버깅이 쉬워집니다. - 변경 후 반영 시간 - 크롤러는 보통 robots.txt를 24시간 이내 캐시합니다. 긴급한 변경은 Search Console에서 수동으로 재크롤 요청하세요.
자주 하는 실수
Disallow: /을 실수로 배포 - 전체 사이트가 색인에서 빠질 수 있습니다. 배포 직후 반드시 확인.- CSS·JS 차단 -
/assets/·/static/을 차단하면 Google이 페이지 렌더링을 제대로 못 해 모바일 친화성·Core Web Vitals 평가에 불이익. - noindex를 robots.txt에 기재 -
Noindex:지시어는 2019년 이후 Google이 더 이상 지원하지 않습니다. 반드시 meta 태그 또는 HTTP 헤더로. - 주석을 규칙과 같은 줄에 -
Disallow: /admin/ # 관리자같은 줄내 주석은 파서가 잘못 해석할 수 있습니다. 별도 줄에 작성. - 여러 사이트맵 통합 미사용 - 대형 사이트는 sitemap index 파일을 만들고 그것을 Sitemap 선언에 넣는 것이 관리에 편리합니다.
robots.txt 설정 후 SEO를 더 강화하려면 JSON-LD 생성기로 구조화 데이터를 추가하고, Schema.org 타입 정리에서 페이지 성격에 맞는 마크업을 고르세요. 사이트 아이콘과 미리보기 품질은 파비콘 생성기로 보완할 수 있습니다.
자주 묻는 질문
robots.txt는 반드시 있어야 하나요?
필수는 아닙니다. 파일이 없으면 크롤러는 모든 페이지를 크롤링할 수 있다고 판단합니다. 하지만 관리자 페이지, 내부 검색 결과 등 불필요한 페이지가 색인되는 것을 방지하려면 설정하는 것이 좋습니다.
robots.txt로 페이지 색인을 완전히 막을 수 있나요?
아닙니다. robots.txt는 크롤링 권고일 뿐 강제력이 없으며, 외부 링크가 있으면 URL 자체는 색인될 수 있습니다. 완전한 색인 차단이 필요하면 <meta name="robots" content="noindex"> 태그를 함께 사용하세요.
AI 크롤러(GPTBot, ClaudeBot 등)도 차단할 수 있나요?
GPTBot, ChatGPT-User, ClaudeBot, Google-Extended, CCBot 등 주요 AI 크롤러는 robots.txt를 준수합니다. User-agent에 해당 봇 이름을 지정하고 Disallow: /를 설정하면 학습 데이터 수집을 차단할 수 있습니다.
Crawl-delay는 모든 크롤러가 지원하나요?
Google은 Crawl-delay를 무시합니다. Bing, Yandex, Naver(Yeti) 등은 지원하므로, 서버 부하가 높을 때 해당 크롤러에만 적용하면 유용합니다. Google의 크롤 빈도는 Search Console에서 조절할 수 있습니다.
robots.txt 파일은 어디에 두어야 하나요?
반드시 도메인 루트에 위치해야 합니다. 예를 들어 https://example.com/robots.txt가 올바른 경로입니다. 하위 디렉토리(예: /blog/robots.txt)에 두면 크롤러가 인식하지 못합니다.