Robots.txt 생성기 - 무료 온라인 크롤링 제어 파일 생성

빠른 프리셋

크롤러별 접근 설정

검색엔진

AI 크롤러

차단할 디렉토리

커스텀 규칙 추가

User-Agent

Allow / Disallow

추가 설정

Sitemap URL

Crawl-delay(초)

생성 결과

Robots.txt란?

robots.txt는 웹사이트 루트 디렉토리에 위치하는 텍스트 파일로, 검색엔진 크롤러에게 어떤 페이지를 크롤링해도 되는지 알려줍니다. 파일은 반드시 https://도메인/robots.txt 경로에 UTF-8 인코딩으로 배치해야 합니다.

주요 지시어

User-agent: 규칙을 적용할 크롤러를 지정합니다. *는 모든 크롤러를 의미합니다.
Allow: 지정 경로의 크롤링을 허용합니다. Disallow 규칙보다 우선합니다.
Disallow: 지정 경로의 크롤링을 차단합니다.
Sitemap: 사이트맵 URL을 알려주어 크롤러가 페이지를 더 잘 발견하도록 합니다.
Crawl-delay: 요청 간 대기 시간(초)을 지정합니다(Google은 무시, Bing·Yandex 등이 지원).

실전 예시로 배우는 패턴

실제 운영 사이트에서 자주 쓰는 규칙 조합입니다. 복사해 쓰기 전에 경로를 자신의 사이트 구조에 맞게 수정해주세요.

개인 블로그·기본 사이트

User-agent: *
Allow: /

Sitemap: https://example.com/sitemap.xml

대부분의 개인 블로그·소규모 사이트에는 이 정도면 충분합니다. Sitemap 선언만으로도 색인 발견 속도가 향상됩니다.

WordPress 표준 설정

User-agent: *
Allow: /
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /feed/
Disallow: /trackback/
Disallow: /?s=

Sitemap: https://example.com/sitemap_index.xml

admin-ajax.php는 프론트엔드가 호출하는 공개 엔드포인트라 허용이 필요합니다. /?s=는 내부 검색 결과 페이지로, 색인되면 중복 콘텐츠 문제가 생겨 차단이 권장됩니다.

AI 학습만 차단, 검색은 허용

User-agent: *
Allow: /

User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

Sitemap: https://example.com/sitemap.xml

일반 검색엔진(Googlebot·Bingbot·Yeti)은 그대로 접근하지만, 생성형 AI 학습용 크롤러만 차단하는 구성입니다. 2024년 이후 AI 기업이 User-Agent를 학습용과 실시간 답변용으로 분리하면서 가능해진 전략입니다.

스테이징·테스트 서버 전면 차단

User-agent: *
Disallow: /

배포 전 테스트 서버가 실수로 색인되어 중복 콘텐츠 페널티를 받는 일을 막으려면 이 한 줄이면 충분합니다. 배포 시 전체 허용 버전으로 되돌리는 것 잊지 마세요.

robots.txt로 할 수 있는 것과 없는 것

가능 - 크롤러가 특정 경로를 크롤링하지 않도록 요청(권고)하기. 크롤 예산을 아끼고, 중요하지 않은 페이지가 발견되는 빈도를 낮춥니다.
가능 - 사이트맵 위치를 크롤러에게 알려 색인 발견 속도를 높이기. 여러 사이트맵이 있으면 여러 Sitemap: 라인을 쓸 수 있습니다.
가능 - AI 학습용 크롤러(GPTBot·ClaudeBot·Google-Extended 등)를 선별적으로 차단. 주요 AI 기업은 자사 봇이 robots.txt를 준수한다고 공식 선언했습니다.
불가능 - 색인 제거 - 이미 색인된 URL을 robots.txt로 제거할 수 없습니다. 크롤링이 차단되면 구글은 메타 태그를 재확인할 수 없어 오히려 예전 상태로 남을 수 있습니다. 색인 제거는 <meta name="robots" content="noindex"> 또는 Search Console의 URL 제거 도구를 사용.
불가능 - 보안 - robots.txt는 공개 파일이며, 차단된 경로가 오히려 "여기 뭔가 있다"는 힌트가 됩니다. 관리자 페이지 보안은 인증·IP 제한·방화벽으로 처리하고, robots.txt에는 일반 색인 방지 용도로만 기재하세요.
불가능 - 강제력 - 악성 봇이나 스크레이퍼는 robots.txt를 무시합니다. 정당한 크롤러(검색엔진·주요 AI 기업)만 자발적으로 준수합니다.

검증·배포 체크리스트

접근 가능성 확인 - 브라우저로 https://도메인/robots.txt를 열어 200 OK로 내용이 보이는지 확인. 서브도메인마다 별도 파일 필요.
Google Search Console의 robots.txt 리포트 - 최신 Search Console은 robots.txt 파싱 상태를 자동으로 보여줍니다. 문법 오류·캐시된 버전·마지막 크롤링 시점 확인.
Bing Webmaster Tools의 "robots.txt Tester" - 특정 URL이 Bingbot에게 허용/차단되는지 즉석 점검.
대소문자와 슬래시 - URL은 대소문자를 구별합니다. /Admin/과 /admin/은 다른 경로로 해석됩니다. 마지막 슬래시 유무도 중요합니다.
와일드카드 - *(임의 문자), $(문자열 종료)를 조합할 수 있습니다. 예: Disallow: /*.pdf$는 모든 PDF 파일 차단.
주석 - #로 시작하는 줄은 크롤러가 무시합니다. 규칙의 의도를 주석으로 남겨두면 나중에 디버깅이 쉬워집니다.
변경 후 반영 시간 - 크롤러는 보통 robots.txt를 24시간 이내 캐시합니다. 긴급한 변경은 Search Console에서 수동으로 재크롤 요청하세요.

자주 하는 실수

Disallow: /을 실수로 배포 - 전체 사이트가 색인에서 빠질 수 있습니다. 배포 직후 반드시 확인.
CSS·JS 차단 - /assets/·/static/을 차단하면 Google이 페이지 렌더링을 제대로 못 해 모바일 친화성·Core Web Vitals 평가에 불이익.
noindex를 robots.txt에 기재 - Noindex: 지시어는 2019년 이후 Google이 더 이상 지원하지 않습니다. 반드시 meta 태그 또는 HTTP 헤더로.
주석을 규칙과 같은 줄에 - Disallow: /admin/ # 관리자 같은 줄내 주석은 파서가 잘못 해석할 수 있습니다. 별도 줄에 작성.
여러 사이트맵 통합 미사용 - 대형 사이트는 sitemap index 파일을 만들고 그것을 Sitemap 선언에 넣는 것이 관리에 편리합니다.

robots.txt 설정 후 SEO를 더 강화하려면 JSON-LD 생성기로 구조화 데이터를 추가하고, Schema.org 타입 정리에서 페이지 성격에 맞는 마크업을 고르세요. 사이트 아이콘과 미리보기 품질은 파비콘 생성기로 보완할 수 있습니다.

자주 묻는 질문

robots.txt는 반드시 있어야 하나요?

필수는 아닙니다. 파일이 없으면 크롤러는 모든 페이지를 크롤링할 수 있다고 판단합니다. 하지만 관리자 페이지, 내부 검색 결과 등 불필요한 페이지가 색인되는 것을 방지하려면 설정하는 것이 좋습니다.

robots.txt로 페이지 색인을 완전히 막을 수 있나요?

아닙니다. robots.txt는 크롤링 권고일 뿐 강제력이 없으며, 외부 링크가 있으면 URL 자체는 색인될 수 있습니다. 완전한 색인 차단이 필요하면 <meta name="robots" content="noindex"> 태그를 함께 사용하세요.

AI 크롤러(GPTBot, ClaudeBot 등)도 차단할 수 있나요?

GPTBot, ChatGPT-User, ClaudeBot, Google-Extended, CCBot 등 주요 AI 크롤러는 robots.txt를 준수합니다. User-agent에 해당 봇 이름을 지정하고 Disallow: /를 설정하면 학습 데이터 수집을 차단할 수 있습니다.

Crawl-delay는 모든 크롤러가 지원하나요?

Google은 Crawl-delay를 무시합니다. Bing, Yandex, Naver(Yeti) 등은 지원하므로, 서버 부하가 높을 때 해당 크롤러에만 적용하면 유용합니다. Google의 크롤 빈도는 Search Console에서 조절할 수 있습니다.

robots.txt 파일은 어디에 두어야 하나요?

반드시 도메인 루트에 위치해야 합니다. 예를 들어 https://example.com/robots.txt가 올바른 경로입니다. 하위 디렉토리(예: /blog/robots.txt)에 두면 크롤러가 인식하지 못합니다.