Robots.txt 생성기

검색엔진·AI 크롤러의 접근을 제어하는 robots.txt 파일을 간편하게 생성합니다.

검색엔진

AI 크롤러

    생성 결과

    Robots.txt란?

    robots.txt는 웹사이트 루트 디렉토리에 위치하는 텍스트 파일로, 검색엔진 크롤러에게 어떤 페이지를 크롤링해도 되는지 알려줍니다. 파일은 반드시 https://도메인/robots.txt 경로에 UTF-8 인코딩으로 배치해야 합니다.

    주요 지시어

    User-agent: 규칙을 적용할 크롤러를 지정합니다. *는 모든 크롤러를 의미합니다.
    Allow: 지정 경로의 크롤링을 허용합니다. Disallow 규칙보다 우선합니다.
    Disallow: 지정 경로의 크롤링을 차단합니다.
    Sitemap: 사이트맵 URL을 알려주어 크롤러가 페이지를 더 잘 발견하도록 합니다.
    Crawl-delay: 요청 간 대기 시간(초)을 지정합니다(Google은 무시, Bing·Yandex 등이 지원).

    실전 예시로 배우는 패턴

    실제 운영 사이트에서 자주 쓰는 규칙 조합입니다. 복사해 쓰기 전에 경로를 자신의 사이트 구조에 맞게 수정해주세요.

    개인 블로그·기본 사이트

    User-agent: *
    Allow: /
    
    Sitemap: https://example.com/sitemap.xml

    대부분의 개인 블로그·소규모 사이트에는 이 정도면 충분합니다. Sitemap 선언만으로도 색인 발견 속도가 향상됩니다.

    WordPress 표준 설정

    User-agent: *
    Allow: /
    Allow: /wp-admin/admin-ajax.php
    Disallow: /wp-admin/
    Disallow: /wp-includes/
    Disallow: /feed/
    Disallow: /trackback/
    Disallow: /?s=
    
    Sitemap: https://example.com/sitemap_index.xml

    admin-ajax.php는 프론트엔드가 호출하는 공개 엔드포인트라 허용이 필요합니다. /?s=는 내부 검색 결과 페이지로, 색인되면 중복 콘텐츠 문제가 생겨 차단이 권장됩니다.

    AI 학습만 차단, 검색은 허용

    User-agent: *
    Allow: /
    
    User-agent: GPTBot
    Disallow: /
    
    User-agent: ClaudeBot
    Disallow: /
    
    User-agent: Google-Extended
    Disallow: /
    
    User-agent: CCBot
    Disallow: /
    
    Sitemap: https://example.com/sitemap.xml

    일반 검색엔진(Googlebot·Bingbot·Yeti)은 그대로 접근하지만, 생성형 AI 학습용 크롤러만 차단하는 구성입니다. 2024년 이후 AI 기업이 User-Agent를 학습용과 실시간 답변용으로 분리하면서 가능해진 전략입니다.

    스테이징·테스트 서버 전면 차단

    User-agent: *
    Disallow: /

    배포 전 테스트 서버가 실수로 색인되어 중복 콘텐츠 페널티를 받는 일을 막으려면 이 한 줄이면 충분합니다. 배포 시 전체 허용 버전으로 되돌리는 것 잊지 마세요.

    robots.txt로 할 수 있는 것과 없는 것

    검증·배포 체크리스트

    1. 접근 가능성 확인 - 브라우저로 https://도메인/robots.txt를 열어 200 OK로 내용이 보이는지 확인. 서브도메인마다 별도 파일 필요.
    2. Google Search Console의 robots.txt 리포트 - 최신 Search Console은 robots.txt 파싱 상태를 자동으로 보여줍니다. 문법 오류·캐시된 버전·마지막 크롤링 시점 확인.
    3. Bing Webmaster Tools의 "robots.txt Tester" - 특정 URL이 Bingbot에게 허용/차단되는지 즉석 점검.
    4. 대소문자와 슬래시 - URL은 대소문자를 구별합니다. /Admin//admin/은 다른 경로로 해석됩니다. 마지막 슬래시 유무도 중요합니다.
    5. 와일드카드 - *(임의 문자), $(문자열 종료)를 조합할 수 있습니다. 예: Disallow: /*.pdf$는 모든 PDF 파일 차단.
    6. 주석 - #로 시작하는 줄은 크롤러가 무시합니다. 규칙의 의도를 주석으로 남겨두면 나중에 디버깅이 쉬워집니다.
    7. 변경 후 반영 시간 - 크롤러는 보통 robots.txt를 24시간 이내 캐시합니다. 긴급한 변경은 Search Console에서 수동으로 재크롤 요청하세요.

    자주 하는 실수

    robots.txt 설정 후 SEO를 더 강화하려면 JSON-LD 생성기로 구조화 데이터를 추가하고, Schema.org 타입 정리에서 페이지 성격에 맞는 마크업을 고르세요. 사이트 아이콘과 미리보기 품질은 파비콘 생성기로 보완할 수 있습니다.

    자주 묻는 질문

    robots.txt는 반드시 있어야 하나요?

    필수는 아닙니다. 파일이 없으면 크롤러는 모든 페이지를 크롤링할 수 있다고 판단합니다. 하지만 관리자 페이지, 내부 검색 결과 등 불필요한 페이지가 색인되는 것을 방지하려면 설정하는 것이 좋습니다.

    robots.txt로 페이지 색인을 완전히 막을 수 있나요?

    아닙니다. robots.txt는 크롤링 권고일 뿐 강제력이 없으며, 외부 링크가 있으면 URL 자체는 색인될 수 있습니다. 완전한 색인 차단이 필요하면 <meta name="robots" content="noindex"> 태그를 함께 사용하세요.

    AI 크롤러(GPTBot, ClaudeBot 등)도 차단할 수 있나요?

    GPTBot, ChatGPT-User, ClaudeBot, Google-Extended, CCBot 등 주요 AI 크롤러는 robots.txt를 준수합니다. User-agent에 해당 봇 이름을 지정하고 Disallow: /를 설정하면 학습 데이터 수집을 차단할 수 있습니다.

    Crawl-delay는 모든 크롤러가 지원하나요?

    Google은 Crawl-delay를 무시합니다. Bing, Yandex, Naver(Yeti) 등은 지원하므로, 서버 부하가 높을 때 해당 크롤러에만 적용하면 유용합니다. Google의 크롤 빈도는 Search Console에서 조절할 수 있습니다.

    robots.txt 파일은 어디에 두어야 하나요?

    반드시 도메인 루트에 위치해야 합니다. 예를 들어 https://example.com/robots.txt가 올바른 경로입니다. 하위 디렉토리(예: /blog/robots.txt)에 두면 크롤러가 인식하지 못합니다.