# robots.txt for Web Scraping Practice Site # このファイルはスクレイピング練習用のサンプルです # 全てのクローラーに対するルール User-agent: * # 練習用サイトなので全ページへのアクセスを許可 Allow: / # 実際のサイトでは以下のようなディレクトリを制限することがあります # Disallow: /admin/ # Disallow: /private/ # Disallow: /api/ # Disallow: /tmp/ # クロール頻度の制限(秒単位) # 実際のサイトでは適切な値を設定してください Crawl-delay: 1 # サイトマップの場所(存在する場合) # Sitemap: http://localhost:3000/sitemap.xml # 特定のボットに対する個別ルール例 # User-agent: Googlebot # Allow: / # User-agent: bingbot # Allow: / # 悪意のあるボットをブロックする例 # User-agent: BadBot # Disallow: / # 学習ポイント: # 1. User-agent: * は全てのクローラーに適用されるルール # 2. Allow: / は全てのページへのアクセスを許可 # 3. Disallow: /path/ は特定のパスへのアクセスを禁止 # 4. Crawl-delay: 秒数 でクロール間隔を指定 # 5. robots.txtは必ずドメインルート(/robots.txt)に配置