見出しの例

これはh1見出しです

これはh2見出しです

これはh3見出しです

これはh4見出しです

これはh5見出しです

これはh6見出しです

段落の例

これは最初の段落です。Pythonでwebスクレイピングを学ぶことは、データ収集や分析において非常に有用なスキルです。 BeautifulSoupやSeleniumなどのライブラリを使用することで、効率的にWebページからデータを抽出できます。

これは2番目の段落です。スクレイピングを行う際は、対象サイトの利用規約やrobot.txtを確認し、適切なマナーを守ることが重要です。

この段落は太字で書かれています。また、イタリックの文字も含まれています。

リンクの例

ページ内リンク（ページトップへ）

内部リンク（テーブルページ）

外部リンク（Python公式ドキュメント）

メールリンク

画像の例

alt属性: "ビルの画像"

alt属性: "ビーチの画像"

テキスト装飾の例

太字テキスト（strongタグ）

イタリックテキスト（emタグ）

下線テキスト（uタグ）

~~取り消し線テキスト~~（sタグ）

ハイライトテキスト（markタグ）

上付き文字: E=mc²

下付き文字: H₂O

インラインコード（codeタグ）

robots.txtについて

このサイトにはrobots.txtファイルが設置されています。 robots.txtは、Webクローラーやボットに対してサイトのクロール規則を指示するファイルです。

スクレイピング時のマナー

• robots.txtの内容を確認し、遵守する
• 適切なアクセス間隔を設ける（Crawl-delayを参考に）
• サーバーに過度な負荷をかけない
• 利用規約やプライバシーポリシーを確認する

Pythonでrobots.txtを確認

import urllib.robotparser

# robots.txtをチェック
rp = urllib.robotparser.RobotFileParser()
rp.set_url("http://localhost:3000/robots.txt")
rp.read()

# 特定のパスがクロール可能かチェック
can_crawl = rp.can_fetch("*", "http://localhost:3000/basic")
print(f"クロール可能: {can_crawl}")

# Crawl-delayを取得
delay = rp.crawl_delay("*")
print(f"推奨間隔: {delay}秒")