見出しの例
これはh1見出しです
これはh2見出しです
これはh3見出しです
これはh4見出しです
これはh5見出しです
これはh6見出しです
段落の例
これは最初の段落です。Pythonでwebスクレイピングを学ぶことは、 データ収集や分析において非常に有用なスキルです。 BeautifulSoupやSeleniumなどのライブラリを使用することで、 効率的にWebページからデータを抽出できます。
これは2番目の段落です。スクレイピングを行う際は、 対象サイトの利用規約やrobot.txtを確認し、 適切なマナーを守ることが重要です。
この段落は太字で書かれています。 また、イタリックの文字も含まれています。
リンクの例
画像の例

alt属性: "ビルの画像"

alt属性: "ビーチの画像"
テキスト装飾の例
太字テキスト(strongタグ)
イタリックテキスト(emタグ)
下線テキスト(uタグ)
取り消し線テキスト(sタグ)
ハイライトテキスト(markタグ)
上付き文字: E=mc2
下付き文字: H2O
インラインコード(codeタグ)
robots.txtについて
このサイトにはrobots.txtファイルが設置されています。 robots.txtは、Webクローラーやボットに対してサイトのクロール規則を指示するファイルです。
スクレイピング時のマナー
- • robots.txtの内容を確認し、遵守する
- • 適切なアクセス間隔を設ける(Crawl-delayを参考に)
- • サーバーに過度な負荷をかけない
- • 利用規約やプライバシーポリシーを確認する
Pythonでrobots.txtを確認
import urllib.robotparser
# robots.txtをチェック
rp = urllib.robotparser.RobotFileParser()
rp.set_url("http://localhost:3000/robots.txt")
rp.read()
# 特定のパスがクロール可能かチェック
can_crawl = rp.can_fetch("*", "http://localhost:3000/basic")
print(f"クロール可能: {can_crawl}")
# Crawl-delayを取得
delay = rp.crawl_delay("*")
print(f"推奨間隔: {delay}秒")