基本的なHTML要素

このページでは、見出し、段落、リンク、画像などの基本的なHTML要素を練習できます。

見出しの例

これはh1見出しです

これはh2見出しです

これはh3見出しです

これはh4見出しです

これはh5見出しです
これはh6見出しです

段落の例

これは最初の段落です。Pythonでwebスクレイピングを学ぶことは、 データ収集や分析において非常に有用なスキルです。 BeautifulSoupやSeleniumなどのライブラリを使用することで、 効率的にWebページからデータを抽出できます。

これは2番目の段落です。スクレイピングを行う際は、 対象サイトの利用規約やrobot.txtを確認し、 適切なマナーを守ることが重要です。

この段落は太字で書かれています。 また、イタリックの文字も含まれています。

リンクの例

画像の例

ビルの画像

alt属性: "ビルの画像"

ビーチの画像

alt属性: "ビーチの画像"

テキスト装飾の例

太字テキスト(strongタグ)

イタリックテキスト(emタグ)

下線テキスト(uタグ)

取り消し線テキスト(sタグ)

ハイライトテキスト(markタグ)

上付き文字: E=mc2

下付き文字: H2O

インラインコード(codeタグ)

robots.txtについて

このサイトにはrobots.txtファイルが設置されています。 robots.txtは、Webクローラーやボットに対してサイトのクロール規則を指示するファイルです。

スクレイピング時のマナー

  • • robots.txtの内容を確認し、遵守する
  • • 適切なアクセス間隔を設ける(Crawl-delayを参考に)
  • • サーバーに過度な負荷をかけない
  • • 利用規約やプライバシーポリシーを確認する

Pythonでrobots.txtを確認

import urllib.robotparser

# robots.txtをチェック
rp = urllib.robotparser.RobotFileParser()
rp.set_url("http://localhost:3000/robots.txt")
rp.read()

# 特定のパスがクロール可能かチェック
can_crawl = rp.can_fetch("*", "http://localhost:3000/basic")
print(f"クロール可能: {can_crawl}")

# Crawl-delayを取得
delay = rp.crawl_delay("*")
print(f"推奨間隔: {delay}秒")