見出しの例
これはh1見出しです
これはh2見出しです
これはh3見出しです
これはh4見出しです
これはh5見出しです
これはh6見出しです
段落の例
これは最初の段落です。Pythonでwebスクレイピングを学ぶことは、 データ収集や分析において非常に有用なスキルです。 BeautifulSoupやSeleniumなどのライブラリを使用することで、 効率的にWebページからデータを抽出できます。
これは2番目の段落です。スクレイピングを行う際は、 対象サイトの利用規約やrobot.txtを確認し、 適切なマナーを守ることが重要です。
この段落は太字で書かれています。 また、イタリックの文字も含まれています。
リンクの例
画像の例

alt属性: "ビルの画像"

alt属性: "ビーチの画像"
テキスト装飾の例
太字テキスト(strongタグ)
イタリックテキスト(emタグ)
下線テキスト(uタグ)
取り消し線テキスト(sタグ)
ハイライトテキスト(markタグ)
上付き文字: E=mc2
下付き文字: H2O
インラインコード
(codeタグ)
robots.txtについて
このサイトにはrobots.txtファイルが設置されています。 robots.txtは、Webクローラーやボットに対してサイトのクロール規則を指示するファイルです。
スクレイピング時のマナー
- • robots.txtの内容を確認し、遵守する
- • 適切なアクセス間隔を設ける(Crawl-delayを参考に)
- • サーバーに過度な負荷をかけない
- • 利用規約やプライバシーポリシーを確認する
Pythonでrobots.txtを確認
import urllib.robotparser # robots.txtをチェック rp = urllib.robotparser.RobotFileParser() rp.set_url("http://localhost:3000/robots.txt") rp.read() # 特定のパスがクロール可能かチェック can_crawl = rp.can_fetch("*", "http://localhost:3000/basic") print(f"クロール可能: {can_crawl}") # Crawl-delayを取得 delay = rp.crawl_delay("*") print(f"推奨間隔: {delay}秒")