Pythonスクレイピング練習サイト

様々なHTML要素を含むページでスクレイピングの練習をしましょう

使用方法

基本的なスクレイピング

import requests
from bs4 import BeautifulSoup

url = "http://localhost:3000/basic"
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')

# 見出しを取得
title = soup.find('h1').text
print(title)

セレクタの使用

# class属性で要素を選択
elements = soup.find_all(class_='product-name')

# id属性で要素を選択
element = soup.find(id='main-content')

# CSSセレクタを使用
items = soup.select('.item-list li')

⚠️ スクレイピングマナー

実際のWebサイトをスクレイピングする前に、必ず以下を確認してください:

  • robots.txtの内容を確認し遵守する
  • • サイトの利用規約やプライバシーポリシーを読む
  • • 適切なアクセス間隔を設ける(推奨: 1秒以上)
  • • サーバーに過度な負荷をかけない
  • • 取得したデータの使用目的を明確にする