要求
- 最近ライブや公演に家族で行くのにハマっている
- 地方なのだが情報がまとまっておらず、不意に出会う物や知り合いから聞いて知る事が多い
- チケット販売情報を定期的にリストアップ化して、新しい情報との差分を逐次知りたい
プロンプト
Pythonで下記のWEBサイトをスクレイピングしてスプレッドシートにリスト化したい。 またページングされているので、ページング分すべて処理するようにしたい。 https://***.***/search=**** 保存する項目は下記になります。 カテゴリ:「クラシック・オペラ」、「レジャー」、「映画」、「スポーツ」などの分類 イベントタイトル: 公演日: 会場: 販売区分:「先着」、「抽選」などの区分 販売方法:「一般販売」などの方法 受付開始日:YYYY/MM/DD(曜日) hh:mm 受付終了日:YYYY/MM/DD(曜日) hh:mm 申込/詳細:「詳細はこちら」、「お申し込みはこちら」 追加で必要な情報があれば聞いて下さい。
作成完了
いざ動かしてみた。
WARNING:urllib3.connectionpool:Retrying (Retry(total=0, connect=3, read=0, redirect=None, status=None)) after connection broken by 'ReadTimeoutError("HTTPSConnectionPool(host='l-tike.com', port=443): Read timed out. (read timeout=30.0)")':
やっぱりbot対策されてるよねぇ・・・user-agentはMacのchromeに合わせたんだが、振る舞いなどで対応されていそう。 何か手を考える。