ウェブクロール とは、シードURLから開始し、再帰的にハイパーリンクをたどってページを自動的に発見・ダウンロードするプロセスです。クロウラーは:
- シードURLから開始する。
- 各ページを Proxiedの4G/5G IP を経由して取得し、ブロックを回避する。
- リンクを抽出し、停止条件(深度、robots.txt、またはキューの消化)が満たされるまで繰り返す。
各リクエストごとにキャリアグレードIPをローテーションすることで、レート制限や地理的偏りを防止します。なお、倫理的配慮として、robots.txtやcrawl-delayの指示に従う必要があります。