XPath は、XMLまたはHTMLのDOMツリーをナビゲートするためのクエリ言語です。例:
- //h1/text() – すべての
<h1>
のテキストノードを取得する。 - //*[@class='price']/@content – classがpriceの要素のcontent属性を選択する。
【なぜXPathとProxiedが最適な組み合わせなのか】
- 精度: 単一のXPathで、壊れやすい正規表現を使わずにデータを取得できる。
- クリーンなHTML: ProxiedモバイルIP を経由するリクエストは、CAPTCHAやブロックページを回避し、有効なマークアップをXPathに提供する。
- スケーラビリティ: 高並列のスクレイパーと組み合わせ、各リクエストごとにIPをローテーションすることが可能。