非構造化データ とは、事前に定義されたスキーマを持たないデータのことです―生のHTMLページ、PDF、または自由形式のソーシャル投稿などが該当します。ウェブスクレイパーはこのデータを収集し、後で構造化されたテーブルやJSONにパースします。
主なステップ:
- 確実な取り込み: CAPTCHAや403エラーを回避するため、Proxiedローテーションモバイルプロキシ を通じてページを取得する。
- パース&クリーンアップ: NLPや正規表現を用いてテキストをフィールドに変換する。
- 保存: 大規模な解析のため、NoSQLデータベースやデータレイクにロードする。