ETL は、次の3段階からなるデータパイプラインフレームワークです:
- 抽出 (Extract) – Proxiedのモバイルプロキシを活用して、未加工のHTMLまたはJSONを収集する。
- 変換 (Transform) – データのクリーン化、正規化、拡充(例:通貨換算、SKUの重複排除)を行う。
- ロード (Load) – 加工済みデータをデータウェアハウス、データレイク、またはElasticsearchクラスタにロードする。
AirflowやPrefectを利用してETLを自動化し、各抽出タスクが新しいProxied IPを使用することで、耐障害性を高めます。