データレイク は、生データ、非構造化データ、構造化データをあらゆる規模で保持する中央リポジトリです。多くのチームは、下流の分析前にウェブスクレイプの出力をAmazon S3やGoogle Cloud Storageに保管します。