Un lac de données est un référentiel centralisé qui contient des données brutes, non structurées et structurées à n’importe quelle échelle. Les équipes déposent souvent les sorties de scraping web dans Amazon S3 ou Google Cloud Storage avant les analyses en aval.