Le Data Lake c’est tout simplement un gros serveur d’une entreprise qui va stocker de grandes quantités de données brutes depuis différentes sources (internes ou externes). Brutes, c’est à dire non structurées, non organisées, c’est vraiment la donnée à son niveau le plus primaire, sans structure rigide.
Pour comparer avec la vie de tous les jours, le Data Lake c’est un peu votre sac de courses, avec tous les produits en vrac à l’intérieur. Une fois chez vous, vous allez pouvoir les ranger, les organiser dans d’autres endroits comme votre frigo et vos placards.
L’avantage de ce côté non structuré, c’est la quantité de données à l’état brut disponible. Les équipes qui travaillent sur le data lake sont libres d’accéder à tout ce qui s’y trouve pour construire des requêtes personnalisées, des algorithmes, et plus encore, sans que la donnée n’ait perdu d’information suite à une transformation. Pour reprendre l’analogie de vos courses, vos pommes de terre, quand elles ne sont pas cuites, vous pouvez les cuisiner comme vous le souhaiter : entières cuites à l’eau ou à la vapeur, en purée, en frites,… Mais si on vous donne des frites : impossible pour vous de les remettre à leur état initial de pomme de terre pour en faire ce que vous souhaitez : vous êtes contraint de travailler avec un produit transformé : des frites.
Donc un data lake de données, c’est comme un entrepôt de pomme de terres : elles sont à l’état brut, vous pouvez les transformer comme vous voulez, les utiliser comme vous voulez et les donner à qui vous voulez.