DATA LAKE IS NOT ONLY SQL

Read it in English

Pour les plus de 40 ans ūüėČ Oracle a toujours √©t√© la r√©f√©rence du stockage que ce soit pour le transactionnel ou l’analytique.

Depuis la mouvance Big Data et après sa plus grande compréhension, de nombreux projets se lancent enfin concrètement et les marches ne sont pas faciles à franchir. Je veux partager avec vous un constat que je considère comme une problématique assez fréquente.

datalakeComme depuis toujours on souhaite avoir des performances pour que toutes requ√™tes prennent vie en quelques millisecondes. Aujourd’hui cette offre de performance existe dans l’√©cosyst√®me Big Data mais rev√™t 2¬†pivots essentiels en terme de choix,¬†Hadoop et NoSql.

Pour moi le premier est un cluster de traitement de la donn√©e¬†et le file syst√®me id√©al qui remplace entre autres nos anciennes¬†staging area. Aujourd’hui ce stockage brut massif se d√©nomme Data Lake lorsqu’on ne l’applique plus exclusivement aux donn√©es destin√©es √† √™tre trait√©es par votre Datawarehouse. Le Data Lake a vraiment cet objectif d’√™tre un espace de stockage universel bien au-del√† du p√©rim√®tre des responsables d√©cisionnels. C’est un espace centralis√© ou nativement le hardware permet d√©j√† de retrouver un grand nombre d’informations par les seules metadata initiales stock√©es au moment de leur ingestion.
De plus son mode cluster en mode distribu√©, comme d’autres, est un g√©n√©rateur de puissance de traitement sans fin au regard des moyens d’infrastructure que vous lui allouez.

NoSql offre dans le m√™me temps des modes de mod√©lisation des donn√©es tr√®s souple et √©volutif tout en conservant d’excellente performance en terme de requ√™te car le ma√ģtre mot reste « base de donn√©es ». Mais quelque soit la souplesse de ces mod√®les dont le plus en vogue est¬†la structure Json, cela reste un concept de formatage des datas ayant donc son propre mode d’ingestion. Les offres disponibles savent elles aussi rendre la gestion de grands volumes sans limite en mode distribu√©.

Au temps de l’IoT cette conceptualisation est moins¬†pr√©sente car l’urgence est de collecter et¬†stocker pour¬†rendre disponible √† tout moment si besoin. Dans ce domaine Hadoop poursuit son r√®gne. Cela n’interdit pas d’alimenter des processus temps r√©els avec des orchestration de Apache Kafka qu’il supporte. Au del√† vous pourrez choisir de traiter la data en mode stream ou batch avec Spark ou MapReduce.

Aussi voir des projets aujourd’hui se lancer exclusivement sur un concept NoSql revient √† mon sens √† s’interdire de futur projet analytique. Si ces solutions r√©pondent aux objectifs d’un projet c’est parfait et c’est leur objectif. Vous pouvez ainsi √©conomiser sur toutes les √©volutions que vous souhaitez apporter √† un outil transactionnel ou de reporting d√©di√©. Si vous souhaitez ajouter une information, ou m√™me d√©multiplier une information existante en plusieurs attributs, NoSql vous aidera largement a r√©aliser cela quasi instantan√©ment. Mais √† mon sens,¬†NoSql¬†ne peut pas¬†√™tre confondu avec une architecture Data Lake.

Ces Big questions tr√®s famili√®res au projet Big Data, ne doivent pas cacher qu’aujourd’hui on travaille sur le repositionnement de la donn√©e. On a commenc√©¬†par faire de l’analyse sur des projets prioritaires et¬†aujourd’hui on est en mesure de d√©finir des architectures « globales » en terme d’analytique facilitant le management « driver » par la data. La richesse de votre analyse de demain na√ģtra du croisement de multiples sources et si vos premiers choix sont trop r√©ducteurs, vous serez moins r√©actif.

A l’heure o√Ļ dans votre espace digital priv√© vous pouvez retrouver toutes informations textes, images, musiques, …etc… d’un simple clic, nos entreprises ne peuvent plus se contenter de d√©finir la liste des « domaines » r√©serv√©s √† l’analyse. Certes la confidentialit√© doit toujours √™tre g√©r√©e (et c’est le cas) mais les d√©fis sont de pouvoir rapidement √©couter les flux manipul√©s par l’entreprise pour qu’√† n’importe quelle √©tape on puisse retrouver et analyser des donn√©es. Au rythme toujours incessant des nouveaut√©s dans le Big Data les choix initiaux ne sont pas simples mais n√©anmoins pas neutres.