Archives pour la catégorie BigData

Pentaho 8.0

C’est l’heure d’une nouvelle version et donc pour moi de vous en parler.

Quelle fierté de faire partie de cette belle aventure qu’est Pentaho. C’est plus qu’un logiciel, c’est une manière de progresser tous les jours dans le métier de l’analyse des données. Pas de débat sur l’utilité du Big Data. si vous en doutez, lisez, observez vos concurrents, MAIS attention, vous allez peut-être vous dire, WHAOUH ils ont fait çà !

Chez HitachiVantara qui est notre nouvelle société juridique, la marque Pentaho a toute sa place. Elle est même le lien qui permet à une multinationale d’être le leader du marché de l’IoT.

Alors la v8 de Pentaho?

Si vous lisez les annonces trop vite vous allez peut-être apercevoir Spark, Kafka et vous dire, « Mais la v7.1 le faisait déjà! ». Oui c vrai en partie mais là aujourd’hui il s’agit réellement de permettre à tout le monde de le faire et de bénéficier de l’apport d’Hitachi. Pour cela vous avez désormais des étapes entreprise qui vous donnerons le pouvoir de proposer à vos Boss de l’analyse en temps réels:

  • Kafka + MetadataInjection = Ingérer des données en temps réels
  • Spark + ML = Transformer et Enrichir en temps réels

Il ne vous reste donc plus qu’à trouver vos clients et/ou utilisateurs temps réels 😉

Les éléments de la v8:

Ingérer vos datas sous forme de message.
Avec Pentaho Kafka Enterprise vous allez pouvoir choisir plus finnement la tranche de messages que vous voulez traiter.
De plus vous pourrez créer vos propres flux depuis une Transformation PDI avec la nouvelle étape 
Voici donc un nouveau dossier dans votre librairie PDI:

 

Rappelez-vous que PDI n’est pas un générateur de code. Et là en v8 vous allez pouvoir scaler vos process en temps réels sur votre cluster Hadoop? Oui biensûr vous le faites déjà mais là vous allez pouvoir faire la même chose sur vos serveurs Pentaho!

Avec notre fonction WorkerNodes, adieu les « slaves server » et vive la répartition dynamique sur vos machines les plus dispos.

.

 

Encore et encore aider tout le monde à faire du Big Data. C’est donc PDI qui s’enrichi avec ses fonctions de visualisations. Vous pourrez dé-dupliquer, filtrer, supprimer les valeurs aberrantes et remplacer les null encore plus facilement.

Oui vous avez deviné, les nouveaux utilisateurs de PDI sont les DataScientist mais la bonne nouvelle est que vous aussi vous allez pouvoir devenir un DataScientist !

 

Tous les détails sont sur http://www.pentaho.com/product/version-8-0 MAIS il faudra attendre le 16 Novembre pour télécharger le v8.

Préparez-vous messieurs les fans, le logo Hitachi est très présent mais pour le bonne cause, pour être encore plus fort sur ce marché.

Un cas métier IoT

Je vous propose de visionner mon intervention à l’occasion de la conférence IDC « Du Big Data aux systèmes Cognitifs ».

A cette occasion avec mon collègue Bertrand Le Quellec de HDS, nous avons présenté le projet « Rail UK ». Je parle de l’architecture analytique de ce projet à compte de 7’50 »

http://relaiswebcasting.mediasite.com/mediasite/Play/b517b696181d49b89f3125f46fa944e21d?catalog=244646f6-6d20-4631-a915-066b8b1d16eb
View Full Screen

A bientôt

Pentaho v7 « Une nouvelle route »

A l’occasion de Pentaho v7 et comme à l’accoutumé, je souhaite partager avec vous au delà des nouvelles fonctionnalités ma vision de cette nouvelle route pour Hitachi-Pentaho.

En effet lors de notre rachat par Hitachi, nombre d’entre vous ont eu des doutes sur l’avenir communautaire de Pentaho. Pedro Alves qui est au « board » de Pentaho et qui s’occupe de la défense des intérêts de la communauté ne peut pas être mieux placé pour cela. Et il a joué un rôle majeur sur cette nouvelle version.
Dans le même temps c’est un nouveau virage pour Pentaho. La version v7 propose essentiellement des nouvelles fonctionnalités disponibles en version Enterprise seulement.
= Une organisation qui innove

La plus importante est basé sur l’analyse graphique (et donc pas seulement en mode tabulaire) des données à TOUTES les étapes de PDI (ETL de Pentaho). Cette nouvelle fonction majeure est classée « Enterprise » car elle n’intercède en rien le fait de transformer une donnée avec PDI mais bien qu’elle permet de nouveau processus au sein des entreprises. Il s’agit d’optimiser le « Time To Market » en donnant aux préparateurs de données tous les moyens d’analyser et de modéliser (au niveau logique) les données avant même de les mettre à disposition du business. etlvizDans l’ETL, une visualisation sous forme d’histogramme permet par exemple de plus facilement se rendre compte de l’absence de données sur une certaine période de temps par exemple. La vision tabulaire proposée par la concurrence ne permet que de vérifier qu’une donnée à bien été transformée comme vous le souhaitiez. Si le préparateur souhaite faire valider son analyse, il lui est possible de la publier sur la console utilisateur afin d’obtenir la validation d’un acteur métier.
= Un ETL tourné vers les métiers

Avec Pentaho v7 on poursuit notre démarche permettant de mieux s’organiser face à notre métier qui évolue rapidement. Comment pourrions-nous accompagner tous les nouveaux cas d’usage Big Data en conservant les mêmes relations entre l’IT et les métiers?

De plus sachez que prochainement vous pourrez utiliser notre ETL en mode client Web!  Cela permettra certainement de définir des nouveaux groupes d’utilisateurs métiers ayant par exemple une liste prédéfinie de connecteur et leur permettant de développer tous les processus « basique ».
= Un ETL accessible aux métiers

etlbusiness
Notre groupe Hitachi intègre également les solutions Pentaho dans son offre Lumada destinée aux industriels. Aussi on discutera de plus en plus facilement avec les machines.

Pentaho v7 est donc la poursuite de nos innovations mais également j’en suis persuadé une orientation forte vers une nouvelle route Hitachi-Pentaho pour accompagner nos mutations technologiques.
Pentaho v7 est déjà une plateforme analytique complète intégrant les fonctions:
– Ingestion/Collecte (nombreux connecteurs et fonction Metadata Injection)
– Transformation/Enrichissement prédictif (Weka, R, Python, Scala)
– Modélisation logique/Sécurité (y compris avec Hadoop)
– Publication vers les métiers (Datamart As A Service, Data As A Service)
– Console utilisateur/Analyse embarquée dans vos applications (API, OEM, Multi-tenant)
= Une plateforme analytique complète

pipeline

Mais comme vous l’avez compris, au delà de vous fournir les fonctions que vous attendez, Pentaho v7 est une plateforme d’avenir qui tout en restant ouverte et modulable vous accompagnera demain vers les solutions analytique que ni vous ni moi ne connaissons encore.

Cette nouvelle route est la démonstration d’une stratégie analytique pour vous aider à construire vos propres stratégies.

SQL is not dead ! Welcome streaming SQL

calcite

Quel plaisir de lire ce slide deck de Julian Hide, manager du projet Apache Calcite. Il réalise une présentation technico-fonctionnelle de notre aisance à penser SQL tout en pouvant interagir avec toutes les nouvelles formes de stockage. attention on est bien ici dans du query-réponse type base de données. Mais ce projet prend également en compte les usages sur les critères de période analysée ou la structure de la réponse qui doit être appropriée pour pouvoir facilement alimenter des graphiques ou encore conserver les fonctions de l’analyse multi-dimensionnelle. N’oublions pas que Julian est le responsable de Mondrian, le meilleur outil ROLAP.

Toutes les slides ne sont pas aisées et vous utiliserez quelques fois la fonction retour pour relire la précédente mais vous découvrirez un projet « ouvert ». On me demande fréquemment si ce que je présente est open ou pas. Ici est parfaitement représenté le concept de l’ouverture par laquelle ce projet s’interconnecte avec des bases de stockage chacune ayant leurs spécificités de performance. Le stream vous apporte le courant, le traditionnel vous apporte l’historique et le window vous donne des photos d’un ensemble de données.

Au regard de nos besoins nous pourrons implémenter tous les modules ou au contraire, pour alléger des apps analytique, avoir la possibilité d’utiliser les seuls modules utiles à votre projet.

Le développement des NoSql est réel et parfaitement utile pour la souplesse de modélisation et la scalabilité. On voit ainsi qu’un query croisant des sources Splunk et MySql n’est pas dénué de sens. Le pouvoir est dans le fait de pouvoir exprimer sa demande dans un langage universel et d’utiliser le meilleur des offres de stockage au regard du type de données.

Je n’ai pas encore testé Calcite qui est en version 1.7 actuellement mais je suis sûr de recroiser le chemin de ce projet. Pentaho Data Integration me permettra de transformer les retours pour répondre à des demandes fonctionnelles et les Inputs seront performant en suivant les conseils de Julian.

See you soon !

DATA LAKE IS NOT ONLY SQL

Read it in English

Pour les plus de 40 ans 😉 Oracle a toujours été la référence du stockage que ce soit pour le transactionnel ou l’analytique.

Depuis la mouvance Big Data et après sa plus grande compréhension, de nombreux projets se lancent enfin concrètement et les marches ne sont pas faciles à franchir. Je veux partager avec vous un constat que je considère comme une problématique assez fréquente.

datalakeComme depuis toujours on souhaite avoir des performances pour que toutes requêtes prennent vie en quelques millisecondes. Aujourd’hui cette offre de performance existe dans l’écosystème Big Data mais revêt 2 pivots essentiels en terme de choix, Hadoop et NoSql.

Pour moi le premier est un cluster de traitement de la donnée et le file système idéal qui remplace entre autres nos anciennes staging area. Aujourd’hui ce stockage brut massif se dénomme Data Lake lorsqu’on ne l’applique plus exclusivement aux données destinées à être traitées par votre Datawarehouse. Le Data Lake a vraiment cet objectif d’être un espace de stockage universel bien au-delà du périmètre des responsables décisionnels. C’est un espace centralisé ou nativement le hardware permet déjà de retrouver un grand nombre d’informations par les seules metadata initiales stockées au moment de leur ingestion.
De plus son mode cluster en mode distribué, comme d’autres, est un générateur de puissance de traitement sans fin au regard des moyens d’infrastructure que vous lui allouez.

NoSql offre dans le même temps des modes de modélisation des données très souple et évolutif tout en conservant d’excellente performance en terme de requête car le maître mot reste « base de données ». Mais quelque soit la souplesse de ces modèles dont le plus en vogue est la structure Json, cela reste un concept de formatage des datas ayant donc son propre mode d’ingestion. Les offres disponibles savent elles aussi rendre la gestion de grands volumes sans limite en mode distribué.

Au temps de l’IoT cette conceptualisation est moins présente car l’urgence est de collecter et stocker pour rendre disponible à tout moment si besoin. Dans ce domaine Hadoop poursuit son règne. Cela n’interdit pas d’alimenter des processus temps réels avec des orchestration de Apache Kafka qu’il supporte. Au delà vous pourrez choisir de traiter la data en mode stream ou batch avec Spark ou MapReduce.

Aussi voir des projets aujourd’hui se lancer exclusivement sur un concept NoSql revient à mon sens à s’interdire de futur projet analytique. Si ces solutions répondent aux objectifs d’un projet c’est parfait et c’est leur objectif. Vous pouvez ainsi économiser sur toutes les évolutions que vous souhaitez apporter à un outil transactionnel ou de reporting dédié. Si vous souhaitez ajouter une information, ou même démultiplier une information existante en plusieurs attributs, NoSql vous aidera largement a réaliser cela quasi instantanément. Mais à mon sens, NoSql ne peut pas être confondu avec une architecture Data Lake.

Ces Big questions très familières au projet Big Data, ne doivent pas cacher qu’aujourd’hui on travaille sur le repositionnement de la donnée. On a commencé par faire de l’analyse sur des projets prioritaires et aujourd’hui on est en mesure de définir des architectures « globales » en terme d’analytique facilitant le management « driver » par la data. La richesse de votre analyse de demain naîtra du croisement de multiples sources et si vos premiers choix sont trop réducteurs, vous serez moins réactif.

A l’heure où dans votre espace digital privé vous pouvez retrouver toutes informations textes, images, musiques, …etc… d’un simple clic, nos entreprises ne peuvent plus se contenter de définir la liste des « domaines » réservés à l’analyse. Certes la confidentialité doit toujours être gérée (et c’est le cas) mais les défis sont de pouvoir rapidement écouter les flux manipulés par l’entreprise pour qu’à n’importe quelle étape on puisse retrouver et analyser des données. Au rythme toujours incessant des nouveautés dans le Big Data les choix initiaux ne sont pas simples mais néanmoins pas neutres.

 

 

 

 

BioMe – Application analytique Big Data

Read it in english

Je partage avec vous aujourd’hui une vidéo en Français ! d’une des fonctionnalités phare de Pentaho.

Labellisée Streamline Data Refinery en interne, ce concept est une présentation de méthode de livraison des données Big Data à vos utilisateurs. Ce scénario se déroule en 3 étapes:

1/ Sélection des données souhaitées
Présenter à l’utilisateur un Dashboard contenant des Kpi’s générique de vos Data. Cela lui permet de définir les principaux éléments du périmètre cible de son analyse.
Il peut compléter ses choix avec autant de critères que vous lui proposerez.

2/ Préparation des données
Pentaho Data Integration (PDI) va prendre en compte les paramètres de l’utilisateur et dynamiquement filtrer les datasets utiles à rechercher dans votre Datalake on dans toutes sources de données imaginables.
Par la suite vous pouvez « automatiquement » annoter les données c’est à dire réellement créer un Metadata lisible pour votre utilisateur. Il s’agit bien ici d’un ETL qui va créer un dictionnaire de données pour qualifier vos hiérarchies d’axes d’analyse et vos principaux indicateurs et leurs attributs.

3/ Publication des données 
En fin de traitement, PDI va publier le nouveau Metadata sur la console utilisateur Pentaho et dans le cas présent alerter l’utilisateur depuis son application BioMe de la disponibilité des données.
Celui-ci pourra alors utiliser l’outil de discovery de Pentaho, Pentaho Analyzer qui est dans cet exemple « embarqué » dans l’application BioMe.

Enjoy!

Pentaho v6 – DataPipeline

Il y a qq temps Je l’avais annoncé pour fin 2014, ce sera le 14 octobre 2015.

Si vous ouvrez la console de Pentaho v6, de premier abord vous ne verrez pas de grand changement par rapport à la v5. Sur la console c’est Analyzer qui évolue et permet désormais d’ajouter des calculs non plus seulement dans votre analyse mais directement dans le Metadata pour le partager avec vos collègues. CreatemeasureAutre astuce notoire est le fait de pouvoir gérer dans les rôles le droit de créer des Metadata avec le Datasource Wizard sans nécessairement être administrateur.Createnewsource

 

Bon ça c’est pour le toilettage. Parlons du Pipeline de data. Il y a 3 ans on s’interrogeait si nos bases DWH avaient de l’avenir avec le développement des Clusters Hadoop. Le marché répond clairement que ce n’est plus une nécessité. De notre DWH ont généraient des Datamart. Désormais le concept est de générer des Datamarts directement depuis votre Datalake Hadoop.

Datalake remplace votre Staging Area
Datamart à la demande remplace vos Datamarts issus de votre DWH

Toutefois si vous avez déjà un DWH l’objet n’est pas de le supprimer et il restera utile pour les données Corporate à mettre à disposition de vos plus grands consommateurs de données. Tachez néanmoins de valider qu’il peut se mettre à jour en NearRealTime.

Pipeline

Le Data Pipeline est quant à lui une vraie innovation dans le monde Analytique des Big Data. Il s’agit de pouvoir croiser tout type de données, traditionnelles ou Big Data et de les mettre à disposition de vos users en mode gouvernance des données (Qui peut voir Quoi).

Techniquement Pentaho vous propose 2 solutions :
Data As A Service = Clic droit sur une étape de votre Transformation PDI et création d’un « Data Services ». Aller ensuite sur votre Console Utilisateur et définissez une source de données en sélectionnant l’option « Pentaho Data Services ». Vous organisez les données et définissez des formats par défaut si vous le souhaitez et vous êtes prêt à utiliser Analyzer sur votre source de données PDI !!!Datservicespdi

Streamline Data Refinery = Vous construisez un formulaire « Dashboard » et proposez ainsi à vos users de choisir quelles données ils souhaitent. Vos interfaces PDI préparées en amont de manière générique pour chaque source seront ainsi combinées automatiquement et un Datamart sera créé sur votre base analytique. Côté utilisateur il sera alerté de la fin du processus et pourra immédiatement naviguer dans son Datamart via Analyzer !
SDR

 

Lorsque vos keysusers auront identifiés les flux utiles, il ne vous restera plus qu’à rentrer en mode projet entreprise. Toute la phase d’intégration pourra alors s’effectuée en utilisant les performances de votre cluster Hadoop qu’il s’agisse de transformation Big Data ou pas ! (si vous n’avez pas de cluster Hadoop vous pouvez bien entendu définir un cluster PDI pour paralléliser vos traitements).
Vous avez ainsi la possibilité de certifier à votre entreprise que le traitement restera opérationnel dans un temps de traitement maîtrisé en ajoutant si besoin des Nodes à votre cluster.

Ajouter à cela les algorithmes préparés par vos DataScientist en utilisant Pentaho Weka et PDI pourra vous aider à générer de l’alerting dans des contextes de maintenance prédictive ou encore vous aider à identifier les jeux de données devant retenir votre attention en priorité au regard de vos objectifs métiers.

Voici donc un aperçu du concept Data Pipeline que vous pouvez mettre en œuvre sur la base de la plateforme analytique Pentaho.