100% Cloud guy!

Since 3 months now, I’ve experienced a full Cloud concept.

All my data, personal AND professional are host in the cloud. Sure you can say « Bhaaa nothing special ! » but when i say that,  its mean that my house could burn (cross fingers 😉 or i can crash my business computer, I’m sure I can access to all my data.

It was not a 100% safe story. I remind some morning in the train, just few minutes before a meeting, « oh xxxx, where is my file? »
I’ve tried to use many of major cloud solution: GoogleDrive, OneCloud, Dropbox, Box and HCPAnywhere.

Some of them only replicate your online data anywhere you want but don’t make any upload synchronization. So its why i stop using Box & Drop for this purpose. They just could be used to deliver access to files to your friends. In the same time I use Google only for personal usage. So today I manage all my personal files on Drive.

Where it’s more complex, it’s when I have to define my better tool for business usage. I’m travelling all times and use a full online solution was the not the right answer.

So I’ve tried OneCloud! But in this case you need at the end to create all your docs from Office365, so online. If you try to use your local Office, it will make synchronization for you,….. but when ! Their synchronization tool was not persistent in my case. I’ve some colleague who used full Office365 but in my case it take me sometimes 3 to 5 min to save a file, waiting checking and pseudo synchronization.

hcpAt the end my choice come to ….. Hitachi ! Sure it’s my new holding company but they have a public tool named HCPAnywhere that you can used online. By this way I can really use large local folder and create and update files using any software and be sure that everything is online without to wait long time. At the end you understand it’s my new tool and I can only encourage you to test it.

Pentaho v6 – DataPipeline

Il y a qq temps Je l’avais annoncé pour fin 2014, ce sera le 14 octobre 2015.

Si vous ouvrez la console de Pentaho v6, de premier abord vous ne verrez pas de grand changement par rapport à la v5. Sur la console c’est Analyzer qui évolue et permet désormais d’ajouter des calculs non plus seulement dans votre analyse mais directement dans le Metadata pour le partager avec vos collègues. CreatemeasureAutre astuce notoire est le fait de pouvoir gérer dans les rôles le droit de créer des Metadata avec le Datasource Wizard sans nécessairement être administrateur.Createnewsource

 

Bon ça c’est pour le toilettage. Parlons du Pipeline de data. Il y a 3 ans on s’interrogeait si nos bases DWH avaient de l’avenir avec le développement des Clusters Hadoop. Le marché répond clairement que ce n’est plus une nécessité. De notre DWH ont généraient des Datamart. Désormais le concept est de générer des Datamarts directement depuis votre Datalake Hadoop.

Datalake remplace votre Staging Area
Datamart à la demande remplace vos Datamarts issus de votre DWH

Toutefois si vous avez déjà un DWH l’objet n’est pas de le supprimer et il restera utile pour les données Corporate à mettre à disposition de vos plus grands consommateurs de données. Tachez néanmoins de valider qu’il peut se mettre à jour en NearRealTime.

Pipeline

Le Data Pipeline est quant à lui une vraie innovation dans le monde Analytique des Big Data. Il s’agit de pouvoir croiser tout type de données, traditionnelles ou Big Data et de les mettre à disposition de vos users en mode gouvernance des données (Qui peut voir Quoi).

Techniquement Pentaho vous propose 2 solutions :
Data As A Service = Clic droit sur une étape de votre Transformation PDI et création d’un « Data Services ». Aller ensuite sur votre Console Utilisateur et définissez une source de données en sélectionnant l’option « Pentaho Data Services ». Vous organisez les données et définissez des formats par défaut si vous le souhaitez et vous êtes prêt à utiliser Analyzer sur votre source de données PDI !!!Datservicespdi

Streamline Data Refinery = Vous construisez un formulaire « Dashboard » et proposez ainsi à vos users de choisir quelles données ils souhaitent. Vos interfaces PDI préparées en amont de manière générique pour chaque source seront ainsi combinées automatiquement et un Datamart sera créé sur votre base analytique. Côté utilisateur il sera alerté de la fin du processus et pourra immédiatement naviguer dans son Datamart via Analyzer !
SDR

 

Lorsque vos keysusers auront identifiés les flux utiles, il ne vous restera plus qu’à rentrer en mode projet entreprise. Toute la phase d’intégration pourra alors s’effectuée en utilisant les performances de votre cluster Hadoop qu’il s’agisse de transformation Big Data ou pas ! (si vous n’avez pas de cluster Hadoop vous pouvez bien entendu définir un cluster PDI pour paralléliser vos traitements).
Vous avez ainsi la possibilité de certifier à votre entreprise que le traitement restera opérationnel dans un temps de traitement maîtrisé en ajoutant si besoin des Nodes à votre cluster.

Ajouter à cela les algorithmes préparés par vos DataScientist en utilisant Pentaho Weka et PDI pourra vous aider à générer de l’alerting dans des contextes de maintenance prédictive ou encore vous aider à identifier les jeux de données devant retenir votre attention en priorité au regard de vos objectifs métiers.

Voici donc un aperçu du concept Data Pipeline que vous pouvez mettre en œuvre sur la base de la plateforme analytique Pentaho.

Blending your data

Si vous regarder ce whiteboard (zoom is your friend) et que vous vous posez certaines questions, je serai heureux de vous apporter des compléments d’information:

blending

  • Ne détruisez pas votre chaîne décisionnelle existante
  • Soyez capable simplement de profiter graphiquement de nouveaux flux de data
  • Sachez opérer avec l’éco-système Big data sans avoir à recruter une nouvelle équipe
  •  Proposer à votre Business de choisir lui-même quelles datas il veut analyser en toute autonomie tout en étant capable d’en assurer la gouvernance – STOP A CHACUN SON INDICATEUR !
  • Ne construisez pas un nouveau silo et croisez vos Big et Traditional Data – Blending

See you

Pentaho 2015

Au delà de cette invitation au prochain Pentaho World ce mois d’octobre 2015 à Orlando, une envie de vous informer de ce que je considère comme de bonnes nouvelles.

Comme vous pouvez le constater, Pentaho se focalise sur l’analyse des Big Data et de l’analyse embarquée. Ces prochains mois, à travers notre version 5.4 et notre majeure de l’année la v6.0 de cet automne , vous découvrirez une nouvelle génération de concepts.

Comme évoqué sur de nombreux blogs, le Big Data n’est vraiment plus réservé qu’aux grandes entreprises. Très souvent elles transforment cela en un projet d’infrastructure alors que comme tout l’IT l’important est le temps gagné et la simplicité. Oui j’ai bien dit la simplicité!

Aujourd’hui vous prenez du temps à modéliser, et je ne vous dirais pas que ce n’est pas important, mais désormais vous pouvez modéliser autant de fois que vous le souhaitez. Une erreur détectée après quelques semaines? Rien de grave, avec les solutions NoSql, enrichissez votre modèle au rythme de vos besoins. Avec Hadoop régénérer vos outputs à votre envie. Ne vous relancez pas dans un cycle long d’interface de rechargement!

Cet ODS que vous ne respectiez pas toujours est désormais natif à travers les solutions Big Data qui vous offre un Data Lake quasi sans limite, permanent et auto sécurisé.

Alors là oui vous travaillerez main dans la main avec votre administrateur Hadoop de l’équipe Infra pour le convaincre d’ajouter des Nodes. En fait il aura déjà anticipé cette action sans avoir à se préoccuper des projets impactés.

Pentaho vous permet d’utiliser tous ces outils simplement à travers le plus que génial Pentaho Data Integration. Vous le découvrirez bientôt encore plus joli! et encore plus simple à Clusteriser pour dispatcher vos traitements sur différents serveurs ou paralléliser une action massive.Spoon2015

Alors vous serez en mesure avec Analyzer de proposer une interface à vos analystes. Vous pourrez customiser votre console comme autant d’applications souhaitées.
Why not un projet = une console… mais chacun partageant les mêmes Metadata sécurisées si vous le souhaitez.
Bien entendu nos API de plus en plus riches, vous permettent également de positionner vos meilleures analyses directement dans l’application métier de vos utilisateurs facilitant la conduite du changement.

Car changement oui il en a un. Vous le percevez tous dans votre vie quotidienne et l’AppleWatch, que je ne n’adore pas, utilise un concept qui lui a de beaux lendemains. C’est ce que l’on appelle l’internet des objets. Une nouvelle étape qui comme toutes celles que nous vivons en ce moment va se déployer comme une traînée de poudre. C’est pourquoi Hitachi Data System est un excellent choix pour nous. L’infrastructure et le logiciel d’analyse de données. Ce mix permettra à Pentaho de bénéficier d’encore plus de moyens sans renier son ADN open-source.

Car Oui, vu que la liste des invités au jeu de l’analyse de données s’élargie (tous les constructeurs d’objets!) il n’a jamais été aussi important de partager au delà des standards des objets ouverts facilitant les interconnexions.

Ne remettez pas en cause votre architecture BI, optimisez la! Encapsulez-la à l’image du Cloud et des Big Data et comme toujours concentrez-vous sur les datas 😉

Pentaho_HDS_4

Seb @opentoile