Archives pour la catégorie Future

Pentaho 8.0

C’est l’heure d’une nouvelle version et donc pour moi de vous en parler.

Quelle fierté de faire partie de cette belle aventure qu’est Pentaho. C’est plus qu’un logiciel, c’est une manière de progresser tous les jours dans le métier de l’analyse des données. Pas de débat sur l’utilité du Big Data. si vous en doutez, lisez, observez vos concurrents, MAIS attention, vous allez peut-être vous dire, WHAOUH ils ont fait çà !

Chez HitachiVantara qui est notre nouvelle société juridique, la marque Pentaho a toute sa place. Elle est même le lien qui permet à une multinationale d’être le leader du marché de l’IoT.

Alors la v8 de Pentaho?

Si vous lisez les annonces trop vite vous allez peut-être apercevoir Spark, Kafka et vous dire, « Mais la v7.1 le faisait déjà! ». Oui c vrai en partie mais là aujourd’hui il s’agit réellement de permettre à tout le monde de le faire et de bénéficier de l’apport d’Hitachi. Pour cela vous avez désormais des étapes entreprise qui vous donnerons le pouvoir de proposer à vos Boss de l’analyse en temps réels:

  • Kafka + MetadataInjection = Ingérer des données en temps réels
  • Spark + ML = Transformer et Enrichir en temps réels

Il ne vous reste donc plus qu’à trouver vos clients et/ou utilisateurs temps réels 😉

Les éléments de la v8:

Ingérer vos datas sous forme de message.
Avec Pentaho Kafka Enterprise vous allez pouvoir choisir plus finnement la tranche de messages que vous voulez traiter.
De plus vous pourrez créer vos propres flux depuis une Transformation PDI avec la nouvelle étape 
Voici donc un nouveau dossier dans votre librairie PDI:

 

Rappelez-vous que PDI n’est pas un générateur de code. Et là en v8 vous allez pouvoir scaler vos process en temps réels sur votre cluster Hadoop? Oui biensûr vous le faites déjà mais là vous allez pouvoir faire la même chose sur vos serveurs Pentaho!

Avec notre fonction WorkerNodes, adieu les « slaves server » et vive la répartition dynamique sur vos machines les plus dispos.

.

 

Encore et encore aider tout le monde à faire du Big Data. C’est donc PDI qui s’enrichi avec ses fonctions de visualisations. Vous pourrez dé-dupliquer, filtrer, supprimer les valeurs aberrantes et remplacer les null encore plus facilement.

Oui vous avez deviné, les nouveaux utilisateurs de PDI sont les DataScientist mais la bonne nouvelle est que vous aussi vous allez pouvoir devenir un DataScientist !

 

Tous les détails sont sur http://www.pentaho.com/product/version-8-0 MAIS il faudra attendre le 16 Novembre pour télécharger le v8.

Préparez-vous messieurs les fans, le logo Hitachi est très présent mais pour le bonne cause, pour être encore plus fort sur ce marché.

Pentaho v7 « Une nouvelle route »

A l’occasion de Pentaho v7 et comme à l’accoutumé, je souhaite partager avec vous au delà des nouvelles fonctionnalités ma vision de cette nouvelle route pour Hitachi-Pentaho.

En effet lors de notre rachat par Hitachi, nombre d’entre vous ont eu des doutes sur l’avenir communautaire de Pentaho. Pedro Alves qui est au « board » de Pentaho et qui s’occupe de la défense des intérêts de la communauté ne peut pas être mieux placé pour cela. Et il a joué un rôle majeur sur cette nouvelle version.
Dans le même temps c’est un nouveau virage pour Pentaho. La version v7 propose essentiellement des nouvelles fonctionnalités disponibles en version Enterprise seulement.
= Une organisation qui innove

La plus importante est basé sur l’analyse graphique (et donc pas seulement en mode tabulaire) des données à TOUTES les étapes de PDI (ETL de Pentaho). Cette nouvelle fonction majeure est classée « Enterprise » car elle n’intercède en rien le fait de transformer une donnée avec PDI mais bien qu’elle permet de nouveau processus au sein des entreprises. Il s’agit d’optimiser le « Time To Market » en donnant aux préparateurs de données tous les moyens d’analyser et de modéliser (au niveau logique) les données avant même de les mettre à disposition du business. etlvizDans l’ETL, une visualisation sous forme d’histogramme permet par exemple de plus facilement se rendre compte de l’absence de données sur une certaine période de temps par exemple. La vision tabulaire proposée par la concurrence ne permet que de vérifier qu’une donnée à bien été transformée comme vous le souhaitiez. Si le préparateur souhaite faire valider son analyse, il lui est possible de la publier sur la console utilisateur afin d’obtenir la validation d’un acteur métier.
= Un ETL tourné vers les métiers

Avec Pentaho v7 on poursuit notre démarche permettant de mieux s’organiser face à notre métier qui évolue rapidement. Comment pourrions-nous accompagner tous les nouveaux cas d’usage Big Data en conservant les mêmes relations entre l’IT et les métiers?

De plus sachez que prochainement vous pourrez utiliser notre ETL en mode client Web!  Cela permettra certainement de définir des nouveaux groupes d’utilisateurs métiers ayant par exemple une liste prédéfinie de connecteur et leur permettant de développer tous les processus « basique ».
= Un ETL accessible aux métiers

etlbusiness
Notre groupe Hitachi intègre également les solutions Pentaho dans son offre Lumada destinée aux industriels. Aussi on discutera de plus en plus facilement avec les machines.

Pentaho v7 est donc la poursuite de nos innovations mais également j’en suis persuadé une orientation forte vers une nouvelle route Hitachi-Pentaho pour accompagner nos mutations technologiques.
Pentaho v7 est déjà une plateforme analytique complète intégrant les fonctions:
– Ingestion/Collecte (nombreux connecteurs et fonction Metadata Injection)
– Transformation/Enrichissement prédictif (Weka, R, Python, Scala)
– Modélisation logique/Sécurité (y compris avec Hadoop)
– Publication vers les métiers (Datamart As A Service, Data As A Service)
– Console utilisateur/Analyse embarquée dans vos applications (API, OEM, Multi-tenant)
= Une plateforme analytique complète

pipeline

Mais comme vous l’avez compris, au delà de vous fournir les fonctions que vous attendez, Pentaho v7 est une plateforme d’avenir qui tout en restant ouverte et modulable vous accompagnera demain vers les solutions analytique que ni vous ni moi ne connaissons encore.

Cette nouvelle route est la démonstration d’une stratégie analytique pour vous aider à construire vos propres stratégies.

SQL is not dead ! Welcome streaming SQL

calcite

Quel plaisir de lire ce slide deck de Julian Hide, manager du projet Apache Calcite. Il réalise une présentation technico-fonctionnelle de notre aisance à penser SQL tout en pouvant interagir avec toutes les nouvelles formes de stockage. attention on est bien ici dans du query-réponse type base de données. Mais ce projet prend également en compte les usages sur les critères de période analysée ou la structure de la réponse qui doit être appropriée pour pouvoir facilement alimenter des graphiques ou encore conserver les fonctions de l’analyse multi-dimensionnelle. N’oublions pas que Julian est le responsable de Mondrian, le meilleur outil ROLAP.

Toutes les slides ne sont pas aisées et vous utiliserez quelques fois la fonction retour pour relire la précédente mais vous découvrirez un projet « ouvert ». On me demande fréquemment si ce que je présente est open ou pas. Ici est parfaitement représenté le concept de l’ouverture par laquelle ce projet s’interconnecte avec des bases de stockage chacune ayant leurs spécificités de performance. Le stream vous apporte le courant, le traditionnel vous apporte l’historique et le window vous donne des photos d’un ensemble de données.

Au regard de nos besoins nous pourrons implémenter tous les modules ou au contraire, pour alléger des apps analytique, avoir la possibilité d’utiliser les seuls modules utiles à votre projet.

Le développement des NoSql est réel et parfaitement utile pour la souplesse de modélisation et la scalabilité. On voit ainsi qu’un query croisant des sources Splunk et MySql n’est pas dénué de sens. Le pouvoir est dans le fait de pouvoir exprimer sa demande dans un langage universel et d’utiliser le meilleur des offres de stockage au regard du type de données.

Je n’ai pas encore testé Calcite qui est en version 1.7 actuellement mais je suis sûr de recroiser le chemin de ce projet. Pentaho Data Integration me permettra de transformer les retours pour répondre à des demandes fonctionnelles et les Inputs seront performant en suivant les conseils de Julian.

See you soon !

100% Cloud guy!

Since 3 months now, I’ve experienced a full Cloud concept.

All my data, personal AND professional are host in the cloud. Sure you can say « Bhaaa nothing special ! » but when i say that,  its mean that my house could burn (cross fingers 😉 or i can crash my business computer, I’m sure I can access to all my data.

It was not a 100% safe story. I remind some morning in the train, just few minutes before a meeting, « oh xxxx, where is my file? »
I’ve tried to use many of major cloud solution: GoogleDrive, OneCloud, Dropbox, Box and HCPAnywhere.

Some of them only replicate your online data anywhere you want but don’t make any upload synchronization. So its why i stop using Box & Drop for this purpose. They just could be used to deliver access to files to your friends. In the same time I use Google only for personal usage. So today I manage all my personal files on Drive.

Where it’s more complex, it’s when I have to define my better tool for business usage. I’m travelling all times and use a full online solution was the not the right answer.

So I’ve tried OneCloud! But in this case you need at the end to create all your docs from Office365, so online. If you try to use your local Office, it will make synchronization for you,….. but when ! Their synchronization tool was not persistent in my case. I’ve some colleague who used full Office365 but in my case it take me sometimes 3 to 5 min to save a file, waiting checking and pseudo synchronization.

hcpAt the end my choice come to ….. Hitachi ! Sure it’s my new holding company but they have a public tool named HCPAnywhere that you can used online. By this way I can really use large local folder and create and update files using any software and be sure that everything is online without to wait long time. At the end you understand it’s my new tool and I can only encourage you to test it.

Pentaho 2015

Au delà de cette invitation au prochain Pentaho World ce mois d’octobre 2015 à Orlando, une envie de vous informer de ce que je considère comme de bonnes nouvelles.

Comme vous pouvez le constater, Pentaho se focalise sur l’analyse des Big Data et de l’analyse embarquée. Ces prochains mois, à travers notre version 5.4 et notre majeure de l’année la v6.0 de cet automne , vous découvrirez une nouvelle génération de concepts.

Comme évoqué sur de nombreux blogs, le Big Data n’est vraiment plus réservé qu’aux grandes entreprises. Très souvent elles transforment cela en un projet d’infrastructure alors que comme tout l’IT l’important est le temps gagné et la simplicité. Oui j’ai bien dit la simplicité!

Aujourd’hui vous prenez du temps à modéliser, et je ne vous dirais pas que ce n’est pas important, mais désormais vous pouvez modéliser autant de fois que vous le souhaitez. Une erreur détectée après quelques semaines? Rien de grave, avec les solutions NoSql, enrichissez votre modèle au rythme de vos besoins. Avec Hadoop régénérer vos outputs à votre envie. Ne vous relancez pas dans un cycle long d’interface de rechargement!

Cet ODS que vous ne respectiez pas toujours est désormais natif à travers les solutions Big Data qui vous offre un Data Lake quasi sans limite, permanent et auto sécurisé.

Alors là oui vous travaillerez main dans la main avec votre administrateur Hadoop de l’équipe Infra pour le convaincre d’ajouter des Nodes. En fait il aura déjà anticipé cette action sans avoir à se préoccuper des projets impactés.

Pentaho vous permet d’utiliser tous ces outils simplement à travers le plus que génial Pentaho Data Integration. Vous le découvrirez bientôt encore plus joli! et encore plus simple à Clusteriser pour dispatcher vos traitements sur différents serveurs ou paralléliser une action massive.Spoon2015

Alors vous serez en mesure avec Analyzer de proposer une interface à vos analystes. Vous pourrez customiser votre console comme autant d’applications souhaitées.
Why not un projet = une console… mais chacun partageant les mêmes Metadata sécurisées si vous le souhaitez.
Bien entendu nos API de plus en plus riches, vous permettent également de positionner vos meilleures analyses directement dans l’application métier de vos utilisateurs facilitant la conduite du changement.

Car changement oui il en a un. Vous le percevez tous dans votre vie quotidienne et l’AppleWatch, que je ne n’adore pas, utilise un concept qui lui a de beaux lendemains. C’est ce que l’on appelle l’internet des objets. Une nouvelle étape qui comme toutes celles que nous vivons en ce moment va se déployer comme une traînée de poudre. C’est pourquoi Hitachi Data System est un excellent choix pour nous. L’infrastructure et le logiciel d’analyse de données. Ce mix permettra à Pentaho de bénéficier d’encore plus de moyens sans renier son ADN open-source.

Car Oui, vu que la liste des invités au jeu de l’analyse de données s’élargie (tous les constructeurs d’objets!) il n’a jamais été aussi important de partager au delà des standards des objets ouverts facilitant les interconnexions.

Ne remettez pas en cause votre architecture BI, optimisez la! Encapsulez-la à l’image du Cloud et des Big Data et comme toujours concentrez-vous sur les datas 😉

Pentaho_HDS_4

Seb @opentoile

Définition de « Big Data »

Vous cherchez la définition de « Big Data » ?

= Toutes vos données

Pentaho a la réponse « All your Data » #PWorld2014

 

 

 

 

——- PETITE HISTOIRE DE L’ANALYSE DES DONNÉES ——–

  • On a commencé par ajouter des codes analytiques dans les ERP comptable
  • On a ajouté derrière de beaux Datawarehouse et des outils de reporting
  • On s’est concentré sur les services ayant de l’argent = La finance
  • On a frustré les autres services
  • On s’est dit on va étendre le périmètre!
    • Ah mince tous les services ne bénéficient pas de code analytiques référencés dans l’ERP!
    • Ah mince ça coûte cher d’étendre le Datawarehouse
  • On nous a dit qu’il y avait des Appliances pour cela
    • Euh en fait on l’a dit qu’aux grosses compagnies car les autres étaient censés ne pas être intéressés ou ne pas avoir le budget adéquat
    • Euh en fait ils ne peuvent traiter que ce qui est déjà dans votre ERP
  • Les spécialistes des réseaux sociaux (Facebook & Co …) n’y trouvaient pas leur compte
  • Ces nouveaux géants ont donc travailler sur des projets OpenSource
  • Ils ont crées ce que l’on nomme aujourd’hui le BIG DATA
  • Les spécialistes de l’analyse de données OpenSource ont été des acteurs privilégiés pour adapter leurs solutions à ces nouveaux éco-systèmes
    • Certains ont focalisés seulement sur le collaboratif, le InMemory, …
    • Mais les besoins des utilisateurs n’ont pas changés, ce qu’ils veulent c’est pouvoir analyser toutes leurs données
  • C’est pourquoi aujourd’hui Pentaho propose le concept de RAFFINERIE DE DONNEES
    • Stockage = Hadoop et/ou NoSql
      • Economique et puissant (ScaleUp / ScaleDown)
      • Un dynamisme OpenSource ultra dynamique laissant les timides à la traine
    • Sélection de vos thématiques de recherche = Pentaho Stream Data Refinery
      • Une véritable interface Web à la « Google » pour identifier vos besoins
      • Un moyen pour tous de rechercher les données qui les interesse
    • Préparation et modélisation de vos données = Pentaho Data Integration
      • Lecture en directe des données utiles depuis Hadoop
      • Stockage en mode décisionnel dans une base analytique de votre choix (Attention je parle de vraie base en colonne et pas d’un énième système propriétaire qui doit pré-calculer ses index magiques)
    • Visualisation de vos données avec Pentaho Analyzer OU directement dans votre application préférée
      • Une interface Web 100%HTML5 utilisable par votre assistante si vraiment vous êtes frileux mais je dirai que l’on est jamais mieux servi que par soi-même (Après tout vous avez bien réussi à vous servir d’Excel!)
      • Vous utilisez majoritairement une application dans votre entreprise?, alors embarquons Pentaho Analyzer directement dans votre applicatioon préférée

 

TOUTES LES DONNÉES pour TOUS LES UTILISATEURS (pas de licence nommée!)