Archives pour la catégorie BI

Confidentialité des données, enfin une nouveauté !

Historique

Nous vivons depuis plus de 20 ans avec des applications mobiles autour de nous. Chaque jour nous acceptons lors d’un téléchargement des règlements sans prendre le temps de les lire dans leur intégralité. On préfère profiter des services gratuits qui y sont associés. Si vous inventoriez les apps sur votre mobile, entre celles que vous payées ou non, le 2ème ensemble sera certainement le plus conséquent. On a donc des données personnelles engrangées par ces applications et très souvent revendues ou analysées avec des tiers même si cela est peut-être mentionné dans la petite clause en bas du contrat du téléchargement. Aujourd’hui après des questionnements sur cette situation c’est une loi qui vient régir les conditions d’utilisation de ces données personnelles, la GDPR.

Le changement légal

Il s’avère qu’au-delà des méthodologies et outils qui vont être nécessaires aux sociétés pour respecter cette loi, le fait de gouverner la confidentialité de ces données est une nouveauté. Depuis plusieurs années, et démultiplié ces derniers temps avec le développement du Big Data et le machine learning, l’objectif est d’extraire une valeur d’utilité pour les clients finaux et de rentabilité pour les possédants de la data. Aujourd’hui doit être ajouté des notions de consentements de renoncements et de lisibilité. Ces suppléments d’âmes dans l’analytique importent que l’on doive définir en quoi ces actions sont bénéfiques pour le client. En quoi cette nouvelle valeur va pouvoir améliorer la relation client mais également bien entendu en quoi ces données personnelles sont mises en danger. Etes-vous prêt à expliquer toutes vos stratégies marketing? Non alors bienvenu dans le monde des données confidentielles.

Notre relation avec la confidentialité digitale

On obtient 2 risques majeurs vu du client :

  • On utilise mes données pour des raisons que je ne partage pas
  • On met mes données en péril en les exposant à des tiers voir par négligence dans le domaine publique, la toile !

On tient là une occasion unique de réconcilier les personnes avec l’intelligence artificielle.

Combien de fois avez-vous entendu dans votre entourage des plaintes concernant cette sensation d’être traqué, observé ? L’exemple le plus flagrant est généralement les publicités ciblées. Personnellement je préfère visionner des publicités digitales que manquer un virage par saturation de messages en pleine nature. D’ailleurs ces affichages sont désormais réglementés et on ne peut que s’en réjouir.

Au regard de la confidentialité des données, nos jeunes ont souvent des vues différentes des nôtres. Partageant en permanence des moments de vies privées, affichant fièrement l’appartenance à tel ou tel mouvement de pensée, les moins de 20 ans ne positionnent pas la confidentialité au même niveau que leur parent. Sont-ils drogués des services mobiles et conscient qu’un retour de manivelle est logique ? Non ce sont des consommateurs. Hier on se différenciait par la marque de sa voiture dans le jardin alors qu’aujourd’hui c’est au nombre de « Likes » sur votre profil du dernier réseau social à la mode. Mais ils ont acquis dès leur début digital la multi-identité. Un pseudo et une histoire associé à chaque profil. Il s’agit là d’une gestion de confidentialité.

Ce qui restera sur le web à leur vie adulte ne les importe peu et ils ont raison. Lorsque j’étais étudiant on me sensibilisait sur les photos laissées sur internet qui pourrait s’avérer gênante lors d’un futur recrutement. Aujourd’hui les algorithmes des ressources humaines qualifieraient cela de point bonus reconnaissant ainsi une personne à l’aise avec son image digitale 😉

Ces données sont bien là et même si un mouvement de rejet se fait entendre elles ne vont pas diminuer ni s’amoindrir. Toutefois elles sont aujourd’hui réglementées par différents textes dans différentes parties du globe.

« Data Driven » et « Data Privacy »

Le « Data Driven » ne s’arrêtera pas et ne doit pas s’arrêter car il est source de nombreux services business mais également sociaux. Anticiper un besoin ou un risque permet d’apporter une meilleure prestation au client final et nos comportements montrent que l’on s’y fait très bien.

Maintenant afin de mener un projet d’analyse nous n’avons pas forcément besoin d’une image parfaite et exacte de la réalité. On doit pouvoir regrouper des tendances pour donner de la valeur aux données au-delà de leurs valeurs intrinsèques. J’ai besoin de savoir que si mon client subit tel évènement et a telle caractéristique, j’ai intérêt à lui proposer tel service. Si 2 de mes clients ont le même attribut X, je dois transmettre cette information aux analystes mais la valeur de leur modèle ne sera en rien perturbé si je leur transmets cette information sous la forme « attribut Y » et non X. Bien entendu je dois être en mesure de pousser une valeur Y consistante. Cela signifie qu’à chaque fois que la valeur X se présentera je la traduirais toujours avec la valeur Y.

Aujourd’hui face à la pression juridique on se concentre sur la protection de l’identité des personnes. Les attributs concernés seront donc les noms, adresses, téléphones, … etc… .

Pour toutes ces informations on se contente aujourd’hui trop souvent de ne seulement appliquer des algorithmes de chiffrement. On remplace la valeur d’origine par une méthode de « hashing », le remplacement par une constante ou tout simplement une suppression pure et simple.

Et bien il y a du nouveau !

Tout d’abord en ce qui vous concerne. Finalement votre richesse intérieure n’est peut pas aussi normale que cela. Avec vos goûts, vos habitudes, les lieux géographiques que vous parcourez, je sais peut-être qui vous êtes? J’entends par là à quelle cible je dois envoyer quel message. Vous connaître intimement est bien entendu un autre sujet.

Aujourd’hui il existe des outils proposant une ergonomie adaptée aux rôles métiers « DPO » (Délégué à la Protection des Données) ou « RSSI » (Responsable Sécurité des Systèmes d’Information). Ces acteurs et bien d’autres ont désormais une interface à partager avec les « DSI » (Direction des Systèmes d’Information). Chacun a la possibilité de créer et administrer des stratégies de confidentialité des données prêtes à être exécutées sur des plateformes standard de traitement des données déjà connus et maîtrisées par l’IT, les centres de « compute » (Hadoop, Stream, …).

Bienvenu dans la « Data Privacy ».

Les pseudos-identifiants

Et bien certes si on se contente de démocratiser les outils de chiffrement, on fait un pas, mais un pas insuffisant pour protéger réellement l’identité des personnes. Le risque afférent est celui du croisement des fichiers. Vous me transmettez un fichier dit « confidentiel » mais en croisant son contenu avec d’autres informations que je possède ou auquel j’ai accès, je suis en mesure de découvrir l’identité des personnes contenues dans le fichier soi-disant « confidentiel ».

Vous devez donc désormais être en mesure de gérer les « pseudo-identifiants ».

Il est courant d’indiquer qu’avec votre date de naissance, votre code postal et votre genre, si vous êtes majeur et résident aux USA, un « tracker » peut vous identifier dans 80% des cas. La raison est la disponibilité publique des listes électorales aux USA dans lesquelles le nom-prénom est associé avec les 3 pseudo-identifiants ci-dessus évoqué. Bien entendu cela peut être le cas dans de nombreuses autres situations.

D’un point de vue analytique, ces pseudo-identifiants sont ce que l’on nomme les dimensions d’analyse en BI. Dans un contexte de Data Privacy vous devez donc veiller à ce qu’un enregistrement ne soit pas trop exotique et ne possède pas une combinaison de clefs trop rare.

« Ah mais bien sûr, je le reconnais c’est Jacques il habite là et a exactement ces caractéristiques ! »

Bienvenue dans la « k-anonymity ». Cette règle de protection de la confidentialité assure que pour chaque combinaison de clefs, votre jeu de données contient au moins « k » enregistrements.

Quoi de neuf pour l’analytique ?

Et bien pas de panique les feux sont toujours au vert. Les principaux textes réglementaires indiquent qu’à partir du moment où vous travailler avec des données anonymisées vous n’êtes plus soumis à la réglementation. Même si des interprétations distinctes demeurent quand on parle de « pseudo-anonymisation » (il existe un moyen de re-identifier les données), le « Data Driven » n’est pas remis en cause.

Il reste à être en mesure de rendre les données anonymes et quand le faire ? A l’entrée du Data Lake dans le processus d’ingestion ou seulement lorsque vous faites des extractions vers des tiers ?

Ce domaine reste neuf mais fort de la réglementation on peut être assuré qu’il va évoluer rapidement.

Le Datawahouse était une base distincte ne réalisant aucune action « transactionnelle » avec le client. On s’en servait pour connaitre les données et prendre de bonne décision. Aujourd’hui ce n’est plus le cas et les plateformes analytiques sont couplées avec de véritable processus digitaux commerciaux dénommés « Data Driven ».

Demain on ne recueillera pas le consentement du client en lui expliquant que l’analyse de SES données vont permettre de réaliser des ventes envers lui ou d’autres. On peut en déduire que pour rester innovant on se devra de travailler sur des données pseudo-anonymisées. Cela conduit vers une architecture dans laquelle la confidentialité des données sera gérée à l’entrée des entrepôts analytiques. Mais la privatisation des données a besoin de données propres et qualifiées.

On trouve alors l’équation : 1-DataIngestion + 2-DataQuality = 3-DataPrivacy.

Conclusion

Le Big Data a été et est un mouvement fort. Je reste trop souvent surpris devant le peu de déploiement français en production. Au delà des technologies impliquées les fonctions de digitalisation apportées sont majeures et inévitables. Ceux qui ne prennent pas le virage risquent de se faire accaparer leur marché par de nouveaux acteurs qui collectent et utilisent les données.

Néanmoins il est réconfortant que la Data Privacy rentre dans la danse. Cela apporte de la confiance aux acteurs doutant de la légalité de certains processus. Ces acteurs sont aussi bien des entrepreneurs prudents que des clients/utilisateurs finaux qui ne veulent plus se faire voler la valeur de leurs données. Sans compter que de nombreuses « data-agency » sont de la partie et qu’il est grand temps que vous soyez confiant dans vos échanges car il est fort de constater que les alliances sont courantes dans le mouvement de l’analytique.

Pour cela il existe aujourd’hui des outils performants de « Data Privacy ». Très prochainement ces outils pourront également s’intégrer dans vos outils de reportings « query » et ainsi s’assurer que vos règles de privatisation des données s’appliqueront également en temps réels aux utilisateurs de requêtes.

Bye bye DI & BA?

Hello,

I recently stop working for Pentaho aka Hitachi Vantara. Due to my career it could be surprising as i’ve always talk and be passsionate by analytics. Sure since Hitachi acquired Pentaho, the roadmap change a lot and now it will be more focused on big industry around IoT use cases to increase productivity and implement predictive maintenance mainly.

But at the end i havent leave Pentaho for that. It’s more related to market evolution. Today you can have in front of you 2 types of Big Data customers:
– « Profit focus » customer how expect to use Big Data to not only increase but to shoot up their revenues. Its not easy and not free so they want to see quickly big ROI in new services
– « Technical feature » customer where new technology really allowed to simplify or increase quality services

But in all case, many time Deciders are not enthusiastic that a small team of Data Scientist get access to sensitive datasets. And Machine Learning need details rows to optimize their models. So what’s happen?
Data scientist are difficult to hire so many times you are in front of freelance people or subcontractors or even new data agencies. So if you start a long exchange on « Can we share or not these details? » you get a long Go/NoGo session, and at the end you do only a small pourcentage of your initial requirements.

So what to do?
Avoid analytics? Not possible because in that case somebody else will do and will be the leader in your market.

So it’s why i’m convince we need to help companies to manage data privacy and then allowed them to do Big Analytics.

Today on Data Privacy, if you just applied basic encryption you will get plenties data flows using each one a specific methodology to hide sensitive data. So in that case:
– How to solve consistencies between your datasets?
– How to protect your datasets against linkage attack?
– How to manage all your data privacy from one repository?
Answer is that you need a platform to manage our Data Privacy.

So its exactly why i move to Privitar and expect to meet you again to help you doing analytics serenely using any type of data.

 

logoPrivitar

SQL is not dead ! Welcome streaming SQL

calcite

Quel plaisir de lire ce slide deck de Julian Hide, manager du projet Apache Calcite. Il réalise une présentation technico-fonctionnelle de notre aisance à penser SQL tout en pouvant interagir avec toutes les nouvelles formes de stockage. attention on est bien ici dans du query-réponse type base de données. Mais ce projet prend également en compte les usages sur les critères de période analysée ou la structure de la réponse qui doit être appropriée pour pouvoir facilement alimenter des graphiques ou encore conserver les fonctions de l’analyse multi-dimensionnelle. N’oublions pas que Julian est le responsable de Mondrian, le meilleur outil ROLAP.

Toutes les slides ne sont pas aisées et vous utiliserez quelques fois la fonction retour pour relire la précédente mais vous découvrirez un projet « ouvert ». On me demande fréquemment si ce que je présente est open ou pas. Ici est parfaitement représenté le concept de l’ouverture par laquelle ce projet s’interconnecte avec des bases de stockage chacune ayant leurs spécificités de performance. Le stream vous apporte le courant, le traditionnel vous apporte l’historique et le window vous donne des photos d’un ensemble de données.

Au regard de nos besoins nous pourrons implémenter tous les modules ou au contraire, pour alléger des apps analytique, avoir la possibilité d’utiliser les seuls modules utiles à votre projet.

Le développement des NoSql est réel et parfaitement utile pour la souplesse de modélisation et la scalabilité. On voit ainsi qu’un query croisant des sources Splunk et MySql n’est pas dénué de sens. Le pouvoir est dans le fait de pouvoir exprimer sa demande dans un langage universel et d’utiliser le meilleur des offres de stockage au regard du type de données.

Je n’ai pas encore testé Calcite qui est en version 1.7 actuellement mais je suis sûr de recroiser le chemin de ce projet. Pentaho Data Integration me permettra de transformer les retours pour répondre à des demandes fonctionnelles et les Inputs seront performant en suivant les conseils de Julian.

See you soon !

Pentaho v6 – DataPipeline

Il y a qq temps Je l’avais annoncé pour fin 2014, ce sera le 14 octobre 2015.

Si vous ouvrez la console de Pentaho v6, de premier abord vous ne verrez pas de grand changement par rapport à la v5. Sur la console c’est Analyzer qui évolue et permet désormais d’ajouter des calculs non plus seulement dans votre analyse mais directement dans le Metadata pour le partager avec vos collègues. CreatemeasureAutre astuce notoire est le fait de pouvoir gérer dans les rôles le droit de créer des Metadata avec le Datasource Wizard sans nécessairement être administrateur.Createnewsource

 

Bon ça c’est pour le toilettage. Parlons du Pipeline de data. Il y a 3 ans on s’interrogeait si nos bases DWH avaient de l’avenir avec le développement des Clusters Hadoop. Le marché répond clairement que ce n’est plus une nécessité. De notre DWH ont généraient des Datamart. Désormais le concept est de générer des Datamarts directement depuis votre Datalake Hadoop.

Datalake remplace votre Staging Area
Datamart à la demande remplace vos Datamarts issus de votre DWH

Toutefois si vous avez déjà un DWH l’objet n’est pas de le supprimer et il restera utile pour les données Corporate à mettre à disposition de vos plus grands consommateurs de données. Tachez néanmoins de valider qu’il peut se mettre à jour en NearRealTime.

Pipeline

Le Data Pipeline est quant à lui une vraie innovation dans le monde Analytique des Big Data. Il s’agit de pouvoir croiser tout type de données, traditionnelles ou Big Data et de les mettre à disposition de vos users en mode gouvernance des données (Qui peut voir Quoi).

Techniquement Pentaho vous propose 2 solutions :
Data As A Service = Clic droit sur une étape de votre Transformation PDI et création d’un « Data Services ». Aller ensuite sur votre Console Utilisateur et définissez une source de données en sélectionnant l’option « Pentaho Data Services ». Vous organisez les données et définissez des formats par défaut si vous le souhaitez et vous êtes prêt à utiliser Analyzer sur votre source de données PDI !!!Datservicespdi

Streamline Data Refinery = Vous construisez un formulaire « Dashboard » et proposez ainsi à vos users de choisir quelles données ils souhaitent. Vos interfaces PDI préparées en amont de manière générique pour chaque source seront ainsi combinées automatiquement et un Datamart sera créé sur votre base analytique. Côté utilisateur il sera alerté de la fin du processus et pourra immédiatement naviguer dans son Datamart via Analyzer !
SDR

 

Lorsque vos keysusers auront identifiés les flux utiles, il ne vous restera plus qu’à rentrer en mode projet entreprise. Toute la phase d’intégration pourra alors s’effectuée en utilisant les performances de votre cluster Hadoop qu’il s’agisse de transformation Big Data ou pas ! (si vous n’avez pas de cluster Hadoop vous pouvez bien entendu définir un cluster PDI pour paralléliser vos traitements).
Vous avez ainsi la possibilité de certifier à votre entreprise que le traitement restera opérationnel dans un temps de traitement maîtrisé en ajoutant si besoin des Nodes à votre cluster.

Ajouter à cela les algorithmes préparés par vos DataScientist en utilisant Pentaho Weka et PDI pourra vous aider à générer de l’alerting dans des contextes de maintenance prédictive ou encore vous aider à identifier les jeux de données devant retenir votre attention en priorité au regard de vos objectifs métiers.

Voici donc un aperçu du concept Data Pipeline que vous pouvez mettre en œuvre sur la base de la plateforme analytique Pentaho.

Streamline Data Refinery

Dans un environnement Big Data la réplication des données peut être lourde de conséquence. Aussi il est nécessaire de pouvoir exploiter les données directement depuis leurs sources et de produire des solutions d’analyses à vos « clients ».

Le concept de « Streamline Data Refinery » de Pentaho répond à ces besoins. Nous vous proposons en effet de préparer à l’avance des interfaces pouvant accéder facilement à telle ou telle information représentant un indicateur ou des axes d’analyses innovants.

SDR

L’utilisateur pourra ainsi sélectionner librement à travers un formulaire les informations qu’ils souhaitent analyser ponctuellement. Celles-ci seront combinées ensemble par la génération d’un schéma d’analyse Mondrian, et automatiquement publiées sur l’écran de l’utilisateur à travers notre outil Ad’Hoc Pentaho Analyzer.

On parle donc bien là de proposer à l’utilisateur de générer un cuble Olap d’analyse à la demande! 

Bien entendu les données proposées peuvent avoir plusieurs sources distinctes (DWH, Fichiers HDFS, NoSql, …) .

Data Lake on demand

Dashboard MongoDB & Pentaho

Vous avez succombé aux charmes de MongoDB ?
Vous aimeriez bien visualiser vos données aisément ?

Voici un exemple de Dashboard réalisé en 20min sans compter la création des collections Mongo
MAIS SANS DEPLACER LES DONNEES
Tout s’affiche directement depuis votre base magique = MongoDB+Pentaho!

MongoTweetDash

 

 

I’m on the Map !

Le point indiquant Marseille
représente mes tweets signés
opentoile 😉

 

Définition de « Big Data »

Vous cherchez la définition de « Big Data » ?

= Toutes vos données

Pentaho a la réponse « All your Data » #PWorld2014

 

 

 

 

——- PETITE HISTOIRE DE L’ANALYSE DES DONNÉES ——–

  • On a commencé par ajouter des codes analytiques dans les ERP comptable
  • On a ajouté derrière de beaux Datawarehouse et des outils de reporting
  • On s’est concentré sur les services ayant de l’argent = La finance
  • On a frustré les autres services
  • On s’est dit on va étendre le périmètre!
    • Ah mince tous les services ne bénéficient pas de code analytiques référencés dans l’ERP!
    • Ah mince ça coûte cher d’étendre le Datawarehouse
  • On nous a dit qu’il y avait des Appliances pour cela
    • Euh en fait on l’a dit qu’aux grosses compagnies car les autres étaient censés ne pas être intéressés ou ne pas avoir le budget adéquat
    • Euh en fait ils ne peuvent traiter que ce qui est déjà dans votre ERP
  • Les spécialistes des réseaux sociaux (Facebook & Co …) n’y trouvaient pas leur compte
  • Ces nouveaux géants ont donc travailler sur des projets OpenSource
  • Ils ont crées ce que l’on nomme aujourd’hui le BIG DATA
  • Les spécialistes de l’analyse de données OpenSource ont été des acteurs privilégiés pour adapter leurs solutions à ces nouveaux éco-systèmes
    • Certains ont focalisés seulement sur le collaboratif, le InMemory, …
    • Mais les besoins des utilisateurs n’ont pas changés, ce qu’ils veulent c’est pouvoir analyser toutes leurs données
  • C’est pourquoi aujourd’hui Pentaho propose le concept de RAFFINERIE DE DONNEES
    • Stockage = Hadoop et/ou NoSql
      • Economique et puissant (ScaleUp / ScaleDown)
      • Un dynamisme OpenSource ultra dynamique laissant les timides à la traine
    • Sélection de vos thématiques de recherche = Pentaho Stream Data Refinery
      • Une véritable interface Web à la « Google » pour identifier vos besoins
      • Un moyen pour tous de rechercher les données qui les interesse
    • Préparation et modélisation de vos données = Pentaho Data Integration
      • Lecture en directe des données utiles depuis Hadoop
      • Stockage en mode décisionnel dans une base analytique de votre choix (Attention je parle de vraie base en colonne et pas d’un énième système propriétaire qui doit pré-calculer ses index magiques)
    • Visualisation de vos données avec Pentaho Analyzer OU directement dans votre application préférée
      • Une interface Web 100%HTML5 utilisable par votre assistante si vraiment vous êtes frileux mais je dirai que l’on est jamais mieux servi que par soi-même (Après tout vous avez bien réussi à vous servir d’Excel!)
      • Vous utilisez majoritairement une application dans votre entreprise?, alors embarquons Pentaho Analyzer directement dans votre applicatioon préférée

 

TOUTES LES DONNÉES pour TOUS LES UTILISATEURS (pas de licence nommée!)