ROLAP sans modèle en étoile!

ROLAP sans modèle en étoile avec #Pentaho et #MongoDB

Bq_ixrdCUAEKwMo

 

Vos Collections transactionnelles dans MongoDB vont pouvoir générer une nouvelle collection MongoDB toujours.
Vous repositionnez logiquement vos Items en starmodel et le tour est joué!

Une base distribuée pour vos transactions et votre BI.
Plus de limite d’espace,
Plus de limite de query,
Et un outil graphique pour « designer » et « visualiser »…avec Pentaho

Rester un Dinosaure ou bougez!

Dinosaurs Have Had Their Day

 

dinosaur

 

 

 

 

 

 

 

 

Ils étaient forts et ne sont plus là. L’analogie nous transpose dans les changements actuels de l’analytique. Le volume ne fait pas tout mais lorsqu’on l’aborde de face et que l’on ne se laisse plus impressioner, les technologies disponibles nous permettent d’en profiter grandement.

Lisez le blog de Richard Daley.

wp.me/pQMj7-14T via @Pentaho

Data intégration & Big Data: Interview with CISCO

La semaine dernière, j’ai eu l’occasion avec Eric Debray de chez Cisco France de présenter comment l’ETL Pentaho Data Integration peut jouer un rôle majeur dans vos projets Big Data.

Pentaho-hadoop-summit-223x300

En effet il n’est pas évident de penser ETL lorsqu’on se lance dans des développements MapReduce sur Hadoop. Et pourtant pour les non « puriste » développeur Java il s’avère très utile de pouvoir développer graphiquement comme on le fait pour une alimentation de DWH. Certes certains pense que justement on a plus besoin de DWH et donc plus besoin d’ETL mais c’est un peu précoce comme raisonnement. En effet si vous avez déjà un existant BI vous allez en effet plus facilement pouvoir choisir ce que vous mettrez dans votre DWH ou ce que vous laisserez sur vos File System HDFS. C’est le concept que l’on nomme « Optimisation DWH ».

 

Or Hadoop s’accompagne d’un ensemble de plusieurs composants. Alors PDI pourra jouer le rôle d’ordonnanceur pour orchestrer tous les traitements. Vous souhaitez plutôt utiliser Sqoop que le connecteur Hive de Pentaho? Pas de souçis et si vous avez un groupe de tables volumineuses vous avez parfaitement raison. Mais en pilotant depuis PDI votre chargement Sqoop vous aurez tout dans le même traitement.

 

 

 

Donc en résumé les avantages ETL Pentaho avec Hadoop:

  • Visual MapReduce  =  Développer graphiquement et sans erreur de code vos traitements MapReduce qui s’exécuteront bien nativement dans votre cluster Hadoop
  • Orchestration de vos process Hadoop  =  du chargement au MR jusqu’au chargement de vos éventuels entrepôts cibles, tout en un
  • Big Data Layer  =  Vous utilisez le Hadoop d’Apache et envisager peut être de passer prochainement sur MapR, Horton, Cloudera, … Pas de souçis tous vos développements seront opérationnels immédiatement sur votre nouveau cluster sans redéveloppement ou recompilation. Nous sommes agnostiques de la plateforme et compte tenu que nous ne générons pas de codes exécutables avec PDI, pas besoin de livrer sur votre cluster voire tous les nodes vos exécutables

Vous pouvez désormais vous reposer en visualisant l’interview:

CiscoInterview

 

Voici également le blog complet d’Eric:  gblogs.cisco.com/fr-datacenter/…

A+

Pentaho Data Science Pack

Toute la présentation en Francais sur:
pentaho.fr/press-room/rel…

DataSciencePack

 

 

 

 

 

 

C’est quoi?

Dorénavant et plus encore avec la future version 5.1, Pentaho offrira du support sur l’utilisation de Weka et R dans ses solutions.

Pour de l’analytique on couvre donc:

  • Analyse Descriptive = Que se passe-t-il?

    Visualisations(Graph.Diag.)
    PDI-R(Statistiques)
    Weka Explorer(Corrélations)

  • AnalysePrédictive = Que va-t-il probablement se passer?

    PDI-R 
    (Plugin R disposnible dans PDI pour exécuter vos scripts R sur les données de vos flux)
    Weka Scoring (Vous établissez vos algorithmes avec Weka et vous pouvez utiliser le Plugin PDI pour scorer les données de vos flux)
    Weka Forecasting (Vous établissez vos algorithmes avec Weka et vous pouvez utiliser le Plugin PDI pour propager les valeurs futures sur la base des données de vos flux)
  • Analyse Prescriptive = Parmis les choix offerts, quel est le meilleur?

    PDI-R (Simulations et optimisations)

Alors?
Ben cela signifie que vous n’avez plus besoin d’acquérir des solutions onéreuses pour faire du Datamining et que les scripts R qui prennent actuellement le leadership se trouve en bonne compagnie dans PDI!

A+