Informatique et Techniques Numériques en Economie
-
TD 5 - OLAP : Exploration multidimensionnelle

<< précédent index suivant >>

Présentation générale

L'objectif de ce TD est de comprendre l'intérêt de OLAP (On Line Analytical Processing) qui est une représentation multi-dimensionnelle d'une base de donnée. Ce second TD porte sur l'exploration multidimenstionnelle proprement dite. Pour cela on utilisera un moteur OLAP open-source Mondrian, et son interface graphique JPivot. Dans un premier temps vous apprendrez à vous servir de l'interface sur une base de données exemple (foodmart). Dans un second temps vous mènerez une étude sur vos propres données, que vous remettrez sous forme de rapport.

Compétences à acquérir au cours du TD

Travail évalué :

Rapport OLAP à rendre sur l'analyse de vos données individuelles : exercice 4.



1- Schéma en étoile

Voici le schéma en étoile de la base foodmart, sur laquelle vous allez travailler. (clickez sur l'image pour la voire à sa taille originale).

Exercice 1

Identifiez sur le schéma les dimensions, les différents types d'attributs, et les mesures.



2- Tour d'horizon de l'interface JPilot

Suivez le lien 'OLAP' sur le portail http://www.up2.FR/M1 et choisissez le lien vers la base 'foodmart' qui correspond au schéma étoile précédent. Vous arrivez alors devant l'interface suivante :

L'exercice suivant vous propose une découverte de cette interface.

Exercice 2

  1. Navigation (bouton-navi-member bouton-navi-position-up bouton-navi-replace) :
    Déroulez la première colonne puis déroulez la seconde. Revenez à la position initiale, changez le mode de navigation et recommencez. Voyez vous la différence ?
  2. Visualisation des données originales (bouton-navi-trough-up) :
    Activez le quatrième bouton de navigation, des flèches vertes apparaissent dans le tableau. Déroulez les deux premières colonnes et choisissez une case avec un nombre de ventes inférieur à 100 (pour éviter de faire surcharger le serveur). Clickez sur la flèche verte, les données originales correspondant à cette case s'affichent.
  3. Affichage du tableau (bouton-level-style-upbouton-hide-spans-upbouton-properties-upbouton-non-empty-upbouton-swap-axes-up) :
    Testez les boutons un par un, c'est souvent la meilleure des écoles.
  4. Affichage du graphique (bouton-chart-up) :
    Ce bouton permet d'afficher le graphique correspondant au tableau que vous avez affiché. Pour choisir le type de graphique et/ou configurer le graphique, il faut clicker sur le bouton d'à côté (bouton-chart-config).
  5. Gestion des dimensions (bouton-cube-up) :
    Ce bouton permet de choisir les dimensions explorées. Lorsque qu'il est clické il affiche la liste des dimensions du cube OLAP. :
    bouton-cube
    Il y a trois sections: une pour les dimensions affichées en colonne, une pour celles affichées en ligne; et une pour les autres, qui peuvent éventuellement servir de filtre (comme c'est le cas ici pour Time).

  6. Enfin, le meilleur pour la fin : vous pouvez imprimer votre travail en pdf avec le bouton bouton-print-up, ou bien l'exporter sous MS-Excel avec le bouton bouton-excel-up. Enfin, oui, bouton-print-config fait bien ce que vous croyez qu'il fait :)


3- Exercices sur la base Foodmart

Voici quelques exemples d'utilisation d'un outil OLAP. A vous de reproduire les graphiques qui permettent de répondre aux questions suivantes:

Exercice 3

  1. Quel est le produit le plus vendu en 1997 ?

    difficulté: choix des dimensions et de la mesure.
    voir la solution
  2. Quel est la répartition des ventes entre les différents type de boisson en 1997 ?

    difficulté: navigation + choix du graphique.
    voir la solution
  3. Y-a-t-il une différence hommes/femmes dans répartition de la consommation entre les différents types de produits ?

    difficulté: tableau croisé.
    voir la solution
  4. Y-a-t-il des variations de consommation saisonnières ? mensuelles ?

    difficulté: tableau croisé + choix graphique.
    voir la solution
    voir la solution
  5. Quelle est la distribution des revenus des consommateurs en Californie (CA) ?

    difficulté: tri dimension + choix mesure + filtrage.
    voir la solution


4- Exploration des données de votre magasin

Si votre cube a été correctement publié sur le serveur Pentaho (c.f. TD4), il vous suffit de suivre le lien "OLAP" sur le portail et vous êtes prêts à travailler sur vos données.

Si votre cube ne vous convient pas, il faut en faire un nouveau. Suivez la même procédure mais donner un nom différent au nouveau cube, par exemple votre-login2 (on ne peut pas écraser l'ancien cube).

N.B. : si vous re-génerez des données, il faut rafraichir le serveur pour qu'elles apparaissent (le serveur Pentaho place les données en cache pour aller plus vite.). Pour cela activer les deux actions du lien suivant, Refresh Mondrian, puis relancez votre analyse.


*** Exercice 4 : à rendre sous forme de rapport

  1. Donnez le schéma relationnel de votre base de donnée.
  2. Proposez un schéma un étoile pour votre base de données.
  3. Générez (et commentez) les graphiques permettant de répondre au mieux aux questions suivantes :
    1. Quelles sont les distributions des caractéristiques des client parmis vos visiteurs ?
    2. Quel est le produit le plus vendu sur votre site ?
    3. Quel est le style de client qui achète le plus sur votre site ?
    4. Quel est la part de chaque produit dans les achats sur votre site ?
    5. Quel est pour chaque produit la répartition des styles de client qui l'achètent ?
  4. Proposez une autre question à laquelle vos nouvelles compétences vous permettent de répondre, et bien sûr donnez la réponse en image.
  5. Expliquez en quelques lignes la différence entre la vision du schéma relationnel et celle du schéma OLAP.