Professional Documents
Culture Documents
Plan
Introduction Les entrepts de donnes Les datamart
Architecture
Modlisation Alimentation Les bases de donnes multidimensionnelles Le march du dcisionnel
Dmonstration
2
Le contexte
Besoin: prise de dcisions stratgiques et tactiques Pourquoi: besoin de ractivit Qui: les dcideurs (non informaticiens) Comment: rpondre aux demandes danalyse des donnes, dgager des informations qualitatives nouvelles
Qui sont mes meilleurs clients? Pourquoi et comment le chiffre daffaire a baiss? A combien slvent mes ventes journalires?
3
Problmatique
Comment rpondre aux demandes des dcideurs? En donnant un accs rapide et simple linformation stratgique En donnant du sens aux donnes
Mettre en place un systme dinformation ddi aux applications dcisionnelles: un data warehouse
Prise de dcision
Bases de production
Data warehouse
Prdiction / simulation
Dterminer et contrler les indicateurs cl de la performance de lentreprise Finance Intelligence Planifier, analyser et diffuser linformation financire. Mesurer et grer les risques Human Capital Management (gestion de la relation avec les employs) Aligner les stratgies RH, les processus et les technologies. Customer Relationship Management (gestion de la relation client) Amliorer la connaissance client, identifier et prvoir la rentabilit client, accroitre lefficacit du marketing client Supplier Relationship Management (gestion de la relation fournisseur) Classifier et valuer lensemble des fournisseurs. Planifier et 9 piloter la stratgie Achat.
Plan
Introduction Les entrepts de donnes Les datamart
Architecture
Modlisation Alimentation Les bases de donnes multidimensionnelles Le march du dcisionnel
Dmonstration
10
Dfinition dun DW
W. H. Inmon (1996):
Le data Warehouse est une collection de donnes orientes sujet, intgres, non volatiles et historises, organises pour le support dun processus daide la dcision
Principe: mettre en place une base de donnes
11
12
h,f
13
Entrepts de donnes
Base de production
Rpertoire
Nom
Dupont Durand
Calendrier
Ville
Paris Lyon
Entrept de donnes
Marseille
SGBD et DW
OLTP: On-Line Transactional Processing Service commercial
BD prod
Service Financier
BD prod
Service livraison
BD prod
Clientle
H I S T O R I Q U E
Data Warehouse
OLAP: On-Line Analitical Processing Clientle
16
OLTP VS DW
OLTP
Orient transaction Orient application Donnes courantes
DW
Orient analyse Orient sujet Donnes historises
Donnes dtailles Donnes volutives Utilisateurs nombreux, administrateurs/oprationnels Temps dexcution: court
Donnes agrges Donnes statiques Utilisateurs peu nombreux, manager Temps dexcution: long
17
Plan
Introduction Les entrepts de donnes Les datamart
Architecture
Modlisation Alimentation Les bases de donnes multidimensionnelles Le march du dcisionnel
Dmonstration
18
Datamart
Sous-ensemble dun entrept de donnes
dune fonction particulire de lentreprise Point de vue spcifique selon des critres mtiers
Datamarts du service Marketing
DW de lentreprise
19
fonction des besoins dun mtier ou dun usage particulier Moins de donnes que DW
20
Plan
Introduction Les entrepts de donnes Les datamart
Architecture
Modlisation Alimentation Les bases de donnes multidimensionnelles Le march du dcisionnel
Dmonstration
21
Architecture gnrale
Zone de prparation
E X T R A C T I O N
Zone de stockage C H A R G E M E N T
Zone de prsentation
Data warehouse
Sources de donnes
Datamart
22
Extraction: multi-source, htrogne Transformation: filtrer, trier, homogniser, nettoyer Chargement: insertion des donnes dans lentrept Mise disposition des donnes pour les utilisateurs finaux
Flux sortant:
23
Plan
Introduction Les entrepts de donnes Les datamart
Architecture
Modlisation Alimentation Les bases de donnes multidimensionnelles Le march du dcisionnel
Dmonstration
25
Modlisation Entit/Association
Avantages: Normalisation: liminer les redondances Prserver la cohrence des donnes Optimisation des transactions Rduction de lespace de stockage Inconvnients pour un utilisateur final: Schma trs/trop complet: Contient des tables/champs inutiles pour lanalyse Pas dinterface graphique capable de rendre utilisable le modle E/A Inadapt pour lanalyse
26
Exemple
Transporteur Mode dexpdition
Contrat
Produit
Commande client Client Magasin Employ Stock Rgion de ventes Division de ventes Famille de produits Groupe de produits
Type de contrat
Fonction
Fournisseurs
27
Modlisation des DW
Nouvelle mthode de conception autour des
concepts mtiers
Ne pas normaliser au maximum Table de faits Table de dimensions Modle en toile Modle en flocon
28
Table de faits
Table principale du modle dimensionnel
tudi selon divers axes danalyse (les dimensions) Table de faits des ventes Cls trangres vers les dimensions Faits Cl date (CE) Cl produit (CE) Cl magasin (CE) Quantit vendue Cot Montant des ventes
29
dimensions
reprsente des instantans dun niveau sur les comptes: on connat ce que nous possdons en banque Non additif: fait non additionnable quelque soit la dimension Prix unitaire: laddition sur nimporte quelle dimension donne 31 un nombre dpourvu de sens
Solde dun compte bancaire: Pas de sens dadditionner sur les dates car cela
table de faits:
Exemple: une ligne de commande par produit, par client et par jour
Finesse
32
Table de dimension
Axe danalyse selon lequel vont tre tudies les donnes
Cl de substitution
Attributs de la dimension
33
34
La dimension Temps
Commune lensemble du
Dimension Temps Cl temps (CP) Jour Mois Trimestre Semestre Anne Num_jour_dans_anne Num_semaine_ds_anne
35
en hirarchie :
Chacun des membres appartient un niveau hirarchique (ou niveau de granularit) particulier Granularit dune dimension : nombre de niveaux hirarchiques Temps :
36
37
Un client peut se marier, avoir des enfants Un produit peut changer de noms ou de formulation: Raider en Twix yaourt la vanille en yaourt saveur vanille Gestion de la situation, 3 solutions: crasement de lancienne valeur Versionnement Valeur dorigine / valeur courante
38
Inconvnients: Perte de la trace des valeurs antrieures des attributs Perte de la cause de lvolution dans les faits mesurs
Cl produit Description du produit Groupe de produits 12345 Intelli-Kids Intelli-Kids Logiciel Jeux ducatifs
40
25963
Avantages:
Voir les donnes rcentes avec lancien attribut Voir les donnes anciennes avec le nouvel attribut
Voir les donnes comme si le changement navait pas eu lieu Inadapt pour suivre plusieurs valeurs dattributs intermdiaires
Inconvnient:
Subit des changements trs frquents (tous les mois) dont on veut prserver lhistorique Solution: isoler les attributs qui changent rapidement
42
lhistorique
43
Cl_client
Modle en toile
Modle en flocon
45
Modle en toile
Une table de fait centrale et des dimensions
Facilit de navigation Nombre de jointures limit Redondance dans les dimensions Toutes les dimensions ne concernent pas les mesures
46
Inconvnients:
Modle en toile
Dimension Temps ID temps anne mois jour
Table de faits Achat ID client ID temps ID magasin ID rgion ID produit Quantit achete Montant des achats
47
Modle en flocon
Une table de fait et des dimensions dcomposes en sous
hirarchies On a un seul niveau hirarchique dans une table de dimension La table de dimension de niveau hirarchique le plus bas est relie la table de fait. On dit quelle a la granularit la plus fine Avantages:
48
Modle en flocon
Dimension Magasin ID magasin description ville surface Dimension Temps ID temps annee mois jour
Dimension Region ID rgion ID division vente pays description . Dimension Division vente ID division vente description .
Table de faits Achat ID client ID temps ID magasin ID rgion ID produit Quantit achete Montant des achats Dimension Client ID client nom prnom adresse
49
Choisir le sujet Choisir la granularit des faits Identifier et adapter les dimensions Choisir les faits Stocker les pr-calculs tablir les tables de dimensions Choisir la dure de la base Suivre les dimensions lentement volutives Dcider des requtes prioritaires, des modes de requtes
50
Plan
Introduction Les entrepts de donnes Les datamart
Architecture
Modlisation Alimentation Les bases de donnes multidimensionnelles Le march du dcisionnel
Dmonstration
51
dans lentrept
52
maintenance Permet de dcouvrir, analyser et extraire les donnes partir de sources htrognes Permet de nettoyer et standardiser les donnes Permet de charger les donnes dans un entrept
53
Extraction
Extraire des donnes des systmes de production
Transformation
Rendre cohrentes les donnes des diffrentes
sources
Transformer, nettoyer, trier, unifier les donnes Exemple: unifier le format des dates (MM/JJ/AA JJ/MM/AA)
55
Chargement
Insrer ou modifier les donnes dans lentrept
Utilisation de connecteurs:
56
57
Plan
Introduction Les entrepts de donnes Les datamart
Architecture
Modlisation Alimentation Les bases de donnes multidimensionnelles Accs linformation
Dmonstration
58
OLTP VS OLAP
Produits Pays
Espagne Allemagne
Produit
PK id_produit Libell
Famille
Achat
PK id_achat FK id_client id_produit
France
client
PK id_client Nom adresse
Quantit
janvier
avril
fvrier
Temps
59
ROLAP
Relational OLAP
Donnes stockes dans une base de donnes relationnelles Un moteur OLAP permet de simuler le comportement dun SGBD multidimensionnel
Mondrian
60
MOLAP
Multi dimensional OLAP: Utiliser un systme multidimensionnel pur qui gre les structures multidimensionnelles natives (les cubes) Accs direct aux donnes dans le cube Plus difficile mettre en place Formats souvent propritaires Conu exclusivement pour lanalyse
61
HOLAP
Hybride OLAP:
tables de faits et tables de dimensions stockes dans SGBD relationnel (donnes de base) donnes agrges stockes dans des cubes
Solution hybride entre MOLAP et ROLAP Bon compromis au niveau cot et performance
62
Le cube
Modlisation multidimensionnelle des donnes
63
05
06
07
05
06
07
64
uf
uf
06 Idf 265
Ain 225 245 240 Viande Idf 163 152 145 Ain 187 174 184
65
uf
Ain 225 245 240 Viande Idf 163 152 145 Ain 187 174 184
66
Obtenir un niveau de granularit suprieur Utilisation de fonctions dagrgation Obtenir un niveau de granularit infrieur Donnes plus dtailles
67
Drill-up, drill-down
Roll up
05 06 07
Roll up
05-07 Fruits 623
Dimension Temps
1S05 2S05 1S06 2S06 1S07 100 121 141 111 120 152 137 139 116 Viande 134
Viande 648
Drill down
Drill down
68
Dimension Produit
Origine: Microsoft
69
MDX, exemple
Fournir les effectifs dune socit pendant les annes 2004
WHERE ([Measures].[Count]) 2004 2005 Heure 3396 4015 Jour 3678 2056
70
Plan
Introduction Les entrepts de donnes Les datamart
Architecture
Modlisation Alimentation Les bases de donnes multidimensionnelles Le march du dcisionnel
Dmonstration
71
Le march du dcisionnel
72
73
Entrept de donnes
MySql Postgresql
OLAP
Reporting
Data Mining
Weka R-Project Xelopes
CloverETL Greenplum/Biz
gres
Intgr
Pentaho (Kettle, Mondrian, JFreeReport, Weka)
SpagoBI
74
Plan
Introduction Les entrepts de donnes Les datamart
Architecture
Modlisation Alimentation Les bases de donnes multidimensionnelles Accs linformation
Dmonstration
75
Exemples
Rapports
Analyse
76
77