Tableau MC2
La Science des Données recouvre deux parties distinctes: la gestion des données et l'analyse de données pour connaitre par exemple la répartition des ventes par région dans un système d'Information, et l'analyse de flux de données dans un réseau social comme source d'information et pour mieux connaitre ses clients.
Les données se trouvent sur le cloud dans les deux cas. Dans le premier cas, on a une base données qui évolue dans le temps. Dans le deuxième cas, on a des flux de données.
- Séance 1: Introduction à la science des Données. Le monde classique et le monde des Mégadonnées (les 4 Vs: Volume, Velocity, Veracity, Variety). Le monde classique. Schéma relationnel et schéma Olap en Bases de données (Mysql et Jpivot), requêtes OLAP: voir https://up2.fr/M1 pour les outils et fichiers. Visualisation des requêtes Olap en Piechart multidimensionnels et interprétation des résultats. Bases de Données NoSQL (XML et key-value). Un compte Mysql/Jpivot est fourni à chaque étudiant.
Polycopié du monde classique
- Séance 2: Réseaux sociaux. Analyse Twitter sur des mots clés (Gephi). Voir http://www.up2.fr (Flux Twitter) pour la méthode à suivre pour avoir un compte "développeur" sur Twitter et configurer Twitter avec les bons modules. Taille du graphe, distribution des degrés, distribution des Pageranks, composantes connexes, modules. Visualisation avec spatialisation et communautés. Challenge: corréler plusieurs sources de données (streaming et datawarehouse).
Polycopié Mégadonnées
- Séance 3: Prédictions dans les deux mondes. Prévoir le comportement d'un client, dans le monde classique. Arbres de décision et Régressions logistiques. Systèmes de recommandation dans les Bigdata. Profiler les clients à partir de flux.
Compléments: le livre Networks, Crowds and Markets de Kleinberg: http://www.cs.cornell.edu/home/kleinber/networks-book/
Référence cours Mining Massive Data Sets,
Livre Mining Massive Data Sets.
What is bigdata ?
- Evaluation 2021-22 par projet:
- Analyse de données. Spécifier le schéma relationnel associé à MonMagasin.sql (ou tout autre exemple), le schéma OLAP. Copier Monmagasin.sql et le coller dans une fenêtre SQL de PhpMyadmin. Copier le schéma OLAP s3.xml et le placer dans le Schema Uploader.Donner des exemples de requêtes OLAP et des résultats sous forme de Piecharts.
- Flux de données. Saisir un flux Twitter, puis analyser le graphe (distribution de degrés, composantes connexes, modules). Analyse des composantes géantes lors de plusieurs saisies.
- Rendre un fichier .pdf
- Date limite: 24 décembre 2021
- Evaluation par Quizz:
- Qu'est ce qu'un schéma E-R (Entités-Relations)?
- Qu'est ce qu'un schéma Relationnel?
- Qu'est ce que SQL ? Jointure, dépendance fonctionnelle?
- Qu'est ce qu'un schéma OLAP?
- Qu'est ce qu'une requête OLAP?
- Comment prédire et classifier? Modèles principaux: Arbres de décision, Régression logistique, Réseaux de Neurones.
- Système de recommandation: principes.
- Qu'est ce qu'un réseau social?
- Qu'est ce qu'un graphe aléatoire? Une composante géante?
- Qu'est ce qu'un Reservoir sampling?
- Qu'est ce qu'un profil sur un réseau social?
- Comment utiliser les réseaux sociaux pour le Marketing?
Objectifs :
acquérir les connaissances fondamentales en système d’information et data science : Bases de données et Flux de données
prédiction à partir des données (Data Mining, Apprentissage)
Descriptif du module. Les systèmes d’information décrivent des données dans des tableaux. Un Schéma relationnel décrit la structure de ses tables et le langage SQL permet la création de schémas et de requêtes. L’analyse de données permet d’avoir des représentations graphiques selon des dimensions d’analyse. On utilise MySql comme environnement de Bases de données et Jpivot comme environnement d’analyse de requêtes OLAP: voir https://up2.fr/M1 pour les outils et les fichiers, à partir d’un compte personnalisé.
Les flux de données, comme la liste de tweets de Twitter sur un sujet précis sont des nouvelles sources de données dans le cadre des réseaux sociaux. On utilise Gephi pour visulaliser les graphes sociaux que l’on peut ainsi observer. Suivre http://www.up2.fr puis Flux Twitter pour ouvrir un compte développeur.
La prédiction pour les bases de données cherche à connaître des données non explicites et permet de faire des recommandations aux usagers. Pour les flux de données, on peut prédire des valeurs économiques (valeurs boursières, cryptomonnaies) à partir des communautés des graphes. Les deux types de sources d’information sont complémentaires pour affiner les prédictions.