Introduction aux Mégadonnées
- Données à l'échelle d'un réseau: soit accessible par un système de fichiers, soit comme un flux
- Les 4 V:
- Vo = Volume
- Ve = Velocity
- Va = Variety
- Ver = Veracity
- Exemples:
- Texte: les données du Web, Wikipedia, Media
- Video: Youtube, Netflix, TV numérique
- Réseaux sociaux: Facebook, Twitter
- IoT: Internet of things
- Les données venant d'appareils de mesure (téléscopes, médecine, transports,....)
- Analyses:
- Prédire, classifier des données:
- Analyser des flux de données
- Valeur Economique
- Recommander des achats (Amazon, Netflix)
- Segmenter les clients d'une marque ou d'un service
- Exemple simple: x et y sont deux mots binaires de taille 109 et bruités 0.1% d'erreur (Volume et Véracité). Comment calculer la distance de Hamming?
- Comprendre "Pr [ dist < c ] > 0.9"
- erreur et confiance
- Las-Vegas et Monte-Carlo
- Projets
- Python (Anaconda et éditeur "Sublime text"), R et Gephi
- Un compte Twitter
- Utiliser des programmes Python pour accéder à des gros flux de données
- Méthodes probabilistes d'analyse
- Corrélation entre plusieurs flux