Une présentation des big data pour des terminales option ISN : trame, activité et projections

Voici un cours de 2 heures que j’ai assuré pour des terminales sur les données. C’est juste une présentation globale et pas une formation à proprement parlé. Je ne suis de toute façon pas satisfait du déroulement, en partie à cause du dispositif mis en place : pas assez d’activité, pas assez de temps, une salle pas commode pour travailler etc. et en partie car j’ai raté mon animation. C’est très facile d’intéresser des élèves avec certains services très spectaculaires, encore faut-il arriver à s’appuyer sur cet intérêt pour montrer les enjeux. Et ça je n’y suis pas arrivé !

Ce qui suit est plutôt à prendre comme un work in progress, un document de collecte sur le sujet des données. J’y insère des points de vues et des références et des pistes d’évolution possibles du cours ainsi que des ressources utiles à travailler. Le tout s’appuie sur une formation effective. C’est ici le travail en amont de la formation ainsi que le déroulé de cette formation

la formation

J’ai d’abord lancé worldometers en arrière plan et je m’en sers comme fil directeur afin de montrer l’évolution de la population en temps réel. L’intérêt de ce service est de montrer un algorithme simple, de montrer l’intérêt d’une visualisation de données et de montrer l’aspect temps réel de la mise à jours. On pourrait aussi proposer wikipedia recent changes map ou la visualisation des hottrends de google.

wm

wrc

gtrend

L’objectif du cours est de découvrir ce qui se cache derrière les données et derrière le buzz d’expression comme « big data » et « opendata ». Les élèves ne connaissent pas ces notions en général. Je propose donc un trend google sur les expressions suivantes afin d’entrer de plein pied dans la visualisation de données.

J’en viens enfin à présenter les questions que l’on va aborder dans le cadre du cours.

  • Qu’est-ce qu’une donnée et qu’est-ce qu’une base de données ?
  • Interfacer et corréler les données entre elles pour apporter une plus value dans un service monnayable ?
  • Prédire et faire surgir de nouvelles vérités
  • D’où viennent les données ? Les producteurs ?
  • Big data et internet des objets
  • Le rôle de la visualisation des données par des cartographies, des infographies, des gabarits, des graphes ou des histoires…
  • Données objectivées / données personnelles et les enjeux entre d’une part l’efficacité de nouveaux services face au besoin de contrôle de nos données personnelles
  • L’émergence de nouveaux métiers et la transformation d’un existant : l’exemple de la médecine et des smarts cities

Il s’agit de brosser un portrait de l’existant et là encore j’ai pas été au bout de ma présentation.

Quelques services visuels créés à partir de l’interfaçage de base de données

Je laisse ensuite les élèves manipuler des services en ligne qui s’appuie sur des bases de données interfaçées (je ne sais pas si le terme est juste, c’est celui que j’ai employé).

Visualisation sur 5 postes en patate chaude de 5 services qui utilisent des données : 15 min / 3min par service

La journée type d’un lycéen : création d’une base de données

J’ai ensuite proposé un exercice : créer une base de données de la journée type d’un lycéen. Il s’agit de montrer comment on peut construire une base de données à partir de descriptions très particulières :

Ecrire,  entre une demi page et une page, la journée type d’un lycéen de terminale. Le texte commence par « je me lève… »

A partir de ce texte, on va construire la base de données « une journée type… » Il s’agit dans un premier temps de définir les champs sous forme de colonnes.

Après avoir fait au tableau les deux premiers, et d’avoir choisi ensemble les intitulés, les élèves, par groupe de 5 vont travailler 10 minutes sur l’ensemble des champs puis retour à l’oral.

Apports sur les notions de champs, de variables et d’enregistrements ; sur les notions de données structurées ; sur la notion de machine readable.

On va ensuite afficher le texte d’un élève au tableau avant la base de données et en faire le premier enregistrement puis on va produire une gabarit en sortie et voir comment on passe de la base de données à l’affichage.

Cet exercice est intéressant je pense mais il aurait fallu mieux l’exploiter. Probablement en passant par du travail de groupe.

Créer une telle base de données permet de montrer que tout est engrammable et que la base de données est au coeur du web. A la suite de l’exercice j’ai montré, via un phpmyadmin, les tables de ce blog. Un autre exercice qui aurait été intéressant mais que je n’ai pas fait : faire travailler les élèves à partir de leur page facebook sur les bases de données à l’oeuvre. Faire une ébauche, à partir du gabarit, des bases de données nécessaires.

On pourrait alors reprendre le premier exercice et faire dessiner (crayon + papier) un gabarit à paraitre en html d’une page visualisant les enregistrements de la base de données « journée type du lycéen ». On pourrait ainsi travailler sur l’architecture d’une page internet et le rapport qu’il y a entre la base de données et la visualisation des données. Retour de la profondeur contre l’a-plat de la page.

Sur l’exportation de données : extension du cours

Avec le phpmyadmin, on peut aussi montrer l’exportation des données (ce que je n’ai pas fait) et travailler sur l’exportation des données. Il s’agirait alors d’aller prendre un jeu de données de l’insee afin de l’importer dans une feuille excel, et de travailler ensuite sur la visualisation.

A l’issue de cet exercice, on pourrait être plus ambitieux et proposer un véritable exercice, avec navicrawler et gephi tel que proposé par Franck Ghitalla lors de la formation URFIST Rennes2 que j’ai suivie en 2009. Il faudrait bien sûr un peu plus de 2 heures mais c’est une piste d’évolution possible. Le diaporama qui suit peut permettre de trouver des entrées possible pour ce travail.

 Des données vers les services : le travail des données

copier coller pris d’une page dont j’ai perdue la ref. Si vous passez par là, merci de me le dire si vous la connaissez

  1. acquérir, extraire, capter, collecter, intégrer, agréger
  2. transformer, convertir, nettoyer, (et munging et wrangling en anglais, une activité nouvelle, semi-automatique, qui consiste à traiter les données (par exemple les trier) pour les rendre plus facilement exploitables dans les étapes suivantes)
  3. raffiner, géocoder, ajouter des descriptions et des métadonnées, contextualiser
  4. préparer, sérialiser, indexer, classer, anonymiser, protéger
  5. comprendre, interpréter, apprendre sur, analyser, vérifier la pertinence
  6. présenter, visualiser, rapporter, partager
  7. post-traiter, rafraîchir, archiver, détruire

Qu’est-ce qu’un algorithme ?

Il s’est agit ensuite pour moi d’aborder la question de l ‘algorithme, c’est à dire le traitement entre la base de données et la requête d’un usager. Voici ce que j’ai proposé :

Un algorithme, c’est :

si….

Alors…

Sinon…

A titre d’exercice, je les fait travailler sur l’algorithme de la recette des crèpes

http://sweetrandomscience.blogspot.fr/2014/01/quest-ce-quun-algorithme-explication.html

Ensuite on va travailler sur les algorithmes très connu que sont le pagerank et le edgerang. Je n’ai pas travaillé cette partie mais elle mériterait très clairement d’être développé. Voici ce qu’il faudrait travailler :

Quelques rappels :

  • 1% du web est navigué
  • le moteur google indexe 10% du web et le reste est au dessous (analogie de l’iceberg)
  • google dit qu’il indexe 1000 milliards de page (pas de référence de cette affirmation)
  • google c’est 218 services, soit potentiellement au moins 216 bases de données
  • le vrai métier de google et Facebook, monétiser la donnée

Comment la base de données est constituées ? Les données sont donc d’abord produites par les usagers avant d’être indexé :

Comment google peut suggérer une recherche ?

  • – la base des requêtes
  • – l’historique de connexion
  • – l’interconnexion des bases

Nous sommes alors dans la base de données des intentions. Google sait ce que nous voulons et à partir de là, il est capable de prédire l’avenir : les requêtes google sur la grippe

A partir de là, on peut aussi voir la personnalisation à l’oeuvre. 5j’ai fait cet exercice mais il n’a pas fonctionné. A revoir.

recherche avec google et startpage : “données en directe du monde”

http://www.worldometers.info/fr/ au premier rang sur google, pas sur startpage (ça avait marché en préparation mais sur un autre poste, au vidéo ça n’a pas fonctionné, ce qui peut se concevoir).

même base, serp différents – l’importance du compte et de l’historique → personnalisation des résultats

Comment est construit l’algorithme de worlddometer ?

et Facebook : le EDGERANK

et Amazon, comment fait-il pour nous proposer des livres à lire ?

D’où viennent les données ? L’existant

Outre ces grandes bases de données évoquées ici, d’où proviennent les données. Voici quelques réservoirs de données présentés de manière arbitraire. Chaque partie qui suit pourrait faire l’objet d’un travail spécifique.

De grands sites institutionnels

Des particuliers à faible moyen

Des collectifs citoyens

Le mouvement open data

Enrichie par la foule (crowdsourcing)

Le marché des applications géolocalisées en temps réels

Le tourisme est dans le top cinq de l’utilisation des applications sur mobile.

Selon GFK Mobile Insights l’usage des applications sur téléphonie mobile, en Grande Bretagne, aurait dépassé l’utilisation des sites internet.

  • La réservation aérienne et la carte d’embarquement
  • Les comparateurs
  • La réservation ferroviaire
  • La réservation hôtelière, voitures ou taxis privés
  • Les guides de voyages
  • La recherche de restaurants ou de lieux touristiques
  • Les plans
  • Le taux de change

D’où viennent les données ? La capture des données

Voici un diaporama qui pourrait être mieux amené. Dans tous les cas, je pense qu’il y a là un travail à faire avec les TPE et la deuxième phase après la problématisation, à savoir la collecte des données. On pourrait tout à fait travailler sur les modes de recueils des données existants et montrer ensuite tout l’internet des objets. Il ne s’agit ici que d’une ébauche.

Etude de cas : Les données de la SNCF

Exploration du site de la SNCF (10 minutes)

rappel sur l’open data

  • Les données
  • Les API
  • La licence
  • Le logiciel corto de la société spallian

http://ressources.data.sncf.com/explore/

Ce que permet le logiciel spallian pour l’analyse des données sncf

Il faudrait monter ici un questionnaire découverte afin de travailler à la fois sur la notion d’API et aussi sur le droit et notamment la licence.

Interfaçer

L’interfaçage, c’est l’ouverture d’une base de données au moyen des API

“Application Programming Interface. Interface de programmation permettant d’accéder à une application ou à un programme. Des jeux de données peuvent être rendus accessibles ainsi, soit par téléchargement (pour les jeux de données raisonnablement stables dans le temps) soit par API (pour les jeux de données très volumineux ou très volatiles).”
http://www.data-publica.com/content/lexique-de-lopen-data/

Licence ouverte

Dans le cadre de la politique du Gouvernement en faveur de l’ouverture des données publiques (« Open Data »), Etalab a conçu la « Licence Ouverte / Open Licence ». Cette licence, élaborée en concertation avec l’ensemble des acteurs concernés, facilite et encourage la réutilisation des données publiques mises à disposition gratuitement. Depuis novembre 2011, la « Licence Ouverte / Open Licence » s’applique à l’ensemble des réutilisations libres gratuites de données publiques issues des administrations de l’Etat et de ses établissements publics administratifs, à l’exclusion de tout autre licence.

http://wiki.data.gouv.fr/wiki/Licence_Ouverte_/_Open_Licence

Corréler

Corréler signifie mettre en relation deux jeux de données et en tirer des informations invisibles autrement.
par exemple : Predpol

Santa Cruz, en Californie, août 2012. Il est 12 h 30. Un policier arpente une rue tranquille qu’il n’a pas l’habitude de surveiller. Quelques minutes plus tard, il arrêtera deux hommes en flagrant délit : ils tentaient de voler un véhicule. Quelques mois auparavant, deux de ses collègues qui « planquaient » aux abords d’un parking du centre-ville avaient interpellé deux femmes qui cherchaient à forcer la portière d’un véhicule. Dans les deux cas, les policiers n’étaient pas là par hasard. Ils se doutaient qu’un délit allait être commis à cet endroit précis et ce jour-là.

http://www.lemonde.fr/ameriques/article/2013/01/04/le-logiciel-qui-predit-les-delits_1812195_3222.html

Par exemple : Catch

Le projet CATCH par exemple propose de coupler génétique et analyse passive des comportements des patients atteints de diabète de type 2. En plus des informations médicales classiques sur les patients, une équipe pluridisciplinaire recueille quotidiennement en routine la localisation GPS, les données transmises par leur téléphone, des questionnaires sur leurs habitudes de vie, etc. Une mine d’informations sensibles au-delà des domaines classiques d’investigation, tirée du comportement des individus dans leur vie de tous les jours (living labs). –

Voici comment la banque pourrait corréler plusieurs bases de données différentes

Il ne se passe pas une journée (ou presque) sans qu’un client ne soit en contact avec sa banque, ne serait-ce que via ses paiements par carte. Un acte qui, s’il est analysé, permet par exemple à celle-là de s’apercevoir que tel client se rend moins souvent que de coutume au restaurant et fréquente davantage des magasins à bas prix. Ce qui peut laisser penser qu’il va au-devant de difficultés financières. Une intuition qui peut être corroborée par le décryptage de données externes, comme ses états d’âme sur Facebook ou Twitter.
Le big data, c’est-à-dire l’analyse de ces monceaux de données provenant non seulement des systèmes d’informations des banques, mais également des réseaux sociaux, des forums de discussions sur Internet, etc., permet d’établir des profils de clients beaucoup plus précis qu’à l’aide de « simples » statistiques. Si bien que la banque est alors en mesure de proposer à son client un produit véritablement adapté à sa problématique actuelle.

http://www.latribune.fr/entreprises-finance/banques-finance/industrie-financiere/20130403trib000757303/vos-traces-numeriques-interessent-diablement-les-banquiers.html

Enjeux

Fin de la causalité (cause conséquence) et mise en avant d’un monde ou domine la corrélation, sans comprendre pourquoi ni comment ? Débat actuel à relativiser cependant car très contextuel. Qu’en sera-t-il dans 5 ans ?

Les trois V des big data

Aujourdhui, les big datas

infopollution/infobésité…

buzzword : marketting et accomodation conceptuelle

Volume des données recensées

  • – augmentation des producteurs d’informations (les usagers qui fréquentent des bases de données)
  • – augmentation et diversification des usages
  • – augmentation des variables
  • – génération de données par les machines
  • – croissance des historiques de données
  • – traçage
  • – puissance de calcul
  • – hétérogénéité des données – structurées / non structurées
  • – hétérognéité des sources

vitesse

  • – temps réel / temps continu
  • – mise à jour en temps réel
  • – temps de réponse du service (détection de carte bancaire fausse)

variété

  • – données numériques
  • – données textuelles : fouille de texte et statistique lexicale
  • – analyse de son / analyse d’image  reconnaissance d’image / reconnaissance faciale

Besoins de techniques statistiques

text mining, webmining, datamining (fouille de données), analyse de logweb (metadonnées de connexion)

travaillé à partir de http://www.sites.univ-rennes2.fr/webtv/appel_film.php?lienFilm=814

Il faudrait travailler ici avec un logiciel comme tropes afin de permettre de faire des comptages de mots sur des corpus de textes. A voir aussi tout le travail sur le traitement automatique du langage chez jean veronis par exemple et son travail sur le lexique des discours de campagne des présidentiables 2012.

La donnée, l’or noir du 21e siècle

Voici quatre exemples d’utilisation des données personnelles. Vous vous connectez sur votre profil gmail, sur votre profil facebook et sur votre profil twitter et vous allez pouvoir voir comment sont analysés vos profils. Les deux premières applications sont basées sur le principe de l’analyse mathématique des réseaux.

  • visualiser votre réseau gmail – avec qui êtes-vous le plus en contact – les propriétés des réseaux (distributivité – intensité) – un travail à réaliser à partir du travail de Pierre Mercklé sur la sociologie des réseaux – https://immersion.media.mit.edu/viz

que peut-on savoir à partir de ça ? On peut parler ici du Gaydar ? D’autres exemples à trouver de corrélation avec les données personnelles.

De nouveaux services en ville : à propos de l’innovation permis par la libération des données

Exemple de création de services à partir de données ouvertes : le vélib à Paris

Open data des transports parisiens à partir du velib

http://blog.velib.paris.fr/blog/2013/05/03/avis-aux-developpeurs-les-donnees-velib-sont-ouvertes/

https://developer.jcdecaux.com/#/home

résultat du concours moovinthecity

http://moovinthecity.fr/

http://www.ratp.fr/fr/ratp/r_93409/open-data-resultats-du-concours-moov-in-the-city/

système de partage de parcours des vélib

http://www.comeetie.fr/projects.php?

Exemple de création de services : Laval

> 1er prix « meilleure idée »

    ESIEA Ouest pour le projet « Eco Citizen 53 »  : il s’agit de signaler par photo ou par sms les « déchèteries sauvages », identifier la déchèterie la plus proche et ses caractéristiques (horaires, types d’encombrants…) et permettre un retour des actions menées auprès du Conseil général

http://ecocitizen53.free.fr/

> 1er  prix « meilleure application »

    ENSAM – Arts et Métiers Paris Tech pour le projet « Rallye Laval »  : c’est un « serious game » pour découvrir une ville via ses sites touristiques (photos) et ses administrations (accès bases de données en open data) en résolvant des énigmes. Il s’agit d’être un touriste intelligent et curieux. L’application proposée a été réalisée sur la ville de Laval.

> 1er  prix « conduite de projet »

    Institut Informatique Appliquée – Chambre de commerce et d’industrie de la Mayenne pour le projet « Your sport »  : il s’agit de proposer ou rechercher des partenaires pour réaliser un événement sportif à partir du recensement des équipements sportifs dans le département.

> 2ème  prix « meilleure idée »

    Institut Informatique Appliquée – Chambre de commerce et d’industrie de la Mayenne pour le projet « Bouge à Mayenne »  : il s’agit de donner des informations sur les événements et de les géo-localiser avec la possibilité d’enrichir les données par l’utilisateur et de proposer d’autres événements via cette application. L’expérience a été menée sur la ville de Mayenne.

> 2ème  prix « meilleure application »

    Institut Informatique Appliquée – Chambre de commerce et d’industrie de la Mayenne pour le projet « Trail Buddy 53 »  : cette application doit permettre d’estimer le temps de parcours sur le chemin de halage et comparer pendant/après avec le temps réalisé quelque soit le mode de déplacement choisi (piéton, cheval et vélo).

http://www.lamayenne.fr/fr/Actualites/Des-etudiants-proposent-des-applications-a-partir-de-donnees-departementales

Pour aller plus loin

Des services innovants en ville : innov city

Exercice : Les services liés à la santé et au vieillissement /

possible aussi avec les services touristiques

Faites une recherche d’actualité et proposez en commentaires des services actuels (avec le lien de la page trouvée et une présentation rapide du service, qui visent à améliorer la santé et le vieillissement des personnes

Exercice : corrélez des bases de données et proposez un service utile au lycée

Par groupe de 5, vous allez proposer un service qui s’appuie sur plusieurs bases de données (toutes ou parties)

  • la base de données des identités des élèves de l’Immac
  • la base de données des résultats scolaires des élèves et toutes les informations liées au livret scolaire de l’élève
  • la base de données de suivi de la vie scolaire
  • la base de données de la journée type d’un lycéen
  • votre smartphone connecté avec gps et wifi
  • une carte interactive avec représentation des salles, en couche supplémentaire sur un google map

Infographie et datajournalisme : visualisez la donnée

Datajournalisme

Carte figurative des pertes successives en hommes de l’armée française dans la campagne de Russie 1812-1813 par Minard – cc wikipedia

Trois objectifs

  • – rendre visible l’invisible et recouper les données pour faire surgir des informations inaccessibles autrement (aspect informationnel) – cf les déportations d’enfants juifs
  • – rendre accessible immédiatement (aspect cognitif) – codage de l’information (rôle des émotions – double codage) / image et texte / immédiat vs temps / s’inscrire dans les pratiques médiatiques des usagers
  • – raconter une histoire (aspect communicationnel) – attirer l’attention dune cible désigné (le lectorat du journal), jouer sur l’émotion pour faire passer l’information, jouer sur l’aspect wahooo

Quelques exemples

L’actualité dans le monde

la blogosphère politique en 2009

La politicosphère du monde

3/ le datajournalisme se base sur l’investigation et la méthode

Ce nouvelle forme de journalisme est l’occasion de renouer avec l’investigation, et de s’éloigner du bâtonnage de dépêches.

Pour exemple, Doig revient sur l’enquête sur l’ouragan Andrew, qui s’est faite en plusieurs étapes, parmi lesquelles :

> la récupération de la liste des maisons qui avaient été endommagées
> la récupération des données concernant l’impôt foncier
> la recherche d’une correspondance entre les deux bases (année de construction, dimension, localisation)
> l’accès à la base de données des inspections de la construction des bâtiments, qui a montré que certains jours un inspecteur pouvait valider jusqu’à 70 toitures.

http://atelier.rfi.fr/profiles/blogs/datajournalisme-vers-un-journalisme-d-excel-lence

La data-newsroom du guardian – http://www.theguardian.com/news/datablog

L’affaire Snowden : un exemple de traitement sur le washington post
http://apps.washingtonpost.com/g/page/national/how-the-nsa-is-tracking-people-right-now/634/

Cartographier pour donner du sens

La carte pour représenter : carte sensible

http://www.ufunk.net/insolite/map-of-the-internet-2013/
carte sensible des principaux services en ligne sur internet par l’artiste Martin Vargic

Cartographier des processus

http://rue89.nouvelobs.com/2014/02/23/surprises-carte-monde-selon-les-connections-a-internet-250180
Les surprises de la carte du monde selon les connexions internet

Cartographier des réseaux

blogo2009

la blogosphère politique en 2009

Infographies

http://www-958.ibm.com/software/data/cognos/manyeyes/

http://www.martingrandjean.ch/tag/infographie/?page=1

 Pour conclure, objectivité des données et de leur exploitation

 données/information/connaissance/savoir

objet/sujet différent de objectif/subjectif

1. mais en amont il y a les faits, les actions – une donnée est donc aussi un construit

pose la question de la structuration : qui fait les champs ?

2. et en amont pose la question des choix liés au code : doris lessing code is law. Celui qui code met dans le code une idée du monde

3. pose la question du design de la bdd et du jeu des données et pose aussi la question du nettoyage des données – comment prendre un jeu de données et le réintingrer dans une nouvelle base de données ? Cf. La question des formats : csv, xml

cf. data.gouv.fr

4. pose aussi la question du design de la visibilité et de la mise en scène des données

Et pour conclure, deux questions :

5. en amont, quelles sont les intentions de celui qui structure les données et qu’elles sont les moyens qu’ils se donnent pour faire la collecte des données, selon quelles méthodologies

cf. http://reflets.info/linkfluence-les-experts-du-web-13-0-et-de-lextremisme/

6. En aval quelles sont les intentions de celui qui rend visible les données

<maj dec 2014> Ajout de références à traiter

http://cadderep.hypotheses.org/94

http://www.agence-nationale-recherche.fr/informations/actualites/detail/vie-privee-et-reseaux-sociaux-le-projet-espri-analyse-l-influence-de-facebook-sur-le-recrutement

http://www.vincentabry.com/voici-tout-ce-que-facebook-sait-sur-vous-38367

http://alireailleurs.tumblr.com/post/104746716734/comment-les-capteurs-qui-mesurent-le-stress

http://www.decitre.fr/ebooks/algorithmes-notions-de-base-9782100702909_9782100702909_9.html#ae85

http://rue89.nouvelobs.com/2014/08/30/grace-a-donnees-peut-tout-savoir-voyez-meme-254336

http://www.atlantico.fr/decryptage/nouvelle-alerte-big-brother-new-york-fait-retirer-centaines-beacons-caches-dans-cabines-telephoniques-christophe-benavent-1801042.html#OziggutzQIyzetAe.99

http://rue89.nouvelobs.com/2014/08/11/open-data-democratie-reponse-dhenri-verdier-m-data-gouvernement-254156

<maj>

Bibliographie non sélective

Le wiki du gouvernement sur l’opendata

L’école des données

Un symbaloo (favoris sur l’open data) mis à jour et un google drive qui recense les services accessibles

La carte  des collectivitésd engagée dans une démarche opendata

un article sur une remise en cause argumentée d’une démarche de visualisation des données

Les big data, une révolution numérique

le blog d’Henri Verdier

Sur la quantified self

sur les infographies, un magazine russe et aussi many eyes

des exercices de datajournalisme et une méthodologie pour collecter des données sur Wikipédia : l’exemple des salles du culte musulman à Paris

Quelques articles, ici et là, La datafication du monde, comment les big data sauveront nos vies, comment la NSA a collecté nos données cellulaires

www.pdf24.org    Envoyer l'article en PDF   

Laisser un commentaire