Open Data, une formation Urfist Rennes : enjeux en formation à une culture de l’information

La formation Open Data est au catalogue de formation de l‘URFIST Rennes. Elle a été proposée et animée par Valérie Peugeot, présidente de VECAM, chercheuse à l’Orange Labs (s’ils ont un site internet propre, je ne l’ai pas trouvé) et membre du tout nouveau conseil national du numérique.

Ce qui suit est ma compréhension de son exposé et non le reflet fidèle de ses propos. C’est aussi mes propres questionnement en rapport avec mon métier d’enseignant documentaliste.

Avant de voir le déroulé de la formation, voici en un schéma, ce que je retire des enjeux liés à la libération des données en terme de formation à une culture de l’information et qui sera l’objet de ma propre conclusion de cet article.

schemaformation

Les enjeux autour de la libéralisation des données

Elle commence son exposé par l’historique de la notion d’open data qu’elle fait remonter aux Lumières inscrivant donc l’ensemble du mouvement dans un projet politique conscient qui vise à augmenter la citoyenneté et la démocratie. Ensuite elle va aborder les enjeux de l’open data sous l’angle technologique, juridique et économique.

Au niveau technologique, il s’agit d’aborder les questions des formats (ouvert vs fermé – standard de fait), des métadonnées (et donc du web sémantique) et des taxonomies (besoin de faire correspondre des données identiques sous des appellations différentes et d’arriver à mettre en relation des données identiques catégorisées dans des espaces différents). C’est tout le problème du langage. Pour que les base de données puissent communiquer il faut qu’elles aient un langage identique (quasiment impossible) ou qu’elles aient des procédures permettant de traduire les données d’une base vers une autre. Les données doivent devenir  « machine readable ».

A mon sens, cette notion de « machine readable » est intéressante à noter. Aujourd’hui les enjeux sont bien au niveau de la structuration des données et plus seulement de l’information. On est donc ici à un niveau infra-web. Jusqu’à présent, le « machine readable » s’exprimait, au niveau de l’information,  dans ce que l’on appelle l’écriture web couplée au référencement. On écrivait pour les machines, les moteurs de recherche.

Aujourd’hui, il faut aussi penser en terme de base de données et donc de structure des base de données. Quels sont les champs que l’on défini, que l’on partage globalement pour que les bases de données puissent communiquer entre elles le plus fluidement possible.

Quelles sont aussi les outils de relation que l’on met en oeuvre pour faciliter cette fluidité des communications entre base de données. Les enjeux politiques et citoyens sont désormais probablement ici. Dans la définition des champs et des modes de traduction que l’on met en oeuvre. D’un point de vue de la formation, question mise en avant dans les questions finales, la formation initiale doit embrasser ces questions de données structurées et non structurées, de base de données, de relations entre les bases, de formats de données… L’enjeu d’une formation à l’information est aussi là.

Au niveau juridique elle aborde les questions liées au régime juridique des données ouvertes. elle parle alors de la licence ODBL. Elle va parler aussi du choix français de la licence ouverte pour l’ouverture des données administratives de l’Etat. Cette dernière permet une diffusion plus simple de l’usage des données mais ne permet pas que l’Open Data se soit virale au contraire de la première licence. Là aussi les enjeux politiques sont clairs. Le ticket d’entrée de la licence ouverte est beaucoup plus faible de la licence open database (ODBL). Il s’agit juste de préserver la paternité des données au premier niveau d’utilisation. Ce qui n’empêchera pas l’utilisateur des données de se les approprier (au sens premier de rendre propriétaire). L’ODBL est plus contraignante.

Enfin la dernière question est celle des modèles économiques. Comment gagner de l’argent avec l’utilisation des données et qui doit gagner de l’argent ? Ce qui pose la question de la vente des données par l’Etat et in fine de son rôle. Est-il un acteur économique en concurrence  avec d’autres acteurs ou doit-il mettre en place les conditions les plus optimales possibles pour que les différents acteurs économiques et sociaux puissent évoluer sereinement ? Poser la question, c’est déjà donner la réponse. L’Etat doit impulser, il n’a pas à être un marchand.

Les trois angles d’attaques qu’a proposés l’intervenante entre tout à fait en cohérence avec ma perception des enjeux de formations. Outre le niveau technique, je crois qu’il faut aussi axer nos formations sur l’environnement juridique et économique.  C’est en ce sens que j’ai monté la formation en seconde sur les traces (bien imparfaitement car je n’ai que 8 heures). Parler du concept de trace pose aussi la question de la frontière entre ces deux concepts et des angles d’attaques auxquels ils réfèrent.

Les usages autour des services créés

Clairement donc, l’open data est d’abord un enjeu d’augmentation de la démocratie qui a trois aspects fondamentaux, 3 déclinaisons : technique, économique et juridique qui sont pour moi trois aspects forts de la formation à une culture de l’information. Désormais, l’intervenante va considérer l’aval de cette ouverture : les usages permis et les acteurs bénéficiaires de cette libéralisation des données publiques.

Clairement, pour elle, le premier bénéficiaire est l’administration. La mise en relation des base de données administratives permet aux administrations une visibilité de l’action qu’elles n’ont pas auparavant. C’est clairement un outillage transversale dans des structures fortement hiérarchiques (domaine de savoir, domaines fonctionnels, périmètres des pouvoirs…)

Autres acteurs, les entreprises. Et là, clairement, elles ne s’en emparent pas (ou peu). Parmi celles qui les utilisent il faut distinguer B to B et B to C. Dans le premier cas, il s’agit des entreprises qui se posent en intermédiaire entre le producteur d’information et les besoins des entreprises utilisatrices. Elles sont là pour nettoyer les données, les mettre en forme afin de proposer une utilisation fluide aux à leurs clients.

Dans le second cas, on va trouver des entreprises qui vont se créer ex nihilo autour d’un usage de ces données et vont donc proposer un service où l’utilisation des données publiques est centrale. Ces acteurs doivent alors trouver un modèle économique viable. On sait qu’ily en a deux principaux dans les métiers du web qui peuvent se combiner : la publicité et le premium.

On va trouver aussi des entreprises dont l’open data n’est qu’une ressource dans un ensemble plus vaste et non le coeur de métier comme dans l’exemple précédent.

La question des modèles économiques renvoie au degré d’ouverture des données. Que vend-on ? Que rend-on gratuit ? Etant entendu la distinction fondamentale entre libre et gratuit ! A quelles conditions éthiques, financières… ouvrent-on les données (éthique) ?

A ce niveau, Valérie Peugeot va élargir son propos autour de ce que l’on appelle aujourd’hui les big data. Les administrations ne sont qu’une des sources possibles de données. Il faut aussi penser aux données privés des entreprises et des associations, mais aussi les données personnelles qu’il convient d’anonymiser pour les rendre exploitable et aussi toutes les données issues de l’internet des objets (tous les capteurs, caméras, outils de communication, quantified myself…) qui existent ou vont apparaître et qui vont enregistrer tous nos faits et gestes.

Elle nous met aussi en garde également sur l’usage de ce qu’elle appelle les buzzwords (les mots à la mode) qui sont à la fois des métaphores puissantes produits par des acteurs économiques en vue d’obtenir des financements (instrumentalisation du discours) mais qui ont également un potentiel d’auto-réalisation d’idéaux humains.  Le big data est clairement un mot à la mode aujourd’hui, mais est-ce pour autant un enjeu ? Là encore, l’intervenante revient à l’intervention politique contre tout discours.

Le dernier acteur enfin à qui peut profiter cette libération des données est le citoyen. Je rajoute le terme de consommateur par rapport à son propos. La notion est présente avec le concept qu’elle développe de VRM : vendors relationship management, par référence au CRM, qui permet d’inverser la relation et de donner aux consommateurs des outils permettant de comparer.

Cependant, il me semble que la notion de consommateur reste inféodée au terme de citoyen. Je pense personnellement qu’il s’agit aujourd’hui de termes équivalents et concurrents (même si politiquement, je voudrais croire le contraire). Les conséquences de cette affirmation sont dans le domaine éducatifs, le besoin de promouvoir une éducation à la consommation comme on a une éducation civique, juridique et sociale. Parler d’éducation, ici est en soi aussi polémique et renvoie à la politique globale.

L’intérêt pour les citoyens est aussi de passer outre le discours marketting et de leur donner des outils permettant d’analyser en connaissance de causes les discours politiques et commerciaux tenus à son intention. Comme le dit alors l’intervenante, c’est pouvoir passer de la consommation d’information (TF1/M6/BFM pour faire simple) à la construction critique du sens. C’est donc donner des outils de comparaison entre les arguments produits par le discours et les besoins de chacun (et non plus les discours en relations avec les différents biais).

C’est aussi augmenter la capacité d’intervention du citoyen. Pouvoir comparer lui permet aussi d’interpeller les pouvoirs publics en s’appuyant sur des faits. Le travail sur les données permet de construire la preuve, concept qui m’intéresse particulièrement.

Nous sommes donc bien dans le « rendre le citoyen capable d’agir » que les anglo-saxon traduisent par empowerment. Ce concept est très intéressant car il vise à la fois le niveau individuel (VRM), mais aussi le niveau collectif (communautaire ?) et le politique (le faire société). Cette notion est toujours à redéfinir selon celui qui l’emploie et le point de vue qu’il défend : libéral, social libéral et radical.

Enjeux en formation

Rendre les gens capable d’agir en utilisant les données ainsi libérées posent ainsi la question du besoin de médiateurs. Médiateur entre les données brutes et retraitées, médiateur entre les élèves et leurs usages, médiateurs entre les services et les usagers etc.

Cela pose aussi la question du design des données, c’est à dire de leur lisibilité ce qui renvoie à une mise en scène, donc à une écriture et donc à des intentions. Un graphique n’est jamais neutre et le simple fait de choisir un camembert plutôt que des colonnes est en soi un choix. Nous retrouvons ici les problématiques liées à la source et à l’auteur. En terme de formation il s’agit donc d’interroger à la fois les sources de la production de données (transformation en champs), les intentions liés la production d’un service et à la mise en scène des données afin d’assurer leur lisibilité et enfin la réception autour de la notion d’usager et celle de lecteur.

Valérie Peugeot conclue son intervention par cette phrase : la donnée est toujours une construction sociale. Affirmer cela, c’est à mon sens remettre en cause le postulat de la neutralité de la donnée et son objectivation. On distingue généralement 4 formes on a la donnée (objectivable), l’information (subjectivité), la connaissance (subjectivité) et le savoir (objectivable).  A partir du moment où la donnée est produite, il faut s’intéresser aux conditions de sa production et donc aux acteurs qui traduisent les faits en données et ceux qui définissent les champs de la base de données.

L’intervenante pose en postulat final, ce qui a fait l’essence de son intervention : le besoin de politique. Ce besoin prend la forme du primat accordé à la participation sur la consommation de services. Ce qui pose aussi la question de l’engagement social et de la participation dans une société de la rétribution (Stengler). Et pour elle se pose alors également la question de la formation à la rétribution (stengler – niveau des processus), mais pour aller plus loin la formation à cette société de la rétribution (niveau politique). Libérer les données c’est soit renforcer la consommation par la création de nouveaux besoins de consommation, soit prendre en main la production effective dans une optique de réponse à des besoins sociaux dont le critère principal est alors l’utilité sociale. A cette condition, le citoyen ré-inféode alors le consommateur et la mise sur le même niveau que je faisais plus haut entre citoyen et consommateur tombe.

 

Schéma simplifié de l’identité numérique

Je viens de réaliser un schéma sur l’identité numérique avec comme objectif d’expliquer le concept à des néophytes (en fait des enseignants). Je ne vais pas le présenter tel quel mais je vais le construire sur un tableau afin de ne pas dérouter par les partis-pris iconographiques.

L’identité numérique se construit dans une relation tri-partite. Il est important dans un premier temps de l’inscrire dans la relation. C’est le triangle qui va permettre de mettre en perspective le processus de personnalisation et son objectivation dans l’identité, qui est toujours une représentation.

Tripartite : nous avons donc un « je » que je représente par le regard de profil, en bas à gauche de celui qui voit. Nous avons aussi une plateforme qui est au sommet du triangle, représenté par un oeil tout puissant. L’analogie avec la divinité est voulue. La plateforme sait tout, vois tout, peut tout. Enfin le troisième acteur de cette relation est l’autre représenté par le regard cubiste de la femme se peignant de Picasso. Ce que je veux montrer, c’est que l’autre, et donc moi pour l’autre, sont des constructions, des approximations issus d’échanges interpersonnels ou collectifs.

Sur la relation moi/plateforme, on peut noter deux flèches qui se répondent. La première c’est le désir que je projète sur la plateforme : désir de communiquer, désir grégaire, désir d’efficacité etc. Et sur la flèche descendante, c’est le plaisir que j’en retire de la production de contenu ou de l’utilisation des outils. Chacune de ces deux flèches est doublée par le modèle économique sous jacent : gratuité des outils contre données personnelles.

Sur la relation Moi/autre, c’est classiquement le processus de communication interpersonnel qui permet d’affirmer : « je connais et je reconnais »et « je suis connu et reconnu ».

A ce processus de communication interpersonnelle s’ajoute un processus de communication à destination d’une communauté égo-centrée choisie. Je rentre alors dans une relation médiatique à destination d’une audience.

Ce qui est au coeur, c’est ce grand « C » pour contenu que j’échange et que je partage, que je mixe et transforme. Ce contenu est un objet d’échange dans une transaction dans laquelle passe de l’identité mais aussi de l’apprentissage.

Aux alentours, les grands « T » renvoie à la notion de traces que l’on pourrait voir comme des unités élémentaires d’interactions. Lesquelles sont des traces techniques (clic, défilement…) ou de communication (un status, une image).

Ce qui importe alors, c’est l’agrégation de ces traces qui vont construire un profil. Que l’agrégation soit le fait d’un processus de social engeeniring, d’un moteur de recherche, d’une reconstruction, d’une négociation ou d’un projet affirmé du « je ».

L’ensemble est inclus dans ce rond qui est celui de la plateforme, à la fois espace, dispositif de communication, agora et dans laquelle public et privé s’interpénètre. Ce rond est un espace englobant, totalisant et fermé qui vise à rendre captif ces usagers.

Il faudrait alors envisager ce schéma dans un schéma plus vaste constitué d’autant de bulle que de plateforme avec quelques bulles de dimension mondiale et aux intentions hégémoniques.

 

L’identité côté interactions usagers/plateformes (Travailleurs du savoir, saison 3.)

J’ai refondu complètement la première partie de l’activité sur l’identité numérique autour de trois thèmes : l’identité côté interactions usager/plateforme, l’identité côté interactions humaines médiées et l’identité dans l’identité numérique. Voici la première partie

Cette première partie concerne le système d’identité, qui reprend une partie du travail fait en seconde cette année. En introduction de ce système d’identité, on va le différencier du système d’identification que connaissent les étudiants dit AAA (accounting, authentification, authorization). Le premier est donc une entrée juridique alors que le second est une entrée technique. Mais les deux visent à collecter et conserver des traces personnelles.

Ensuite, on leur demande à l’oral trois exemples à traiter à partir de trois documents d’identité : la carte vitale, la carte bancaire, un profil de réseau social. Il s’agit d’identifier pour chacun le registre, le tiers de confiance et de quelle confiance il s’agit dans chaque cas, ls documents d’identité qui peuvent en être extrait, les identifiants possibles, et enfin les droits et les devoirs associés.

Il s’agit ensuite de voir l’inscription des traces d’identification dans le système d’information. On termine par l’exercice de la CNIL, un exercice sur le graph facebook, et une visualisation des cookies grace à un addons firefox, collusion.

Deux histoires concluent cette partie, celle de la perte des données AOL de 2007 et celle de la collaboration avec la police de Blackberry lors des émeutes de Londres à l’été 2011.

On parle ensuite de la géolocalisation, à partir de deux autres histoires, une récente sur les journalistes assassinés en Syrie, peut être à cause de leur portable et une ancienne avec la volonté thaillandaise de 2007 de tracer les malades du SIDA avec une puce rfid implantée sous la peau. Une dernière possible, que je n’ai pas joué, c’est la géolocalisation du déplacement du député vert Mark Spitz. Voir l’article intéressant sur le sujet chez netdeclic.

J’aborde ensuite la question de la certification d’identité avec l’entrée par les comptes multiples et l’obligation d’avoir, à terme, un SSO (single sign on) qui sera soit contrôlé par l’usager avec openid, soit contrôlé par un Etat comme myid.is ou le site des impôts, soit par les grands opérateurs du web comme facebook ou google qui visent à imposer de l’identité certifiée par eux dans chaque action que nous ferons sur le web, et sans notre contrôle.

Je conclus par un changement du contrat initial du web2.0 avec le passage au social. On est passé d’un contrat qui prévoyait à chacun de pourvoir produire du contenu (user generated content) contre une exposition de soi bornée par sa seule communication à un contrat beaucoup plus ambigü, celui de l’efficacité des outils de production et de récréation contre l’efficacité du tracking côté plateforme.

Système d’information élargi

Je viens de terminer un schéma (image cliquable) qui va être au coeur d’une formation d’une heure que je vais faire avec les IUT SRC de Laval sur les usages du web pour le travailleur du savoir. Je reprends la logique, la trame et quelques outils de l’année dernière, même si au final tout risque de changer.

Ce schéma sera au coeur de la deuxième séance d’une heure. Il est encore susceptible d’évoluer. Il présente une organisation comme une sédimentation de 6 couches d’information : celle du système d’information restreint, celle du système d’identité, celle du réseau social, celle des interfaces, celle des pratiques et enfin celle de l’action collective.

Une organisation, cela peut être une entreprise bien sûre mais aussi une association, une administration, une organisation non gouvernementale, une école… Il s’agit soit d’un tout, soit d’une partie d’un tout. Une organisation peut être un service, un site internet… Elle est visible dans l’espace physique ou dans l’espace numérique. Une plateforme est une organisation ou l’excroissance d’une organisation.

Il s’agit de voir une organisation comme un système d’information qui a plusieurs couches.

La première couche est ce que l’on entend classiquement quand on parle de système d’information, à savoir l’ensemble des objets informatiques (serveurs, ordinateurs, câblages etc.), de méthodes et outils de sécurité des données, de bases de données dont l’objectif est de structurer une organisation en proposant des ressources, des outils d’organisation, de production et de communication. L’ensemble constitue les services offert par l’organisation pour la réalisation de ses objectifs.

La seconde strate est constitué par le système d’identité qui comprend historiquement tout ce qui concerne l’accès au service dit AAA pour authentification, accounting, authorization. Au coeur de ce processus l’annuaire LDAP qui permet d’identifier l’usage du service (authentification), d’avoir son compte dans lequel sont indiqués des données personnelles utiles à l’organisation (son salaire par exemple) et non communicables à des tiers (accounting) et enfin de gérer les niveaux d’implication de l’usager avec le système d’information, qu’il s’agisse des logiciels qu’il peut utiliser, des bases de données (ou des parties ou des champs) auquel il peut accéder et des degrés d’interaction (autohorization).

A ce processus, il faut ajouter l’identification multiple sur plusieurs services en même temps. Du point de vue usager, cela peut être rapidement très contraignant d’où la logique du single sign on (SSO) qui permet avec un identifiant unique de se connecter à l’ensemble des services nécessaires. Ce SSO trouve son pendant en ligne avec la logique de l’OPEN ID qui nécessite un tiers de confiance pour certifier auprès des services l’identité de celui qui l’utilise. Cette logique OPEN ID est violemment concurrencé par la logique hégémonique et totalisante (pour ne pas dire totalitaire) des mastodontes du web comme Google (google connect) facebook (facebook connect), twitter etc.

Avec l’arrivée des réseaux sociaux, le système d’identité classique se double d’informations profilaires étendues qui vont plus loin que la description administrative d’un individu (la carte d’identité) ou professionnelle (le CV) et qui peuvent faire appel à des informations relevant habituellement de la sphère privé et correspondant probablement à la réification des premières conversations :  quel est ton nom ? D’où viens-tu (géographie, entreprise, histoire professionnelle ou familiale…) ? Qu’est-ce que tu fais ici ? Qu’est-ce que tu aime dans la vie ? qui permette d’avoir à grands traits le profil d’un individu que l’on doit côtoyer.

La troisième strate, c’est le réseau social, c’est à dire l’ensemble des liens qui relient les différents agents de l’organisation. Il s’agit d’abord de liens informels avant que d’être formalisable dans un réseau social numérique. Les théories classiques sur les réseaux sociaux s’appliquent ici comme le petit monde, l’homophilie, le fonctionnement en cercle social, la puissance des hubs, c’est à dire ceux qui mettent en relation (tryades), l’intensité des relations, la symétrie ou son absence, la réciprocité ou non…

Bien sur la réification sur des plateformes sociales vise à rendre visible ce graphe social pour pouvoir l’instrumentaliser dans un cadre éthique à construire.

La quatrième couche concerne les usages des outils comme interface de mise en relation. Il s’agit alors d’évoquer ici l’ergonomie et la qualité des interfaces ainsi que les formatages qu’elles induisent en terme de communication. Ce que l’on recherche au premier abord, c’est des usages intuitifs qui ne nécessite pas un gros investissement (temps, ressources, énergie) pour s’approprier l’outil. Se faisant, et c’est particulièrement le cas avec les réseaux sociaux, on assiste à une instrumentalisation de pratiques sociales comme la recommandation, le réseautage, la reconnaissance, l’empathie, le positionnement social etc. Enfin la forme prise pour communiquer structure et contraint la communication. Soit qu’il s’agisse de la part fonctionnelle de l’outil (le bouton j’aime de facebook par exemple) ou alors de la réinvention de pratiques suite à un besoin comme la netiquette ou le retweet dans twitter. Ce n’est pas le royaume de la conversation comme on le dit mais celui de l’écrit et de la forme.

Cette quatrième couche est aussi généré par le périmètre de l’organisation elle-même qui oblige sur un même lieu les personnes à entrer en relation et à échanger de l’information pour réaliser les objectifs de l’organisation. Il est à noter également que cette quatrième couche est celle du rapport au corps, le sien et celui des autres. Il s’agit ici de parler de l’éros comme de ce qui nous pousse à nous mettre en relation, en dehors du cadre de l’organisation. Il ne s’agit pas ici de parler de sexualité même si la sexualité peut aussi survenir mais de parler de ce qui nous fait préférer être avec quelqu’un de manière « spontanée ».

Cette quatrième couche est bien celle du domaine des interfaces et des membranes communicantes (cf. L’écume de Bernhard Rieder).

La cinquième couche est justement celui des pratiques sociales, c’est à dire ce qui se passe réellement entre deux personnes dans la réalité des relations sociales et non plus dans la forme imposée par des plateformes sociales. Il s’agit de toute la part des sociabilités actives qu’elle s’exprime dans un espace physique ou dans un espace augmenté. Il s’agit alors aussi d’observer cette part de transformation que permettent ces espaces augmentés.

Enfin la dernière couche, qui est probablement une extension des deux couches précédentes est la part action collective qui peut être coopérative ou collaborative. Il s’agit alors de voir le système d’information comme un cadre de constructions de trois types de connaissances :

– des identités (connaissance de soi vs connaissance des autres ; reconnaissance) qui sont individuelles ou collectives ou fortement imbriquées (appartenances)

– des notions et concepts intégrables à un système de connaissance qui est celui d’un individu ou du collectif et qui oscille toujours entre explicitation et formalisation des connaissances

– des relations entre les individus et entre les individus et le collectif et qui augmente le capital social de chacun.