Tous les articles par Josée Plamondon

Moteur de recherche et désintermédiation

Il est possible de passer quelques heures, sur le web, à écouter de la musique et à croiser des artistes, connus et inconnus, en suivant des liens tissés par un algorithme. Et cela, sans quitter l’interface du moteur de recherche.

Désintermédiation des services d’information

Le moteur de rechercher devient une interface qui impose aux utilisateurs sa vision du monde, son algorithme, son modèle de classification et son régime de vérité: la popularité. Une uniformisation de la structure de l’information et des fonctions proposées qui efface la diversité des modèles et des expressions.

Service et application Google Voyages

Avec l’intégration de Google Voyages, grâce aux données collectées auprès des utilisateurs, il connaîtra les intérêts et comportements des voyageurs beaucoup mieux que les organisations touristiques locales et deviendra un partenaire priviliégé des entreprises touristiques. Celles-ci fournissent déjà, par le biais de Google Mon entreprise, les métadonnées qui permettent de lier et classifier les données, en mode hyperlocal. Face à une très probable désintermédiation, les associations touristiques devront mettre l’accent sur une organisation de l’information et des expériences que le moteur ne propose pas.

Nul doute que  cette nouveauté accroîtra l’intérêt pour les technologies de liage de données, tel que cette conférence sur les graphes de données, dans le domaine du tourisme.

Données d’usage et usage des données: une étude et un souhait

Comment encadrer l’exploitation des données des internautes canadiens sur les plateformes de diffusion de contenus culturels alors que nous peinons à comprendre leur fonctionnement ?

Comprendre ce qu’il se passe

À titre d’exemple,  contrairement à une idée reçue, ce ne sont pas nos données qui ont le plus de valeur, c’est ce qu’en font les plateformes. L’analyse des données issues de nos interactions sociales et de notre utilisation des contenus leur permet de faire du ciblage comportemental et tout en développant une meilleure compréhension des produits et services à concevoir. Plus les données qui décrivent des contenus sont riches et détaillées, plus il devient alors possible d’identifier des caractéristiques susceptibles d’expliquer la relation entre l’utilisateur et le contenu. Pour cette raison, le croisement des données personnelles d’acheteurs de billets de spectacle avec une description d’offre limitée à un titre et une catégorie apportera peu d’éclairage sur les goûts, la motivation ou l’expérience recherchée.

Croisement de données descriptives et données d'usage.

C’est donc en pensant au besoin, pour les différents acteurs concernés, de développer une compréhension commune des enjeux que Destiny Tchehouali et moi avons rédigé une étude, commanditée par la Coalition pour la culture et les médias (CCM). Professeur et chercheur en communication internationale, à l’UQAM, Destiny est président du conseil d’administration d’ISOC Québec, organisme dont je fais également partie à titre d’administratrice.

Intitulée « Données d’usage et usage des données à l’ère des plateformes », cette étude à été réalisée dans le contexte de l’examen du cadre législatif de la radiodiffusion et des télécommunications canadiennes. Elle dresse un état des lieux des principaux enjeux et défis liés à l’accès, à l’utilisation et à la gouvernance des données d’usages des plateformes de diffusion culturelle. Pour conclure, nous avons dégagé des pistes de recommandations pour un meilleur encadrement de l’utilisation des données:

  • Souveraineté numérique et responsabilité en matière d’accès et de collecte des données d’intérêt public
  • Concurrence, innovation et accès aux services
  • Neutralité d’Internet
  • Découvrabilité du contenu canadien et promotion de la diversité des expressions culturelles

Mieux apprendre un sujet complexe

Participer à cette étude m’a permis de constater, une fois de plus, la nécessité,  pour tous les acteurs du domaine culturel et tous ceux qui participent à l’élaboration de politiques publiques, de maîtriser des connaissances qui sont fondamentales pour rattraper notre retard numérique. Je ne fais pas référence à des outils et usages qui peuvent être enseignés au cours de sessions d’information. Je fais plutôt le souhait d’un programme avec une approche intégrée des volets stratégiques, technologiques, cognitifs et organisationnels  de l’information dans un monde numérique.

Définir numérique, données et «IA» est encore un défi

Glossaire, sciences de l'information
Cned-PA [CC BY-SA 4.0], Wikimedia Commons
‘absence de références communes pour une diversité d’acteurs a très probablement un effet négatif sur l’impact et la portée des initiatives numériques.  Elle ne favorise pas, non plus,  de débats interdisciplinaires critiques sur les enjeux de société.  Nous devrions investir davantage dans une meilleure compréhension commune des concepts afin d’être mieux préparés à travailler ensemble pour faire face à des problématiques complexes. Voici quelques pistes pour éclairer notre compréhension:

De quoi le numérique est-il le nom ?

Il y a eu «nouvelles technologies», «nouveaux médias» (suivi de l’abandon progressif de l’adjectif), «virtuel» (bien que l’environnement et les usages numériques soient bien réels), puis, «numérique» (en opposition à «analogique»). Mais de quoi ce concept flou à saveur culturelle et sociale est-il le nom ?

Voici un texte qui pourrait nous aider à discerner les caractéristiques qui sont spécifiquement numériques dans les modèles de production et de circulation des contenus.

Nous sommes obligés de prendre en compte le fait que l’on ne communique pas seulement sur le web: on organise sa journée, on achète des produits, on gère ses comptes en banque, on met en place des manifestations contre le gouvernement, on s’informe, on joue, on éprouve des émotions.
Voilà pourquoi le numérique n’est pas seulement une technique de reproduction qui s’oppose à l’analogique, mais il devient une véritable culture, avec des enjeux sociaux, politiques et éthiques fondamentaux et qu’il est urgent d’analyser et de prendre en compte.

Pour une définition du numérique, Marcello Vitali-Rosati.

Littératie de la donnée: de statistique à statactivisme

La littératie de la donnée est trop souvent restreinte aux capacités numériques, statistiques et techniques nécessaires à  la lecture à à l’exploitation de jeux de données. Cette définition réduit notre capacité à questionner la fabrication des données (elles ne sont jamais neutres), les méthodologies et politiques auxquelles elles sont soumises, ainsi que les pratiques sociales que les bases de données reflètent.

Gaining a sense of the diversity of actors involved in the production of digital data (and their interests, which may not align with the providers of infrastructures that they use) is crucial when assessing not only the representational capacities of digital data but also its performative character and role in shaping collective life.

Jonathan Gray, Carolin Gerlitz, Liliana Bounegru,  Data Infrastructure Literacy.

Intelligence artificielle: sphères technologique et cognitive

J’éviterai d’employer le terme galvaudé d’intelligence artificielle et m’en tiendrai, comme le premier des deux experts [Yann LeCun] à l’expression « science des données », l’intelligence reste une notion encore largement énigmatique aujourd’hui, comme le répète dans toutes ses conférences le second expert [Stéphane Mallat]. Pour apporter mon grain de sel au débat, je tenterai d’y appliquer une approche issue des sciences de l’information pour revenir à A. Desrosières en conclusion.

Jean-Michel Salaün, La science des données en quête du « su ».

Compétences spécifiques aux données: entre savoir et pratique

Or, nous sommes loin d’être tous égaux dans la manipulation des données : dans la compréhension de statistiques, dans la prise en main d’un fichier tableur un peu costaud, dans le bidouillage d’une base de données, dans la compréhension des enjeux… Les compétences requises mêlent à la fois un savoir geek (informatique), expert (statistique), critique (sciences humaines – travailler les corrélations), parfois juridique…

Amandine Brugière, Y a-t-il des compétences « Data » spécifiques?

Projets de données: quel impact sur la transition numérique en culture ?

Salle de réunion

Dans la foulée des programmes de financement en culture, rares sont les propositions qui ne s’appuient pas sur la production ou l’exploitation de données. Nous devrions nous réjouir de la multiplication de telles initiatives car elles témoignent de la transformation progressive des modèles de pensée et des usages.

Cependant, deux constats témoignent d’une méconnaissance des conditions techniques et méthodologiques de cette transformation : de nouveaux concepts ne sont pas maîtrisés et la persistance de vieux modèles de gestion bloque la  transformation des organisations.

Voici des types de propositions, autour des données qui, sous certaines conditions, sont les plus susceptibles de favoriser la transition numérique des acteurs et des organismes culturels.

Schema.org: se représenter sous forme de métadonnées

Voici un exemple d’usage de ce que Google appelle « données structurées« . Il s’agit, en  fait, des métadonnées utilisées pour décrire des offres afin qu’elles soient interprétées par des systèmes automatisés. Le site de Patrick Watson,  musicien montréalais, contient les métadonnées décrivant les lieux , dates et salles où il se produit en concert.  Google proposera ses représentations lors de recherches sur l’artiste ou d’une simple question posée au moteur de recherche. Cette semaine, les utilisateurs géolocalisés près de certaines villes européennes se feront proposer des spectacles de M. Watson. Les offres apparaîtront en décembre pour les utilisateurs  du Québec et de l’Ontario.

Cette technique qui vise à améliorer la découvrabilité des offres est, à présent, incontournable. Rater le test des données structurées , pour un événement ou un produit culturel, c’est dépendre uniquement d’activités de promotion pour être proposé à un public. Et c’est également ne pas rentabiliser un investissement dans un site Internet.  Cependant, si celui-ci n’est plus une destination principale pour les internautes, il est un point de référence essentiel pour la validation de l’identité numérique.

Impact: culture de la donnée et identité numérique

Apprendre à indexer une offre (la représenter à l’aide de métadonnées) permet à chacun de développer sa littératie numérique ainsi qu’une culture de la donnée. Une bonne initiative viserait à former et à équiper les acteurs culturels afin qu’ils définissent eux-mêmes les données qui les concernent et qu’ils intègrent cette pratique à leurs processus et stratégies. Confier à d’autres le soin de décider de la façon de se représenter n’est ni formateur et ni stratégique.

Une description d’offres personnalisée et éloquente requiert cependant une bonne connaissance des principes d’indexation et de la structure logique du modèle Schema.org. Ce sont des compétences que des bibliothécaires et spécialistes de la documentation pourraient aider à développer auprès des acteurs du milieu culturel et artistique et des agences web.

Données ouvertes: développer une vision sur les données et leurs usages

Les données ouvertes ne constituent pas une technologie mais un moyen de mise à disposition de données selon des licences d’utilisation spécifiques. Libérer des données est, en soi, un projet auquel on doit accorder les ressources et le temps nécessaires pour produire un jeu de données répondant à des besoins. Les fichiers de données ouvertes peuvent être décrits à l’aide de métadonnées Schema. Ceci ne rend cependant pas  les données qui y sont contenues, accessibles et interprétables par des moteurs de recherche.

Impact: interdisciplinarité et orientation utilisateurs

La libération de données facilite la réutilisation des données de collections, catalogues ou fonds documentaires dans le cadre de la stratégie de visibilité et diffusion d’un organisme culturel. C’est un projet qui peut transformer des pratiques et des processus de façon durable, à la condition d’adopter une nouvelle méthode de travail collaboratif et de gouvernance de données. NordOuvert, un organisme a conçu une trousse d’outils maison pour données ouvertes pour le gouvernement canadien.

Données ouvertes et liées :  capitaliser sur des actifs numériques

Un musée pourrait décrire ses événements pour des moteurs de recherche, avec des métadonnées Schema.org. Mais serait-il pertinent de documenter ainsi tous les éléments d’une collection ? Cette question peut faire débat pour diverses raisons. Le modèle descriptif des moteurs de recherche répond à leurs propres objectifs stratégiques. Le risque encouru est l’effacement de la diversité des perspectives au profit d’un modèle uniforme et d’une certaine vision du monde. Il est également souhaitable, pour un état, de minimiser sa  dépendance à l’un des plus puissants acteurs du numérique pour l’organisation des données de la culture et du patrimoine. C’est pour ces raisons que plusieurs initiatives de données ouvertes et liées ont émergé depuis plusieurs années, à travers le monde.

Le terme « données ouvertes et liées » désigne des données qui sont ouvertes et qui peuvent être  interprétées et liées entre elles par des humains et des machines si elles sont exprimées et publiées selon les standards du web. Faire un projet de données liées est très exigeant, en ressources,  en expertises et, surtout, en temps. Ce sont des activités qui peuvent se dérouler sur plusieurs années afin de s’assurer de la cohérence des modèles de données et des liens.

Impact: responsabilisation et pouvoir d’agir sur les données

Malgré sa complexité, une véritable initiative de données ouvertes et liées peut amener une organisation à passer d’une gestion de projet centralisée à une véritable démarche collaborative, à l’interne et avec des partenaires. La transition numérique repose sur une profonde transformation des modes de gestion de l’information. Une solution issue d’un travail collaboratif a plus de chances de produire des résultats satisfaisants et durables pour tous qu’un projet classique. La production de données devient alors une responsabilité distribuée au sein d’une organisation et, par extension, au sein de son écosystème.

On ne saurait parler de production de données sans mentionner le nombre croissant d’initiatives s’appuyant sur l’infrastructure de Wikidata pour exposer des données ouvertes et liées.  Art Institute of Chicago est une des institutions ayant récemment ajouté les données de ses collections et plus de 52 000 images d’oeuvres en licence Creative Commons 0 (domaine public). Cette institution, comme tant d’autres, sort du périmètre habituel de sa stratégie de développement de publics pour expérimenter d’autres formes de circulation de l’information.

Transition: de projets à initiatives

Une initiative de données structurées, ouvertes ou liées constitue une opportunité pour une véritable transition numérique. Comme l’affirme un chercheur du MIT Media Lab dans un billet sur la nécessité de développer une littératie de la donnée: «You don’t need a data scientist, you need a data culture » :

  • Leadership: priorise et investit dans la collecte, la gestion et l’analyse de données / la production de connaissances.
  • Leadership: priorise une littératie de la donnée créative pour l’ensemble de l’entreprise, et pas seulement pour les technologies de l’information et la statistique.
  • Membres du personnel: encouragés et aidés à accéder aux données de l’organisation, à les combiner et à en tirer des conclusions.
  • Membres du personnel: savent reconnaître les données. Ils proposent des façons créatives pour utiliser les données de l’organisation afin de résoudre des problèmes, prendre des décisions et élaborer des narratifs. (traduction libre)

Ce ne sont donc ni une mise à niveau technologique, ni l’acquisition de nouveaux usages qui opéreront cette transformation.  C’est plutôt l’adoption de nouveaux modes de gestion de l’information: la décentralisation des prises de décision, l’abolition des silos organisationnels et la mise en commun de données. Pour demeurer pertinents dans un contexte numérique, nous ne pouvons faire autrement que d’expérimenter des méthodes collaboratives. Nous pouvons réussir à plusieurs ce qu’il est trop périlleux d’entreprendre individuellement. Soutenir des initiatives de données sans s’engager dans cette voie limiterait considérablement l’impact des investissements en culture.

Web sémantique: de choc culturel à transformation numérique

 

Transformation numérique: de réseau centralisé à décentralisé, puis distribué.
Par Aleixmateuc [CC BY-SA 4.0 (https://creativecommons.org/licenses/by-sa/4.0)], de Wikimedia Commons
On ne passe pas des silos de bases de données classiques aux graphes de données liées sans remettre en question des méthodes de travail et des habitudes. Par les changements qu’il entraîne, un premier projet web sémantique constitue un choc culturel, un environnement d’apprentissage et, au final, une véritable transformation numérique pour toute forme d’organisation.

C’est que nous avons pu constater au fil des présentations de la troisième édition du Colloque sur le web sémantique au Québec. Quelle que soit la nature de la problématique, du projet et du secteur d’activité considéré, tous les conférenciers ont fait état de changements nécessaires pour profiter des avantages du web de données.

Ces changements se manifestent à plusieurs niveaux: technologique, organisationnel, culturel, professionnel et structurel.

De fragmentation à intégration

Changement technologique – Le web sémantique permet de fournir des solutions aux problèmes d’interopérabilité des systèmes en affranchissant les données des environnements matériels et logiciels ne favorisant pas les interconnexions. Il devient donc essentiel, pour les professionnels de l’informatique, de se familiariser avec les graphes de données liées et d’adopter des standards ouverts qui permettent de sortir les données des silos des bases de données classiques. Ces nouvelles connaissances sont nécessaires à l’accompagnement des autres secteurs métiers et à ce que le service informatique contribue à l’élaboration d’une définition partagée des normes, règles et processus pour la qualité des données.

▷ Pour aller plus loin: démonstration très accessible des limites de  la base de données classique et des possibilités qu’offre le graphe de données liées pour le traitement des connaissances, par Gautier Poupeau, architecte de données à l’Institut national de l’audiovisuel (INA), France.

De centralisation à distribution

Changement organisationnel – Un projet de données liées (ou ouvertes et liées) est une démarche interdisciplinaire et collaborative. À l’image du Web, qui ne se développe pas de façon centralisée mais distribuée, la qualité des données devrait être une responsabilité partagée par toutes les fonctions d’une organisation.

Pour avoir des données et métadonnées utiles, il faut améliorer les compétences des personnes qui les produisent par l’apprentissage des bonnes pratiques — comme l’usage de référentiels communs pour catégoriser des documents et l’utilisation d’outils qui favorisent l’accessibilité et le partage de données. Ceci implique également, une maîtrise du cycle de vie des données (création/collecte, traitement, analyse, conservation, accès, réutilisation) par tous les services.

Dans cette même perspective, la résilience et les bons résultats d’un projet de données liées se fondent sur de nouvelles méthodes de travail qui visent la décentralisation des décisions relatives à l’identification des problématiques, à la priorisation des projets et à la proposition de solutions. C’est une étape clé vers l’adoption de systèmes distribués et de modes de direction et d’action plus agiles et plus propices à l’innovation que les structures hiérarchiques.

▷ Pour aller plus loin: conférence de Diane Mercier, docteure en sciences de l’information, sur le web sémantique et la maturité informationnelle de l’organisation (2016). Après une véritable transformation numérique, la prise en charge de la qualité des données n’est plus uniquement du ressort de l’informatique, mais de tous les métiers et la gouvernance des données n’est plus fragmentée, mais globale.

D’uniformisation à harmonisation

Changement culturel – Lorsque différents acteurs internes et externes sont appelés à contribuer à la production de données liées, il n’est pas rare d’assister à une confrontation des savoirs, des perspectives et des vocabulaires utilisés. Pourtant, dans un projet de données liées, plusieurs modèles, standards et vocabulaires peuvent cohabiter dans un même système pour autant que ceux-ci soient conformes aux normes techniques du web sémantique. Il ne s’agit pas d’uniformiser les façons de décrire des ressources, mais de normaliser les référentiels pour les rendre interopérables, la diversité des perspectives venant alors enrichir la connaissance que nous avons de ces ressources.

Il est d’autant plus important d’accueillir cette diversité des pratiques descriptives que, dans divers domaines allant de la muséologie aux administrations publiques, nous sommes amenés à prendre conscience des biais culturels véhiculés par les différents modèles de représentation et de classification en usage au sein des organisations.

▷ Pour aller plus loin: exemple d’ONOMA, un projet du Ministère de la Culture et de la Communication (France) visant à lier les différents référentiels qui décrivent des auteurs, créateurs, producteurs et personnalités intervenant dans le cycle de vie d’un bien culturel. Une démarche d’harmonisation similaire peut être mise en œuvre dans bien d’autres domaines.

De technocentrisme à interdisciplinarité

Changement professionnel – Comment des spécialistes des TI et des sciences de la donnée peuvent-ils travailler sur le traitement de la connaissance d’un domaine hors de leur champ de compétences? Un projet web sémantique comporte des défis de nature technique et conceptuelle pour lesquelles il est impératif de rassembler une diversité de perspectives et d’expertises. Notamment, en ce qui a trait à l’organisation et au traitement de l’information, comme l’indexation de documents, la modélisation des connaissances ou la linguistique.

▷ Pour aller plus loin: billet de Fred Cavazza, spécialiste des transformations numériques, sur le rôle central des experts métiers dans des projets de traitement de données, dont des systèmes d’intelligence artificielle.

Du court terme au long terme

Changement structurel – Les programmes qui soutiennent organismes et secteurs d’activité sont généralement orientés vers l’atteinte de résultats à court terme. Or, il ne faut pas attendre de résultats immédiats de projet de données liées. Il y a donc peu d’incitatifs, pour les organisations, à réaliser des projets leur permettant d’entrer dans l’économie de la connaissance. Pour ce faire, il faut adapter les politiques et programmes afin d’encourager les investissements à moyen et long termes. Ceux-ci donneront lieu à des initiatives telles que des preuves de concept ou des prototypes, préalables nécessaires de projets plus ambitieux.

▷ En résumé – Le web sémantique ne constitue pas uniquement une évolution technologique mais avant tout une transformation profonde des modes de gestion de l’information et de gouvernance des données. Il nécessite la mise en place de nouvelles façons de travailler, tant pour la décentralisation des prises de décision que pour l’abolition des silos informationnels et la mise en commun de l’information.

Transformation pour un monde numérique

Le web sémantique nous amène à envisager le numérique comme un écosystème d’acteurs métiers et de moyens technologiques interdépendants. Contrairement aux projets informatiques « traditionnels », il nécessite l’aménagement d’un environnement d’apprentissage collaboratif et de conversations transversales dans l’organisation. Sa finalité est de faire émerger l’intelligence collective permettant de produire de la connaissance et non de développer des systèmes.

Données ouvertes et liées: le web comme base de données

Les données ouvertes et liées (linked open data) sont au cœur des grands projets numériques en culture et leur potentiel va bien au-delà de l’amélioration de la découvrabilité de contenus.

Un web plus intelligent

En 2001,  une décennie après avoir inventé une façon de partager des documents en réseau  (World Wide Web), Tim Berners-Lee propose de renforcer cet espace de collaboration en rendant des données plus facilement utilisables et interprétables par des machines.  Il décrit, dans un article, les objectifs et éléments du web sémantique.  Selon cette extension du web, des données qui sont structurées (par exemple, les métadonnées d’un catalogue de films) peuvent être partagées et réutilisées, indépendamment des enjeux d’interopérabilité technologiques, systémiques et même linguistiques.  D’abord, une mise en contexte sur cette évolution du web qui est également appelée « web de données ».

De stockage centralisé à diffusion décentralisée

La base de données n’est pas conçue pour être interopérable avec toutes les autres bases de données. C’est un mode de gestion centralisée qui date d’avant le web, ses standards et la décentralisation de l’information.  Chaque base de données a une structure et des identifiants qui lui sont spécifiques. De plus, les relations entre les données sont induites, c’est à dire qu’elles ne sont pas exprimées sous forme de données mais par la structure de la base.  Emmagasinées dans une base de données, elle sont donc inaccessibles et difficilement interprétables par des logiciels.  C’est pourquoi, pour que ces données puissent être réutilisées et reliées entre elles, il faut qu’elles soient ouvertes et liées.

Données ouvertes  pour être accessibles

La plupart des données ouvertes qui sont à notre disposition, au Québec et au Canada,  sont disponibles selon des licences qui spécifient les conditions de leur réutilisation. Cependant, celles-ci se trouvent dans des silos qui freinent leur exploitation. Il n’y a pas de structure, de métadonnées et de formats communs entre les jeux de données. Il est donc impossible, pour un agent automatisé, comme une application de recherche, de trouver, parmi les fichiers, les données qui fournissent l’information recherchée.  Il convient alors de les publier « dans le web » sous forme de données liées pour ne pas laisser d’autres sources d’information ou d’autres contenus culturels répondre aux intentions des internautes.

Données ouvertes et liées pour être référencées dans le web

Des données liées sont des données qui sont intelligibles dans un format compréhensible par des machines.  De manière similaire à une page web, on publie une donnée dans le web en lui donnant une adresse ou URI (Uniform Resource Identifier) selon le même protocole de transmission (HTTP). Grâce aux URI qui les identifient, les données ouvertes sont référencées sur le web.  À l’aide des ressources qui sont décrites par les URI, le web sémantique « met en place deux notions très importantes, soit (1) référer à des concepts (et non pas du texte) et (2) faire des liens entre ces concepts. »  Cette distinction entre les recherches navigationnelle (mots clés) et informationnelle (concepts) se trouve dans une très éclairante initiation au web sémantique rédigée par Caroline Barrière, chercheuse en traitement automatique des langues.

C’est en faisant des liens vers ces ressources , à partir de nos propres données, qui sont elles-mêmes sous forme d’URI, que nous créons des réseaux de données. Ces réseaux permettent à notre culture d’être référencée, trouvée et réutilisée.  En voici un exemple:

Croiser Robert Lepage, François Dompierre et Dominique Michel à la Bibliothèque nationale de France

La mise « dans le web » des données de la Bibliothèque nationale de France a débuté en 2011. C’est un des projets de données ouvertes et liées qui sont soutenus par l’État français, conformément à la Feuille de route stratégique sur les métadonnées culturelles.

Auteurs liées à Laurie Anderson dans data.bnf.fr, les données ouvertes et liées des collections de la Bibliothèque nationale de France.
Auteurs liées à Laurie Anderson dans data.bnf.fr, les données ouvertes et liées des collections de la Bibliothèque nationale de France.

La version web sémantique de la Bibliothèque nationale de France fournit de l’information beaucoup plus utile qu’une liste de documents correspondant aux mots recherchés: un nouveau mode d’accès à la connaissance. Grâce à ses données ouvertes et liées, la BnF rend visible les relations entre des ressources, des personnes et des activités.

C’est ainsi  qu’une recherche sur la compositrice et plasticienne Laurie Anderson nous fait naviguer de la musique au cinéma, en passant par les arts de la scène. En suivant les liens des contributions communes avec d’autres auteurs, on croise Yves Jacques et Robert Lepage (La face cachée de la lune). Et chez Robert Lepage, on peut voir les liens pointant vers les oeuvres qui ont influencé sa création, croiser Denys Arcand et jeter un coup sur une partie de sa filmographie pour découvrir les oeuvres du compositeur François Dompierre et une partie de la carrière de l’actrice Dominique Michel.

Dommage qu’il y ait si peu d’images libres de droits pour mieux représenter les personnes et les créations qui font notre culture. Il faudrait prendre l’habitude de contribuer à Wikimedia Commons, la base de données multimédia à laquelle s’alimentent des projets comme celui de BnF.

Connaissance augmentée et distribuée

Nous pouvons accroître la découvrabilité de notre culture de façon pérenne et innovante. Il est également possible d’étendre la connaissance que nous avons de nos propres ressources en liant nos données entre elles. Nous pourrions alors l’enrichir par des liens vers d’autres sources de données ouvertes et liées qui contiennent de l’information à propos de notre culture et de notre patrimoine, comme BnF, Digital Public Library of  America, MusicBrainz ou VIAF.

Ce ne sont pas les moyens qui manquent pour commencer à expérimenter de nouvelles manières de valoriser des données culturelles.  Un de ces moyens est, par exemple,  le téléversement des données dans Wikidata.

Mais, face à la complexité des enjeux techniques des métadonnées (pour preuve: cette typologie des métadonnées pour le patrimoine culturel), il manque une vision d’ensemble des parcours possibles.  Pour cela, il faut rassembler les compétences informationnelles et technologiques nécessaires pour aider des organismes ou des initiatives collectives à faire des choix afin de démarrer des projets rapidement.

Pourrait-on rêver d’un regroupement interdisciplinaire sur les données ouvertes et liées pour accompagner les démarches et projets dans le secteur culturel ?

Données liées et recommandation

I want AI-driven products to come with questions, suggestions or answers I wouldn’t have thought of.

Design Principles for AI-driven UX, Joël Van Bodegraven

Vers le métaweb. Matrice du niveau de connectivité sociale et informationnelle de Nova Spivack

Le web sémantique est cette évolution du web dont une des formes est l’utilisation d’un modèles de données structurées par des moteurs de recherche comme Google. Faire des relations sémantiques entre des données, à l’aide de métadonnées, facilite le raisonnement automatisé sur des inférences. Le web sémantique favorise la découvrabilité, mais permet surtout de repousser les limites que sont nos modèles de pensée et nos systèmes actuels.

Il est essentiel d’améliorer nos systèmes d’information et nos processus et d’adopter les meilleures pratiques du web des données  (diapos à visionner absolument) pour produire des données facilement exploitables.

Données structurées, données ouvertes et liées: est-ce la même chose ?

Données structurées et données ouvertes et liées sont des expressions dont l’usage indifférencié peut nuire à la prise de décisions qui ont une grande importance pour la réussite d’un projet dans le domaine culturel. Par données structurées , on fait ici référence à la technique d’indexation préconisée par Google (structured data). Ces expressions désignent deux manières différentes de travailler dans le web des données. Ce billet concerne les modèles de données et outils proposés afin de documenter des ressources pour les moteurs de recherche.

Un autre billet abordera les avantages spécifiques des données ouvertes et liées.

Guide des données structurées de Google pour documenter des livres.
Guide des données structurées de Google pour documenter des livres.

Google et le web sémantique

En 2013, Google effectue un des plus importants changements sur son algorithme de recherche en plus d’une décennie.

Baptisée Hummingbird , la nouvelle mouture s’appuie sur le sens et le contexte plutôt que sur la pondération de mots clés. Elle fait également appel à un savoir encyclopédique qui est organisé comme un graphe de connaissances et qui est constitué en grande partie à partir de Freebase, une base de données structurées collaborative, acquise par Google. Cette masse de données, appelée Knowledge Graph, permet de à l’algorithme de classer l’information et, de ce fait, de savoir à quelles autres informations elle est liée. C’est une logique similaire à celle de Wikipédia, où chaque article comporte plusieurs liens internes et externes.

La nouvelle version de l’algorithme peut donc effectuer des recherches en mode « conversationnel » (Où faire réparer mon téléphone?) et, surtout, améliorer les résultats de recherche grâce aux concepts du web sémantique: des métadonnées qui donnent le sens des données et qui permettent de faire des liens qui produisent de l’information. En comprenant le sens et le contexte de la demande, il devient possible, pour le moteur de recherche, de mieux interpréter l’intention de l’individu qui la transmet.

De la liste de pages web aux résultats enrichis

Depuis, la recherche de (méta)données qui font du sens prend progressivement le pas sur la recherche de mots clés. C’est une transition que l’on peut très facilement constater sur nos écrans mobiles. Nous passons donc d’une liste de pages qui comportent les mots clés recherchés à une agrégation d’informations qui résulte de liens entre des données structurées.

Il y a toujours une recherche de pages, mais ce sont les données qui décrivent des « ressources » (personnes, choses, concepts) qui sont désormais importantes. Au web documentaire, celui où l’information est présentée métaphoriquement en pages, s’ajoute le web des données, celui où toute connaissance est de la donnée qui peut être collectée et traitée par des machines. Celles des moteurs de recherche et celles de toute entité qui souhaite s’en servir pour développer un service ou un produit qui aurait de la valeur.

Schema: représentation pour moteurs de recherche

Les données structurées sont exprimées selon un modèle de métadonnées qui a été conçu par un regroupement de moteurs de recherche (Google, Bing, Yahoo! et le russe, Yandex). Ces données sont publiées dans le code HTML des pages où sont présentées les ressources qu’elles décrivent. Ces données sont publiques, mais pas ouvertes. Mais ce sont cependant des données liées puisque le modèle Schema permet de produire des triplets (symphonie pour un homme seul (sujet) – est de type (prédicat)- électroacoustique (objet)). Quelques exemples sont présentés dans un billet précédent l’usage de données structurées par Google. Le rôle des données structurées et des liens vers Wikipédia est expliqué plus en détail dans un guide sur la documentation des contenus produit pour le Fonds indépendant de production, avec la collaboration de TV5.ca et l’appui de la SODEC.

Apprendre à documenter: une étape nécessaire

Alors, documenter une ressource à l’aide de données structurées, en intégrant celles-ci dans la page web de la ressource, est-ce « travailler pour Google » ?

Oui, bien sûr. Mais, ce n’est qu’un premier pas dans l’apprentissage pratique du rôle clé des données dans une économie numérique. Mais s’en tenir à cette étape, c’est conformer notre représentation de la culture à un modèle de représentation et à des impératifs d’affaires qui sont hors de notre contrôle et qui ne répondent à des impératifs économiques qui avantagent la plateforme.

Ne pas dépendre d’entreprises qui se placent au-dessus des lois et des États est un des enjeux qui motivent des gouvernements et des institutions à soutenir, par des politiques et des programmes de financement, des projets basés sur les principes et les technologies du web sémantique qu’ils peuvent contrôler. Nous verrons, dans un prochain billet, les opportunités qu’offrent ces technologies pour l’innovation et la promotion de la culture.

Trois enjeux communs pour les métadonnées en culture

Les métadonnées, en culture, servent à décrire des choses pour les rendre repérables et à faire des liens d’association entre des éléments d’information pour générer de nouvelles connaissances. Voici trois enjeux pour la création de métadonnées culturelles qui devraient être abordés de façon prioritaire, au sein des organismes, institutions, entreprises et regroupements associatifs.

Feuille de route pour la création de métadonnées culturelles, représentée par une carte avec itinéraire.

1. Mise à niveau de nos systèmes d’information

La problématique des métadonnées en culture origine de la conception des systèmes d’information. La source de la plupart des problème se situe en amont des processus de gestion de l’information, soit lors de la saisie des données dans un un système ou un logiciel qui n’a pas été conçu pour générer des métadonnées interopérables. Il est également plus facile  de convaincre des gestionnaires d’investir dans  un nouveau site web que dans un modèle de métadonnées  normalisées et interopérables pour lequel il est difficile de fixer des indicateurs de rendement.

Qualité des données

Plus de 60% du temps de travail des experts  des données est consacré au nettoyage  et à l’organisation des données. Il est possible de produire des données qui soient exploitables, plus facilement et à moindre coût, en  mettant en application des principes de qualité inspirés, par exemple, de ceux qui guident la production de données ouvertes et liées pour l’Union européenne.

De la base de données au web de données

Au web des documents, s’est ajouté celui des données. Nous nous éveillons lentement à des modes de représentation et d’exploitation de l’information qui ne font plus référence à des pages, mais à des connaissances et à des ressources.

Dans le web, un contenu c’est de la donnée. Si les pages web s’adressant à des humains demeurent toujours utiles, ce sont les données décrivant des ressources (modèle Schema ou triplets du web sémantique) qui permettent à certaines technologies de classer et de relier l’information obtenue afin de nous fournir des réponses et, surtout, des suggestions.

Indexation de contenu et normalisation de données

Bien que des termes comme « métadonnées » et, même « web sémantique », se retrouvent désormais au programme de nombreux événements professionnels, au Québec et au Canada, trop rares sont les initiatives et projets où il est fait appel à  des équipes pluridisciplinaires comme cela se fait au sein de gouvernements, d’institutions ou d’initiatives collectives, en Europe et aux États-Unis.

Est-il possible de réaliser des projets d’une complexité et d’une envergure que l’on peine à mesurer en dehors du cadre habituel d’un projet de développement technologique ?  On peut en douter. Nous manquons de compétences en ce qui concerne la représentation de l’information sous  forme de données liées, ainsi que sur les principes et méthodes de la documentation de ressources.  Comment pourrions-nous, alors, atteindre des objectifs qui permettraient de tirer tous les avantages possibles des données qui décrivent nos contenus culturels ?

Plus concrètement, comment pourrions-nous entreprendre les démarches nécessaires à la réalisation  d’objectifs similaires à ceux du projet DOREMUS  qui  réunit Radio France, Philharmonie de Paris et Bibliothèque nationale de France ?

«Permettre aux institutions culturelles, aux éditeurs
et distributeurs, aux communautés de passionnés
de disposer :

  • de modèles de connaissance communs (ontologies)
  • de référentiels partagés et multilingues
  • de méthodes pour publier, partager, connecter, contextualiser, enrichir les catalogues d’œuvres et d’événements musicaux dans le web de données

Construire et valider les outils pédagogiques qui permettront le déploiement des standards, référentiels et technologies dans les institutions culturelles

Construire un outil d’assistance à la sélection d’œuvres
musicales.»

Il serait temps de moderniser les programmes  de formation  universitaire en bibliothéconomie et sciences de l’information et en technologies de l’information et d’encourager des intersections. Sans quoi, nous ne disposerons pas suffisamment de ressources compétentes pour passer du web des documents au web des données.

2. Décentralisation de la production de métadonnées

La centralisation de la production de métadonnées est contraire à la culture numérique car elle favorise généralement les perspectives et besoins d’une entité ou d’acteurs majoritaires. Les initiatives qui présentent le plus grand potentiel pour le développement de compétences  en matière de  production et réutilisation de données sont celles où les organismes sont appelés à participer activement à l’élaboration de leurs modèles de données, aux décisions en ce qui a trait à l’utilisation des données et à la conception de produits ou services. C’est par la pratique que les gestionnaires et entrepreneurs sont sensibilisés à l’utilité et à la valeur des données qu’ils produisent et qu’ils collectent.

Comme le signale Fred Cavazza, dans un récent billet, il nous faut réduire la dette numérique avant d’entreprendre une véritable  transformation:

«Nommer un CDO, créer un incubateur, organiser un hackathon ou nouer un partenariat avec Google ou IBM ne vous aidera pas à vous transformer, au contraire, cela ne fera que reporter l’échéance. Il est donc essentiel de réduire la distance au numérique pour chaque collaborateur, et pas seulement les plus jeunes ou ceux qui sont directement impliqués dans un projet.»

À ce titre, externaliser l’indexation des ressources culturelles (production de métadonnées) ne saurait être considéré comme un choix stratégique dans une économie numérique puisqu’il éloigne les acteurs du traitement des données et les confine à des rôles de clients ou d’utilisateurs, sans opportunités d’apprentissage pratique. En effet, se pencher  sur l’amélioration  et la valorisation de données descriptives et de données d’usage est le meilleur moyen de développer une culture de la donnée et d’acquérir les connaissances qui permettent de transformer des pratiques et de se réinventer. En plus de responsabiliser les organismes et entreprises et d’assurer la découvrabilité numérique de leurs ressources,  la décentralisation de la production de métadonnées renforce la résilience de l’écosystème; chacun des acteurs devenant un foyer potentiel de partage de connaissances et d’expérience.

3. Reconnaissance de la diversité des modèles de représentation

La centralisation de la production de métadonnées ne favorise pas la diversité des modèles de représentation et, plus spécifiquement, une réflexion post-colonialiste sur la description de productions culturelles et œuvres d’art, comme le lieu de fabrication ou la nationalité ou l’ethnie.  Une démarche centralisée conduit à adopter un  seul modèle de représentation des ressources, au détriment de la diversité des missions, des cultures,  et des pratiques. Dans le domaine du patrimoine culturel, par exemple, il existe près d’une centaine de modèles de description différents. Tous ne conviennent pas à la production de données ouvertes et liées, mais il demeure que cette diversité des modèles est essentielle car elle répond à des besoins et contextes d’utilisation spécifiques.

C’est dans le même esprit, qui a permis au web de devenir ce qu’il est (voir « small pieces loosely joined » de David Weinberger, un des penseurs du web), qu’il faut s’entendre sur des principes  et des éléments permettant de faire des relations entre différents modèles de métadonnées.  Cette démarche comporte des enjeux de nature conceptuelle, technologique, voire même économiques et de politiques publiques. Face à un tel niveau de complexité,  nous ne devrions pas tarder à rassembler, autour de ces enjeux, des spécialistes  du développement d’ontologies et des questions d’interopérabilité des métadonnées.

*

Ce ne sont pas de nouveaux portails, plateformes et applications qui nous permettront de ne pas dépendre totalement d’entreprises se plaçant au-dessus des états eux-mêmes. Une « solution technologique » aussi extraordinaire soit-t-elle, ne remplace pas une vision et des stratégies. Surtout lorsque les modèles économiques, dont nous tentons d’imiter les interfaces sans en maîtriser le fonctionnement, reposent sur l’exploitation de données par des algorithmes et des technologies d’intelligence artificielle.

Découvrabilité et métadonnées: nous sommes nuls en documentation de contenu

La documentation des contenus devient un enjeu prioritaire quand des moteurs de recherche deviennent moteurs de réponses et de suggestions. Surtout dans le domaine des arts et de la culture.  Curieusement,  nombreuses sont les initiatives qui font dans le dilettantisme en matière d’information numérisée. Car le problème est bien d’ordre documentaire.  Petite mise en perspective à la lumière de l’actualité.

Comment nettoyer les écuries d'Augias par Christian Fauré
Comment nettoyer les écuries d’Augias, par Christian Fauré (via Gautier Poupeau, lespetitescases.net)

« From search to suggest» (Eric Schmidt, Google)

Les ventes d’enceintes acoustiques intelligentes (smart speakers) dépassent celles d’autres équipements électroniques  comme les casques de réalité  virtuelle ou les vêtements  connectés. Les grandes plateformes et leurs partenaires (de nombreux manufacturiers d’enceintes acoustiques) se livrent à une concurrence effrénée, enchaînant les itérations afin de lancer et tester de nouveaux modèles.

/…/ smart speakers have become the fastest growing consumer technology in recent times, surpassing market share gains of AR, VR and even wearables.
Smart speakers are now the fastest-growing consumer technology

Depuis peu, certains constatent que ce sont des applications et des algorithmes qui nous pointent ce que nous devrions voir ou écouter.

/…/ how consumer power can meaningfully express itself within the “Suggest” paradigm, if consumer power will continue to exist at all. If the Amazon Echo, Google Home, or whatever else that comes down the pike becomes the primary way of consuming podcasts, the radio, or music, what does the user pathway of selecting what to listen look like? How are those user journeys structured, how can they be designed to push you in certain ways? (The “Power of the Default,” by the way, is a very real thing.) How would discovery work? Which is to say, how does the market look like? Where and how does the consumer make choices? What would choice even mean?
If podcasts and radio move to smart speakers, who will be directing us what to listen to?

C’est un constat que partagent plusieurs observateurs des changements qui sont à l’oeuvre dans le web , notamment chez ceux dont la puissance s’est établie sur l’indexation et le classement de l’information. Laurent Frisch, directeur du numérique de Radio France, est l’un de ces observateurs.

Dans tous les cas, la problématique des assistants vocaux est de passer d’un monde où on pouvait faire des recherches mises en ordre par des algorithmes, nous laissant le choix de cliquer sur le résultat de notre choix, à un monde dans lequel les besoins seront anticipés avec la proposition d’une réponse unique. Il faut donc que lorsque nous avons la bonne réponse, nous puissions être trouvés et écoutés au bon moment. C’est très compliqué, c’est nouveau pour tout le monde. Les radios ont un atout : elles partent avec un temps d’avance puisqu’elles ont une matière première. Par contre, ça ne veut pas dire que ce sera automatique. Il y aura des challenges, notamment pour réussir à être des réponses pour ces assistants vocaux.
La radio en 2018 vue par Laurent Frisch

Penser/Classer (George Perec)

Nous avons un problème: nous avons abandonné l’indexation et le classement de nos ressources à des bases de données qui ne sont pas conçues pour être interopérables avec d’autres systèmes et à des spécialistes des technologies qui n’ont ni les compétences en documentation, ni les connaissances du domaine (ontologies, taxonomie).

Nous avons cessé d’investir temps et ressources dans la documentation de nos contenus lorsque la micro informatique est entrée dans nos organisations. Nous nous sommes fiés à des structures proposées par des programmeurs guidés par leurs propres objectifs et compréhension pour créer des métadonnées et des systèmes de classement. Ces systèmes nous interdisent toute visibilité sur nos contenus, collections et répertoires et toute possibilité de lier nos données aux autres données mondiales afin que nos contenus demeurent pertinents et génèrent de  la connaissance.

Les enjeux de la découvrabilité, les métadonnées propriétaires et non standards,  ainsi que la faible qualité des données sont avant tout un problème documentaire du à l’ignorance ou au rejet de méthodes et normes qui, pourtant, existent et évoluent. Ce problème ne pourra être  résolu que si nos stratégies numériques, ainsi que nos institutions d’enseignement,  passent d’une vision technocentriste à une vision systémique du numérique.  Concrètement, cela implique l’ajout de la littératie de l’information (de quoi est faite l’information numérisée et comment circule-t-elle) aux programmes de formation, l’adoption de normes pour l’acquisition et le développement d’applications et l’inclusion des compétences en sciences de l’information à toute démarche autour des données.

Comme l’a si clairement expliqué Fabienne Cabado , directrice générale du Regroupement québécois de la danse, dans un récent billet, c’est notre modèle de pensée et nos réflexes qu’il faut changer.

/…/le virage numérique ne consiste pas à numériser nos archives ni à produire les plateformes les plus grandioses, mais plutôt à transformer nos manières de regarder le monde, de le penser, de le construire et d’y évoluer. Ils l’ont dit et répété: l’innovation réside avant tout dans l’adoption d’une pensée systémique.
Perspectives numériques

En attendant  que nos leaders prennent la mesure du problème et apprennent à se servir d’autres solutions que celles auxquelles ils sont habitués, il est encourageant de constater le cheminement des idées et leur assimilation par les têtes pensantes du secteur culturel.