Wikidata: pour Google ou pour le Web des données?

Wikidata améliore-t-il la découvrabilité sur Google? Non.

Contrairement à une hypothèse que j’ai parfois évoquée il y a plusieurs années, puis maintes fois remise en cause,  Wikidata n’est pas une solution de découvrabilité sur Google. C’est l’une des bases de connaissances permettant de valider une entité, et non de fournir une réponse. Ce n’est pas un moyen de promouvoir une information pour quiconque interroge Google, et encore moins pour qui ne la cherche pas.

Verser des données dans Wikidata ne rend donc pas un objet culturel plus visible ou découvrable parmi les résultats du moteur de recherche. Cependant, c’est une initiative à fort potentiel de créativité et de transformation numérique si l’on poursuit un tout autre but que la promotion d’une offre, soit la réutilisation de données interopérables et interconnectables, partout sur la planète.

Wikidata pour le Web des données

Par contre, comme je l’ai précisé dans un billet  sur le choix d’un environnement technologique, contribuer à Wikidata peut favoriser la découverte de données sur cette plateforme. La maîtrise du langage d’interrogation SPARQL est cependant une courbe d’apprentissage plutôt abrupte pour les non-spécialistes. Même  l’assistant de recherche est inaccessible pour qui n’a pas l’habitude de composer des requêtes destinées à des bases de données.

Les organisations versant leurs données dans Wikidata devraient offrir, sur leurs propres sites, des interfaces de recherche avec des requêtes pré-construites. L’exemple présenté ci-dessous est un projet réalisé par le Musée de Saint-Raymond à Toulouse (France) en partenariat avec Wikimedia France.

Palladia, moteur de recherche d'une partie des collections du Musée de Saint-Raymond (France) qui est présente sur Wikidata et Wikimedia Commons.
Palladia, moteur de recherche d’une partie des collections du Musée de Saint-Raymond (France) qui est présente sur Wikidata et Wikimedia Commons.

Pour s’en inspirer davantage, voici l’historique des projets Crotos et Palladia sur WikiArchives, avec un lien complémentaire vers un billet de Marie D. Martel datant de 2017 mais qui demeure tout à fait pertinent: #wikimania Le modèle d’une pratique professionnelle alternative à bâtir avec les GLAMs.

Cette réutilisation des données dans les deux sens — dans l’environnement ouvert et collaboratif de Wikidata et dans la perspective spécifique d’une institution — présente de précieux avantages:

Impulsion d’une véritable transformation

Un projet de données ouvertes et liées peut contribuer à la transformation d’une organisation dans un contexte numérique. Il ne s’agit pas d’informatisation, mais d’un projet fédérateur qui peut transformer les rapports à l’information et à la communication. Si c’est un choc culturel pour certaines institutions, c’est potentiellement un environnement d’apprentissage et, au final, une véritable transformation numérique pour toute forme d’organisation.

Modernisation d’un système de gestion documentaire

Des données liées offrent un énorme potentiel de découverte et de connaissance car elles ne sont pas figées dans un modèle où les relations sont prédéfinies. Ceci accorde à une base de données en graphe (appelée aussi graphe de données liées) la capacité d’effectuer du raisonnement, ce que la technologie des bases de données classiques n’offre pas.

Contournement des défis du Web sémantique

Wikidata réduit considérablement les coûts, délais et expertises requises pour la réalisation d’un projet de données ouvertes et liées en fournissant, entre autres, la plateforme et l’ontologie. Bien plus complexe qu’un vocabulaire, une ontologie est la spécification d’une conceptualisation, à l’aide de types d’objets, de leurs propriétés et de leurs différents types de relations. C’est un exercice d’abstraction réalisé par un petit nombre de spécialistes

Interopérabilité accrue des données

L’ontologie qui permet de modéliser les données pour Wikidata n’est pas conçue pour représenter le concepts propres à chaque domaine de connaissance. C’est un avantage: alors qu’une base de données classique est conçue pour répondre aux besoins et usages d’un domaine ou discipline, Wikidata ne cloisonne pas la connaissance et favorise, de ce fait, les interconnexions.

Petit rappel

Une base de données classique et un graphe de données liées ne sont pas exploitables pour les moteurs de recherche comme Google.

Deux grands défis d’un projet de données

Un projet de données liées comporte des défis qui doivent impérativement être identifiés et analysés en amont de toute conception ou acquisition de technologie. Voici deux de ces défis:

Expérience de recherche

Des données liées doivent permettre d’offrir des fonctions de recherche différentes de (et supérieures à) celles d’une base de données classique.

Une recherche par auteur, titre et sujet n’apportera pas de nouvelles connaissances. Les critères d’une recherche avancée ne sont pas de bons moyens pour faire découvrir une collection à qui ne cherche rien en particulier.

Mobilisation des utilisateurs(trices)

Changer le comportement de personnes qui accèdent à de l’information en posant simplement une question (Google, ChatGPT) ou de façon passive (flux des réseaux sociaux) est très certainement l’un des plus grands défis des nouvelles base de données en ligne.

Comment faire d’un site une destination préférée pour chercher ou découvrir de l’information? Hélas, nombreux sont les projets qui ne reposent que sur une campagne de promotion pour modifier des habitudes devenues des réflexes.

Wikidata: oui, mais pour des résultats concrets

Le versement de données dans Wikidata ne devrait pas être promu comme une bonne pratique de référencement web et de découvrabilité sur Google.

Cependant, un projet avec Wikidata peut faire converger deux buts: développer une culture de la donnée et amorcer une véritable transformation numérique impliquant de nouveaux modes d’organisation et de collaboration.

Les données ne sont pas la panacée de la découvrabilité

Dessin original: ArtsyBee via Pixabay

Orienter toute initiative de découvrabilité vers la production de données relève de la pensée magique selon laquelle la technologie est la solution à toute problématique, aussi systémique et complexe soit-elle.

Dans le domaine culturel plus particulièrement, ce solutionnisme est porté par l’espoir d’accroître la visibilité des offres afin d’en encourager la consommation. Ceci a pour conséquence que nous avons des projets numériques sans planification stratégique et dont la méthodologie de réalisation n’est pas adaptée au domaine de l’information.

À ceci s’ajoutent les mécanismes de découvrabilité mentionnés dans de nombreux documents, conférences et vidéos, sans être clairement expliqués. De quels systèmes ou applications parle-t-on? Comment fonctionnent-ils? Quels résultats peut-on en attendre? Mystère…

La méthodologie, talon d’Achille de la découvrabilité

La « découvrabilité » n’est un pas un enjeu de données, mais de maturité des connaissances sur le Web et les différents systèmes qui s’y trouvent. Il y a très peu d’expertise réelle, tant au sein des équipes de projet qu’au sein des ministères et responsables de programmes, sur des sujets comme le fonctionnement de Google, les enjeux du choix d’une norme ou d’un modèle de données et les méthodologies de conception de structures d’information.

On n’a pas encore invité les spécialistes des diverses plateformes, technologies et sciences de l’information à constituer et actualiser une base de connaissances partagées sur ces questions. Par ailleurs, les enjeux de découvrabilité et les nouveaux milieux documentaires ne sont toujours pas des sujets d’intérêt pour le Congrès des professionnel.le.s de l’information.

En conséquence, la méthodologie est le talon d’Achille de la plupart des projets. Lorsque ceux-ci débutent avec des maquettes de pages web ou des interfaces de recherche, on s’interroge sur la prédominance de l’apparence visuelle sur la conception des structures d’information.

Sans une étape préalable d’analyse stratégique, la production de données comme solution-miracle de visibilité est un projet risqué. Celui-ci comporte de nombreux angles morts tels que les préférences et comportements des publics, les changements démographiques ou une vue d’ensemble des productions ou offres d‘un secteur donné. Surtout, l’absence d’objectifs concrets et mesurables comme l’augmentation de la vente de billets ou l’acquisition d’une nouvelle clientèle est un problème récurrent: comment être sûr d’améliorer ce qui n’a pas d’abord été mesuré?

Au final, tout miser sur la production de données ne compense pas l’obsolescence de modèles industriels et commerciaux pré-numériques, ni ne prend en compte la transformation des usages.

Halte au solutionnisme!

Bien identifier un problème ou définir un besoin est un projet en soi. Cette étape essentielle est pourtant souvent escamotée, faute de budget et d’échéancier adéquat. Il est alors difficile de cerner le périmètre du projet, en écartant des options non nécessaires tout en tenant compte des contraintes de l’organisation.

Avant de se lancer dans la production de données et métadonnées, il faut donc impérativement se questionner sur le but du projet afin de l’aiguiller vers l’environnement technologique approprié et, enfin, avoir une bonne visibilité sur le type de travail à réaliser dans cet environnement. Par exemple, la création d’une base de données, d‘éléments de Wikidata et d’un jeu de données ouvertes relèvent de technologies distinctes qui n’ont pas de langages et de structures communes. Ce sont donc des types de projet différents ne visant pas les mêmes objectifs et ne faisant pas appel aux mêmes expertises.

Et mes données, alors ?!?

Dans le prochain article, nous verrons où les données et métadonnées sont vraiment utiles et comment des contenus bien rédigés sont souvent plus efficaces en terme de découvrabilité.

Découvrabilité: sens commun et connaissances partagées

Plan de formation à la gestion de projet stratégique
Gestion de projet stratégique sur fr.wikiversity.org. Illustration: 2KLD, [CC BY-SA 3.0], Wikimedia Commons
Les formations, référentiels, trousses à outils, programmes de financement et experts en découvrabilité abondent. Tous peuvent se saisir des termes et notions qui circulent sans avoir une compréhension approfondie du Web. C’est, à mon avis, préoccupant car il n’existe pas de traité sur ce qu’il faut faire, dans le numérique, pour qu’une information soit vue. À la différence du génie ou de la médecine, par exemple, il n’y a pas de socle commun de connaissances pour les divers métiers du Web. Un projet numérique est souvent une tour de Babel de concepts. Que des non-spécialistes du numérique, comme des directions d’entreprises, soit dépassés n’est pas étonnant.

Voici une proposition pour améliorer les connaissances des personnes, organisations et instances gouvernementales sur un concept aussi vague que la découvrabilité. Tous les secteurs d’activité sont concernés, bien qu’à certains égards, je fais référence à la culture puisque le concept ne semble pas soulever autant d’intérêt dans d’autres domaines.

  • D’abord, mettre sur pied un comité scientifique et pédagogique qui sera chargé d’inventorier et sélectionner les connaissances qui serviront de base à la création du matériel. Il s’agit, plus concrètement d’élaborer un programme qui s’étend sur des domaines d’expertise différents et d’en assurer la mise à jour.
  • Ensuite, différents publics cibles doivent être identifiés en fonction de leurs profils professionnels, secteurs de pratique et pouvoir décisionnel.
  • Enfin, proposer des parcours de formation en fonction d’objectifs concrets afin de réinvestir les connaissances acquises: répondre à un besoin précis ou résoudre un problème. Il ne s’agit pas de former des spécialistes du traitement documentaire ou de l’analyse de données.

Voici quelques éléments de discussion pour un comité scientifique et pédagogique.

Solutionnisme technologique

Lorsque nos formations et projets sont focalisés sur des solutions technologiques, nous nous rendons encore plus dépendants de systèmes que nous ne maîtrisons pas. Nous n’activons pas les transformations que les organismes nés à l’ère numérique n’ont pas eu à faire. Comment dépasser la couche superficielle du problème pour investiguer davantage nos pratiques industrielles et sectorielles? Comment éviter le piège de l’outil providentiel pour développer une pensée stratégique adaptée à un monde numérique?

Découvrabilité: du concret

Les définitions habituelles de la découvrabilité sont vaguement théoriques et rarement mises en contexte. Ce terme est fréquemment invoqué en réponse aux problématiques liées à la visibilité et à l’appétit du public pour des offres culturelles. À quelles intentions ou objectifs fait-on référence? S’agit-il de contrôler ou d’influencer ce qui est présenté sur les écrans des utilisateurs?

Technologies: connaissances de base

Où se passe la découvrabilité? Plateformes de contenus sur abonnement, sites web, réseaux sociaux, bases de données, jeux de données ouvertes, bases de données en graphes: ces technologies ne sont pas des vases communicants. Il est essentiel d’identifier et décrire clairement les caractéristiques et usages spécifiques des différents environnements technologiques qui peuvent être ciblés par des initiatives numériques. Piloter un projet sans bien connaître les particularités des environnements concernés n’est scientifiquement pas acceptable.

Comprendre Google

L’histoire et les évolutions récentes des applications du moteurs sont suivies et documentées par différentes communautés d’experts. Le fonctionnement du moteur de recherche doit être expliqué afin d’aligner des initiatives vers des objectifs réalistes. Alors que la plupart des initiatives visent à influencer les réponses de Google, ce serait l’occasion de définir de bonnes méthodes de conception et pratiques pour le Web.

Pas de culture sans publics

Ou plus généralement: pas de ventes dans clientèles. Sur les plateformes et moteurs de recherche, données et algorithmes sont pourtant mis à profit pour connaître et servir les utilisateurs. Chaînon manquant de la plupart des projets, la connaissance des publics, leurs usages et leurs comportements, ne doit pas être limitée à la production de statistiques. Quelles connaissances et méthodologies appropriées proposer à des non-spécialistes du marketing?

Curiosité, médiation, sérendipité

Quelles autres entités et dispositifs favorisent la découverte sur des temps plus ou moins longs? Quels autres chemins pourrait-on emprunter si des résultats immédiats n’étaient pas exigés?

* * *

Il est temps d’avoir des conversations sur ces sujets afin de développer les parcours d’apprentissage qui manquent à l’émergence d’une force collective, sur le Web et les différents canaux numériques. Comment assurer la cohérence de programmes, initiatives et développement professionnel sans un tronc commun de connaissances? Comment pérenniser des activités de veille et de transfert? Comment concevoir des projets qui sont interdépendants et ont donc, plus d’incidence sur la société et l’économie? Il ne faudrait plus attendre pour élaborer un schéma des connaissances partagées par tous les acteurs du numérique et transversales à tous les secteurs d’activités.

Découvrabilité: oui, mais dans quel environnement technologique?

Quatre environnements technologiques: Web, base de données, données ouvertes et liées, données ouvertes.
Découvrabilité: quel type de projet? Quatre environnements technologiques et types de projets numériques pertinents.

Favoriser la découverte d’une offre pour atteindre un objectif c’est bien, mais dans quel environnement technologique? La réponse à cette question, rarement abordée, pourrait pourtant aiguiller certains projets ciblant les moteurs de recherche vers de meilleures pratiques de conception et de rédaction pour le Web plutôt que vers la création de métadonnées.

Recherchée: méthodologie de projet

Parmi les écueils qui constituent des risques pour la réussite d’un projet, j’ai déjà élaboré sur le but et le solutionnisme technologique. Le but (résultat mesurable) est fréquemment confondu avec les moyens (découvrabilité).  L’énonciation d’un but fait partie d’un exercice stratégique. Celui-ci est escamoté, de même que l’identification des besoins, lorsque des moyens technologiques semblent apporter une réponse simple à une situation pourtant complexe.

Ces écueils pourraient être évités en adoptant une démarche de réalisation de projet qui débute avec une réflexion stratégique. Ce sujet devrait figurer au premier plan des différents coffres à outils proposés, en culture comme dans tous les domaines.

Numérique: différents environnements technologiques

Voici à présent, un troisième écueil qui peut apporter son lot de problèmes: la méconnaissance d’un univers où se croisent, sans nécessairement se connecter, divers domaines d’expertise.

Ce que nous désignons généralement comme « le numérique » rassemble des environnements technologiques qui ont des langages, structures, normes et, surtout, des objectifs et usages bien spécifiques. Voici les environnements que l’on peut retrouver dans des projets

Web (pages)

Celui des moteurs de recherche: c’est à dire les sites et plateformes développés avec les standards du Web et et dont le contenu est accessible et indexable. Seul le contenu de type HTML est exploité pour répondre aux demandes des utilisateurs. Dans cet objectif, des métadonnées comme des identifiants internationaux (par exemple: ISNI) ou locaux (par exemple: numéros uniques d’œuvres) présentent beaucoup moins d’intérêt, pour les algorithmes, qu’une bonne description à la Wikipédia. Ces métadonnées seront, par contre, très importantes dans des environnements centrés sur les données, comme les trois suivants.

Celui des jardins clos, au contenu non accessible aux moteurs de recherche, car il n’est volontairement pas ouvert et conforme aux standards du Web. On y trouve les plateformes accessibles aux détenteurs de compte (payants ou gratuit), comme les réseaux sociaux et les sites d’écoute musicale.

Web sémantique (données ouvertes et liées)

Il s’agit d’une extension du Web qui utilise des technologies, standards et infrastructures différentes de celles du Web auquel nos navigateurs nous permettent d’accéder. Ce type de contenu qui n’est pas du HTML ne peut être indexé, interprété et utilisé par les moteurs de recherche à titre de résultat.

Contribuer à Wikidata peut intéresser des initiatives de données ouvertes et liées qui ne souhaiteraient pas développer leurs propres infrastructure et modèle de représentation.

Base de données relationnelles

Même si celle-ci peut servir à alimenter des pages web, une base données n’est pas « dans le Web » et donc, inaccessible à des moteurs de recherche comme Google. Par contre, un bon modèle de données et des métadonnées appropriées à la mission et aux utilisateurs cibles participent à la conception d’interfaces de recherche et de découverte.

Données ouvertes

Libérer des données est, en soi, un projet comprenant plusieurs étapes importantes afin de rendre celles-ci disponibles sous forme de fichier(s). Ce type de démarche est réalisé en amont d’un projet de données ouvertes et liées. Si des métadonnées permettent de décrire un jeu de données, les données elles-mêmes ne font pas partie du contenu exploitable par les moteurs de recherche.

Quel est l’environnement concerné?

Il est important de bien cerner le problème, ou d’identifier et prioriser les besoins, avant de développer une stratégie et de se pencher sur les outils technologiques. Ceci réduira considérablement les risques et coûts associés à des choix qui ne pas alignés sur le résultat attendu, notamment en raison de l’incompatibilité de plateformes, langages, applications et usages.

Voici, des types de projets qui correspondent aux environnements technologiques présentés précédemment:

Site web
Promotion et visibilité de l’information par l’entremise de moteurs de recherche commerciaux.

Données ouvertes
Réutilisation de données pour la recherche ou le développement d’applications.

Données ouvertes et liées
Réutilisation de données avec les technologies du Web sémantique: bases de connaissances interconnectées, fonctions avancées d’analyse et de recherche.

Base de données relationnelle
Gestion et utilisation  de données, comme celles d’un catalogue d’enregistrements musicaux, par exemple, par des applications.

Il est possible que plus d’un environnement technologique soit concerné par un projet. Dans ce cas, il est impératif de rechercher des expertises, planifier des budgets et gérer des projets qui seront spécifiques à chacun des environnements.

* * *

Il est plus que temps d’améliorer la littératie numérique de tous les acteurs participant à des projets. Et plus précisément, connaître les particularités des différents environnements technologiques. C’est une mise à niveau qui devrait logiquement concerner les bailleurs de fonds, les prestataires de services de conception et les spécialistes des sciences de l’information.  Dans ce contexte, on devrait se demander s’il est souhaitable que les acteurs du domaine culturel soient les seuls à faire des apprentissages essentiels à la transformation numérique de tout l’écosystème.

Wikipédia, Wikidata, Google et la découvrabilité: gare au solutionnisme

Le Guide des bonnes pratiques: découvrabilité et données en culture, récemment publié par le Ministère de la Culture et des Communications du Québec, est un bel effort de synthèse. Il faut cependant plus qu’un exercice de rédaction pour transmettre à des non-initiés des connaissances sur des systèmes dont le fonctionnement et les interdépendances sont complexes, changeants et trop souvent, incompris.

Wikipédia et Wikidata: des vases communicants?

Dans ce document, plusieurs affirmations concernant Wikipédia et Wikidata, ainsi que leur utilisation par les moteurs de recherche risquent cependant d’être incorrectement interprétées.

lI est aussi dans l’intérêt d’une ou d’un artiste, peu importe son domaine, de fournir les informations à Wikidata à propos, par exemple, de ses œuvres et de son parcours sous forme de données pour alimenter Wikipédia.

Cette injonction (page 15) est un raccourci qui donne à croire qu’il suffit de saisir ou verser des données dans Wikidata pour alimenter Wikipédia. Or, il serait plus exact de dire que pour chaque article créé dans Wikipédia, un élément Wikidata existe, mais l’inverse n’est pas possible (des éléments Wikidata n’ont pas d’articles correspondants dans Wikipédia). Par exemple, pour l’article sur le chorégraphe Jean-Pierre Perreault, on a l’élément Q3169633. Pour documenter davantage l’élément, dans Wikidata, des libellés ont été ajoutés (par exemple: nom, prénom, occupation, identifiant ISNI).

Le contenu, la donnée et les moteurs de recherche

Il est important de saisir la différence et les rôles spécifiques que peuvent jouer le contenu (article) et la donnée (élément) dans des projets visant à améliorer la repérabilité et la découverte.

Les moteurs de recherche pourront par la suite les mettre en valeur lors de recherches d’internautes, notamment dans les cartes enrichies qui apparaissent souvent lorsqu’une recherche est réalisée sur Google.

Ici (page 15), encore, cette affirmation pourrait laisser croire que les moteurs de recherche puisent de l’information à même ces bases de connaissances. Ce raccourci ne tient pas compte du rôle central des sites web pour des moteurs de recherche dont le fonctionnement repose sur l’indexation de documents (pages web) et l’analyse du contenu (texte).

Par exemple, la recherche « Jean-Pierre Perreault » sur Google produit une fiche d’information qui résulte de la reconnaissance d’entités nommées dans des pages web. L’ambiguïté résultant d’une homonymie entre le chorégraphe et un professeur n’a pas été résolue pour la recherche d’images.

Résultat d'une recherche sur "jean-pierre perreault", avec Google.
Résultat d’une recherche sur « Jean-Pierre Perreault », avec Google.

Par contre, la recherche « qui est Jean-Pierre Perreault » fait appel à l’analyse du texte contenu dans les pages web qui ont été indexées par le moteur de recherche. Le résultat est enrichi, c’est-à-dire qu’il s’agit d’une réponse fournie directement à partir d’un texte extrait d’un site web dont la structure et le contenu réunissent les conditions d’autorité, expertise et fiabilité.

Résultat de la recherche "qui est Jean-Pierre Perreault", sur Google.
Résultat de la recherche « qui est Jean-Pierre Perreault », sur Google.

Base de connaissances pour la reconnaissance d’entités

Voici un autre raccourci (page 16) qui peut laisser croire que verser des données dans Wikidata est une solution au manque de visibilité des contenus culturels québécois sur le Web. Ceci peut avoir pour conséquence l’appauvrissement graduel de la valeur informationnelle des sites web, alors qu’il faudrait plutôt guider et soutenir l’adoption de meilleures pratiques pour leur conception.

Comme il a été mentionné précédemment, en saisissant vos données dans Wikidata, vous vous assurez que les moteurs de recherche peuvent les trouver//

Pour un moteur comme Google, une base de connaissances externe comme Wikidata a pour fonction de faciliter la reconnaissance d’entités nommées (personnes, lieux, œuvres, événements, etc.) et d’aider le moteur de recherche à réduire toute ambiguïté. Le rôle d’une telle base de connaissances est illustré dans le schéma ci-dessous (numéro 200). Il s’agit d’une illustration fournie dans une demande de brevet déposée par Google en 2012. Ce document, ainsi que d’autres brevets, sont très bien commentés par l’expert Bill Slawski. La compagnie développait alors sa propre base d’entités nommées (numéro 150) qui, selon les observateurs, était probablement issue de Freebase dont l’acquisition a été complétée par Google en 2014.

Utilisation de bases de connaisances par Google pour réduire l'ambiguïté entre entités nommées.
Utilisation de bases de connaissances par Google pour réduire l’ambiguïté entre entités nommées. Illustration tirée d’une demande de brevet déposée par Google, en 2012. Explications et commentaires dans ce billet de l’expert Bill Slawski.

Projets wiki: contribuer pour de bonnes raisons

Ces précisions n’ont pas pour objet de réduire l’enthousiasme des acteurs culturels et des autres citoyens pour les projets de la Fondation Wikimedia.  Bien au contraire. Elles visent d’abord, à faire connaître un peu mieux ces systèmes auxquels sont souvent attribués des fonctionnements qui ne sont pas démontrés… mais porteurs de tant d’espérances. Leur objectif principal est d’encourager des usages et des initiatives moins orientés vers le marketing et la promotion, mais qui correspondent davantage à la mission et aux valeurs de Wikimedia et à un Web universel, libre de droit, ouvert et décentralisé.

Découvrabilité: comment aiguiller des initiatives numériques vers la bonne voie

Aiguillage pour projets de données numériques
Aiguillage pour projets de données numériques – (SunsetTracksCrop), Arne Hückelheim, [CC BY-SA 3.0], Wikimedia Commons
Il est temps d’apporter un peu de clarté dans le méli-mélo de concepts qui ne sont pas très bien maîtrisés. Voici une petite mise au point qui pourrait être bénéfique pour les promoteurs d’initiatives numériques, ainsi que les organisations qui les financent.

Quel est le but?

Il arrive qu’un projet n’ait pas de but précisément déterminé: on ne sait pas quel problème il résoudra ou quels seront les résultats tangibles. Par exemple, « authentifier une œuvre » est un moyen et non, une finalité.

Il importe de définir un but précis et tangible pour mobiliser des membres et des partenaires. Ceci est aussi essentiel pour déterminer l’espace numérique concerné par le projet et, ainsi, identifier les technologies et structures sémantiques appropriées.

Quel type d’espace numérique?

Il arrive également qu’un projet de données numériques rassemble des concepts et technologies qui appartiennent à des espaces numériques différents. Ces espaces sont:

  1. Web des moteurs de recherche

Le Web que nous connaissons est ce qu’on peut appeler le « Web des documents » parce que des pages sont reliées par des réseaux de liens hypertextes.  Dans cet espace, le texte contenu dans chaque  page est indexé et exploité par des moteurs de recherche.

Wikipédia, tout comme Wikidata, est une des bases de connaissances utilisées par Google pour valider une entité qui a été reconnue sur un site web. Rédiger un article sur Wikipédia est une excellente façon d’enrichir l’encyclopédie avec des éléments historiques et culturels québécois. On peut également s’inspirer de la structure d’un article pour améliorer le contenu d’une page web et ainsi, le rendre utile pour les moteurs de recherche.

Google exploite les balises Schema.org uniquement pour certains types de contenus afin de produire des résultats enrichis, sans toutefois en garantir l’utilisation. Les consignes d’intégration des balises démontrent l’intérêt du moteur de recherche pour le développement d’ententes commerciales (données) avec certains opérateurs et intermédiaires :

  • Musique: Google ne recommande pas de modèle; des ententes ont été conclues avec les plateformes musicales.
  • Livre: le moteur précise que son modèle cible uniquement les « distributeurs à gros volume ».
  • Événement: les balises ne sont pas nécessaires si un site tiers (ex: billetterie, Facebook, Eventbrite) est utilisé.

Attention: les balises sont sans effet si le contenu de la page ne répond pas aux exigences de qualité de Google. Il est donc plus efficace d’améliorer la valeur informative des sites web d’acteurs culturels dans un domaine ou territoire donné que d’insérer des balises.

2. Web des données

Le Web sémantique, appelé aussi « Web des données », est une extension du Web des documents. Des entités ou des ressources sont représentées par des triplets de données (entité – relation – entité). Pour les moteurs de recherche, il n’y a pas de pages à indexer, ni de contenu à exploiter dans cet espace. C’est là que la conception ou, préférablement, l’adaptation d’ontologies de domaine peut être pertinente.

Verser des données dans Wikidata permet d’enrichir une base de connaissances mondiales. Il est alors possible de lier des données de différentes sources sans avoir à investir dans le développement d’infrastructures et de modèles conceptuels pour profiter des avantages du web sémantique.

Mais ceci ne rend pas une offre culturelle plus visible. Les moteurs de recherche indexent le contenu de sites web et peuvent utiliser des ressources comme Wikidata pour valider la reconnaissance d’entités.

3. Plateforme web « privée »

Des plateformes web, qui offrent des contenus et les réseaux sociaux, forment des espaces numériques privés: elles ont leurs langages et règles de représentation et d’utilisation de l’information. Les moteurs de recherche ne peuvent en indexer le contenu, d’autant que plusieurs ne sont accessibles que sur abonnement.

4. Base de données classique

Un autre type d’espace numérique très important est constitué des bases de données. Elles peuvent être interrogées à partir de sites web et également, alimenter le contenu de catalogue en ligne. Mais n’étant pas conçues avec les technologies et standards du Web, celle-ci ne sont pas accessibles aux moteurs de recherche.

5. Et les données ouvertes?

Les données ouvertes ne rendent pas ce qu’elles décrivent plus visible ou repérable pour les moteurs de recherche. Libérer des données permet à ceux qui les utilisent, de créer de la valeur sous forme de services, produits ou nouvelles connaissances. Des données ouvertes sont également nécessaires pour des initiatives de données ouvertes et liées avec les technologies du web sémantique.

Les données ou le contenu?

Les données et le contenu jouent des rôles différent pour la découverte et la repérabilité des offres culturelles selon l’espace numérique visé.

L’amélioration de la repérabilité d’offres culturelles sur le web, pour les moteurs de recherche, repose principalement sur la lisibilité de la structure d’un site web et de son contenu. L’analyse du langage qui permet la reconnaissance d’entités et l’interprétation d’un texte ne se fait pas sur des données, mais du contenu.

Il est donc important de rappeler que les moteurs de recherche indexent du texte. Le contenu leur fournit le contexte et la diversité de termes et de liens nécessaires pour alimenter leurs modèles d’organisation des connaissances. Ceux-ci sont appelés  des graphes de connaissances. Google n’utilise pas d’autre modèle que le sien.

Identifiants:  dans quels espaces?

Les données sont exploitées par une grande variété de systèmes de gestion de bases de données et, également, sous forme de données liées (ouvertes ou non), dans le web sémantique. C’est dans ces types d’espaces numériques que des identifiants uniques sous forme de données sont les plus utiles. Bien que ces derniers puissent enrichir la biographie d’une artiste ou la fiche technique d’une œuvre, sur un site web, ils ne peuvent être interprétés par les moteurs de recherche.

Découvrabilité: ça commence sur un site web

Votre site web devrait être la source d’information numérique  la plus complète et la plus fiable à votre sujet. Pour différencier une offre culturelle, il faut miser sur une description plus riche que de simples informations factuelles. En utilisant des hyperliens pour fournir plus d’information, vous signalez des entités importantes qui aident les moteurs à contextualiser votre offre. En prime: un contenu bien structuré vous permettra de mieux interpréter les statistiques d’usage de votre site.

Les moteurs de recherche améliorent sans cesse leur capacité à interpréter le contenu afin de l’utiliser pour répondre à des questions.  Nous devons réinvestir le domaine du langage sur ces espaces numériques privilégiés que sont nos sites web.

De données structurées à contenu structuré

Extraits de sites web qui répondent à des questions, sur Google.
Variabilité des textes extraits du site web en fonction de l’interprétation de l’intention de la recherche.

Je le répète: il faut retomber en amour avec nos sites web. Nous devons réinvestir le domaine du langage sur ces espaces numériques privilégiés que sont nos sites web.

L’hypertexte en réseau

Le World Wide Web dont c’est aujourd’hui l’anniversaire,  est cette application de l’Internet qui permet de relier des éléments d’information pour former un hypertexte. Nos site web sont des espaces numériques privilégiés parce des standards universels et libres nous offrent la possibilité de publier et partager des contenus, indépendamment des règles des plateformes commerciales et sociales. Sur nos sites web, nous détenons un contrôle stratégique: décider de la façon de documenter une chose et faire des liens qui la place dans un écosystème de connaissances.

Afin de réduire l’angle mort de la promotion de la culture sur le Web, nous pourrions beaucoup mieux documenter nos offres sans nécessairement plonger dans des domaines de connaissances complexes.

Le Web des moteurs de recherche

De quelles machines est-il question ici? Il s’agit des moteurs de recherche qui indexent les pages web, ce qui exclut les plateformes pour lesquelles il faut ouvrir une session (Spotify, Netflix, les réseaux sociaux). À celles-ci, on peut ajouter le Web sémantique qui est une extension du Web permettant de relier des données.  Ce sont des espaces numériques différents et qui font appel à des structures, règles et technologies spécifiques. Le Web des moteurs de recherche est celui des contenus accessibles, repérables et interopérables.

Wikidata permet de valider l’identification d’entités spécifiques et de fournir de l’information factuelle, comme une date de naissance. Cependant, c’est le contenu d’un site web qui contient le texte de la réponse à une question. Les moteurs de recherche analysent et évaluent, à présent, le texte des pages web afin d’en interpréter le sens avec certitude.

Rédiger pour des moteurs plus intelligents

L’information collectée sur les sites est mise en relation avec un système d’organisation de la connaissance qui permet de mieux interpréter une chose et d’enrichir la « compréhension » qu’a une machine de cette chose:

  • Interprétation: de quoi est-il question?
  • Classification: de quel type de chose s’agit-il?
  • Contexte: à quels autres types de choses/personnes est-ce relié?

Il faut lire l’article ci-dessous pour constater la rapidité du développement des systèmes d’analyse du langage (ce à quoi servent les graphes de connaissance). Cette évolution est en marche, que ce soit chez Google ou tout autre entreprise tirant profit de l’extraction de l’information.

It is clear that Google is moving rapidly toward a quasi-human understanding of the world and all its algorithms will increasingly rely on its understanding of entities and its confidence in its understanding.

▣ Jason Barnard. « Tracking Google Knowledge Graph Algorithm Updates & Volatility ». Search Engine Journal, 11 mars 2021.

Nous devons prioriser l’amélioration de nos sites web afin de nous rendre plus intelligibles, comme personne physique ou morale. Ceci permet de résister à une centralisation de l’information qui aplanit la diversité des expressions et des perspectives et de relier les acteurs de nos écosystèmes sans l’intervention d’algorithmes.

***

Alors, quelle serait la valeur informationnelle de votre site selon votre moteur de recherche favori?

Nouveaux milieux documentaires en manque de spécialistes des sciences de l’information

Carte de la science de l'information.
Diversité des disciplines et thèmes abordés par la science de l’information. Zythème, [CC BY-SA 3.0], Wikimedia Commons
En culture comme en commerce, les initiatives de mise en commun de données numériques, constituent de nouveaux « milieux documentaires ». Au Québec, pourtant, les compétences et méthodes du domaine des sciences de l’information sont rarement sollicitées. Les institutions d’enseignement et les associations professionnelles concernées devraient pourtant reconnaître, dans ces projets, les notions et enjeux entourant les systèmes documentaires classiques.

Voici quelques lectures récentes illustrant des défis que pourraient relever les spécialistes intéressés par ces nouveaux milieux documentaires.

Taxonomie pour des contenus en mutation

▣ Dominic Tardif. « Ces livres qui se dérobent aux étiquettes ». Le Devoir, 9 janvier 2021.

Cet article introduit certains défis actuels de l’élaboration d’un modèle de métadonnées qui permette de faire des liens entre les ressources de bases de données différentes.

Tout choix est subjectif; il n’y a donc pas de donnée neutre. Un modèle de classement ou de catégorisation peut être porteur d’exclusion, notamment de ce qui peut apparaître inclassable (personne non genrée, pratiques artistiques hybrides…) car il impose le choix d’un descriptif parmi un nombre limité d’options.

Que faire des œuvres qui n’ont pas été pensées et créées dans le cadre d’une pratique déjà bien étiquetée? Et surtout, comment documenter l’intention?

Ça devient un problème à partir du moment où des livres ne reçoivent pas la reconnaissance qu’ils devraient avoir parce qu’on les juge à partir de critères qui n’ont rien à voir avec leur projet littéraire.
Clara Dupuis-Morency, autrice et enseignante en littérature.

Comment, alors, respecter la création, anticiper les biais et éviter que la perspective d’une culture dominante n’occulte celles d’autres cultures?

Un catalogage qui se satisferait de distinguer les textes de fiction des textes entretenant un rapport plus immédiat au réel serait donc inefficace.
ibid.

Algorithmes de recommandation personnalisée

The NYT Open Team. « We Recommend Articles With a Little Help From Our Friends (Machine Learning and Reader Input) ». NYT Open, 14 janvier 2021.

Ce billet publié par l’équipe des produits numériques du New York Times met en lumière le travail d’indexation et de catalogage requis par le développement d’un algorithme de recommandation. Il souligne l’importance d’intégrer la pensée humaine aux processus automatisés de traitement documentaire.

Le nettoyage des données et l’amélioration de la qualité descriptive des métadonnées sont des opérations essentielles à l’exploitation d’une base de données. Elles le sont également dans le cas d’un programme d’apprentissage automatique ayant pour objectif l’entraînement ou le bon fonctionnement d’un algorithme de recommandation.

When we took a deeper look at a few of the incorrect labels, we could often understand why the model assigned the label, but saw that correcting the mistake requires human judgement. It takes knowledge of history and society, as well as the ability to recognize context to intuit that some articles are better suited for some interest categories than others.
The NYT Open Team

(…)

Readers trust The Times to curate content that is relevant to them, and we take this trust seriously. This algorithm, like many other AI-based decision-making systems, should not make the final call without human oversight.
ibid.

De taxonomie à ontologie: un défi de taille!

▣ Heather Hedden. « Hierarchies in Taxonomies, Thesauri, Ontologies, and Beyond ». The Accidental Taxonomist, 20 janvier 2021.

À lire avant de convertir une taxonomie (ou tout autre vocabulaire contrôlé) en ontologie. Il s’agit bien de référentiels ayant des rôles différents et la problématique réside principalement dans les caractéristiques spécifiques de ces différents modes d’organisation des connaissances. Par exemple: l’adaptation de la structure hiérarchique d’une taxonomie à la structure en graphe d’une ontologie de domaine.

The problem is that the definitions and rules for hierarchies vary depending on the kind of knowledge organization system, so you cannot assume that a hierarchy in one system converts to a hierarchy in another system.

(…)

“Hierarchy” can have various types and uses. Not all kinds of hierarchies are reflected in even in taxonomies, which tend to be quite flexible. The rules are stricter when it comes to thesauri. Finally, in ontologies, there is only one kind of hierarchy.
Heather Hedden, taxonomiste, ontologiste, autrice et formatrice.

Culture de l’information et méthodes de travail

▣ Mike Tung. « From Knowledge Graphs to Knowledge Workflows ». Diffbot, 19 janvier 2021.

Le concept de « graphe de connaissance » (knowledge graph), a été popularisé par Google, bien que des structures de données en graphes existaient auparavant dans différents domaines. Ce type de structure est souvent perçu comme une solution qui permette d’imposer un modèle descriptif assurant la visibilité et/ou l’interopérabilité de ressources informationnelles.

L’adoption d’un modèle descriptif unique entraîne cependant une uniformisation des perspectives qui conduit à l’aplatissement des connaissances. C’est également la source de problèmes rarement anticipés. Par exemple: l’adoption d’un vocabulaire commun dans toute l’organisation va-t-elle «pérenniser» vos données ou entraîner des réunions sans fin pour débattre de ses mises à jour des vocabulaires et des ontologies sont discutées?

If we instead listen to the problems information workers have, spend a day shadowing them in their jobs, and design solutions that integrate knowledge-tech in a lightweight way to automate tedium, then we have a shot at solving a larger set of problems, to benefit more of society.
Mike Tung, CEO Diffbot.

Au-delà du solutionnisme technologique, il faut explorer les bénéfices issus du développement d’une véritable culture de l’information au sein des organisations. Cela signifie que la gestion et la qualité de l’information sont des responsabilités devant être partagées dans une organisation et non plus limitées au service des technologies de l’information.

Découvrabilité hors du Web des moteurs de recherche

Greta Bahnemann, Michael Carroll, Paul Clough, Mario Einaudi, Chatham Ewing, Jeff Mixter, Jason Roy, Holly Tomren, Bruce Washburn, Elliot Williams. « Transforming Metadata into Linked Data to Improve Digital Collection Discoverability: A CONTENTdm Pilot Project. OCLC, 2021.

OCLC, un organisme sans but lucratif au service des bibliothèques, rend compte d’un projet pilote sur la transformation des métadonnées de collections en données liées. Il nous rappelle que la découvrabilité recherchée n’est pas celle qui se mesure à l’aulne des résultats de Google ou des cotes de popularité des plateformes de contenus.

Les bases de données en graphe – il faut le répéter – ne sont pas indexées par les moteurs de recherche. Il existe d’autres espaces numériques où l’accès à la culture pourrait fournir des expériences de recherche et découverte pertinentes et efficaces. Exemple: naviguer à travers des collections qui proposent des connexions que des bases de données classiques n’arrivent pas à révéler.

Representing what is locally unique yet making local information legible to outsiders and creating a mechanism where differences can be understood, bridged, and linked is an important part of what public libraries using newer descriptive systems can surface.

À l’image des initiatives de la BnF et d’Europeana, le projet d’OCLC a permis à des institutions de se familiariser avec des méthodes et outils du web sémantique :

The Linked Data project demonstrated the amount of work involved in the transition to linked data, but also that the tools exist and that the workflows can be developed.

Pour une vision systémique du numérique

Les initiatives et projets qui visent à structurer l’information pour le numérique constituent de nouveaux milieux documentaires, hors des lieux habituels que sont les bibliothèques, centres de documentation et fonds d’archives. Les professionnels des sciences de l’information sont formés pour relever les défis inhérents aux « espaces» numériques que sont les sites web, les plateformes commerciales, le Web des données et, même, les jeux de données ouvertes. Il serait temps que la rencontre entre tous ces acteurs se réalise. La réussite de nos initiatives en dépend.

L’angle mort de la promotion de l’offre culturelle sur le Web

Planche dPlanche de l’Encyclopédie de Diderot et d’Alembert: taille de la plume pour l’écriture. Morburre, [CC BY-SA 3.0], Wikimedia Commonse l’Encyclopédie de Diderot et d’Alembert: Taille de la plume pour l’écriture.
Planche de l’Encyclopédie de Diderot et d’Alembert: taille de la plume pour l’écriture. Morburre, [CC BY-SA 3.0], Wikimedia Commons
L’angle mort de la promotion de l’offre culturelle dans un monde numérique est la faible valeur informative de nos sites web.  Quand une œuvre est mieux documentée dans une brochure que sur le site de son auteur, il est clair que les sciences du langage et de l’information n’ont pas été prises en compte dans sa conception.

Or, ce ne sont plus les balises Schema.org insérées dans le code ni les articles de Wikipédia qui facilitent le travail des moteurs de recherche  en les rendant intelligents. C’est, à présent, le traitement automatique du langage naturel. Celui-ci permet aux algorithmes d’évaluer l’information présente sur une page web et lisible par les humains.

Plus l’information offerte par le texte est riche et contextualisée par des liens vers d’autres pages web, plus elle a de valeur pour nous et, par conséquent, pour les moteurs de recherche dont l’objectif est de nous offrir les meilleurs résultats possibles.

Un travail de spécialistes

Après quelques années d’accompagnement d’entrepreneurs culturels, je peux affirmer que rares sont les non-initiés sachant manier avec aisance des notions et des mécanismes qui demeurent complexes, même pour des spécialistes du Web. Ce billet sur les définitions divergentes de ce qu’est une ontologie permet de mesurer le défi d’établir une compréhension commune et claire d’une notion pourtant fondamentale des systèmes documentaires. Et pour celles et ceux qui persévèrent, les concepts et pratiques nouvellement acquis sont trop éloignés de leurs activités pour qu’ils soient en mesure de les intégrer aux opérations et de se livrer à la veille technique qui s’impose en permanence.

Structurer de l’information pour une variété d’usages et de systèmes, c’est un travail de spécialistes. Le rôle de créateurs de contenu consiste à documenter cette information et à raconter comment elle s’insère dans notre monde.  Ils peuvent se faire aider afin de produire l’information répondant le mieux aux intérêts des publics cibles et de fournir des liens nécessaires aux humains et aux machines pour apporter du contexte, favorisant ainsi la découverte.

Voici les étapes qu’il faudrait suivre afin d’améliorer la valeur informative de la page web consacrée à une offre culturelle:

1- Stratégie: quelle information, à quels publics, pour quels résultats

Mieux un contenu est documenté, plus il est susceptible de pouvoir réponse à une question. Il est donc important de baser la conception du contenu d’une page sur une solide connaissance des publics cibles. D’où la nécessité d’une stratégie et d’une concertation entre les producteurs, diffuseurs et toutes autres parties concernées. Toutefois, l’élaboration d’une stratégie de ce type requiert une formation préalable mobilisant divers spécialistes.

2- Documentation: les choses et les relations entre ces choses

L’adaptation de nos contenus culturels à l’environnement numérique commence par l’écriture. Tous les éditeurs de sites web doivent à présent mieux organiser et documenter leurs contenus pour les rendre plus repérables. Pour Google, « documenter » signifie: bien décrire un contenu et fournir du contexte en faisant des liens entre des concepts. Plus la documentation est exhaustive et clairement libellée, plus elle a de la valeur pour les utilisateurs — et plus la page web de l’offre culturelle devient une source d’information de qualité.

3- Balises: signaler certains types de contenus

Certains types de contenus — comme les vidéos, par exemple — peuvent apparaître sous forme d’extraits, dans la liste de résultats de Google (résultats enrichis). L’utilisation de balises permettant de catégoriser des contenus n’est donc pertinente que pour un petit nombre d’offres. Les modèles descriptifs recommandés sont ceux qui concernent les projets de développement des services du moteur de recherche.  De plus, les consignes à suivre évoluent en fonction du résultat des expérimentations et de l’avancement du traitement automatique du langage.

Nous devons, alors, éviter de développer des fonctionnalités qui deviennent rapidement obsolètes ou, pire, qui réduisent notre capacité d’innovation en l’encadrant dans la logique d’affaires d’une plateforme. Il faut donc que nous demeurions  extrêmement vigilants afin que nos projets nous apportent une réelle valeur et ne tombent pas dans le solutionnisme technologique.

4- Wikipédia: création d’article utile, mais non essentielle

Wikipédia facilite l’identification d’un concept ou objet spécifique, mais ce sont les pages web qui sont les sources primaires pour Google. Contrairement à la croyance courante, la production d’une fiche de réponse (appelée « knowledge panel ») résulte du traitement du contenu provenant de différentes pages web. Celles-ci sont qualifiées par le moteur de recherche pour l’information qu’elles offrent. En analysant certains brevets déposés par Google, on peut déduire que son utilisation de l’encyclopédie n’est ni constante, ni déterminante. Créer un article Wikipédia n’est donc pas une activité essentielle dans un plan de découvrabilité, même si cela peut accroître la notoriété d’un sujet lorsqu’il contient des connaissances utiles et des liens vers d’autres articles.

L’écriture: une « solution » à la portée de tous!

Adapter nos contenus culturels à l’environnement numérique commence donc par une technique millénaire: l’écriture. Nous pourrions beaucoup mieux documenter nos offres culturelles sur nos sites web sans nécessairement plonger dans des domaines de connaissance complexes. Il suffit d’apprendre à décrire des choses et les relations entre ces choses pour des systèmes qui, eux-même, apprennent à lire afin de fournir la meilleure information à leurs utilisateurs.  Bref, avant de se lancer dans la modélisation de données ou le web sémantique, il serait temps de revenir aux stratégies de communication, ainsi qu’aux bonnes pratiques de rédaction web.

Deux leviers à ajouter au rapport de la mission franco-québécoise sur la découvrabilité

Leviers de la découvrabilité des contenus culturels francophones (source: MCCQ).
Rapport franco-québécois sur la découvrabilité en ligne des contenus culturels francophones.

Le rapport sur la découvrabilité en ligne des contenus culturels francophones résulte d’une mission conjointe des ministères de la Culture du Québec et de la France. Il dresse un bon état des lieux d’un ensemble de phénomènes et d’actions, sans égarer le lecteur dans les détails techniques. Un excellent exercice de synthèse, donc, réalisé par Danielle Desjardins, auteure de plusieurs rapports pour le secteur culturel et collaboratrice du site de veille du Fonds des médias du Canada.

Cependant, dans le schéma des 12 leviers à activer pour une meilleure découvrabilité des contenus culturels francophones (voir plus haut), il manque à mon avis deux éléments essentiels:

  • Est-ce aux acteurs culturels que revient la charge de rendre l’information concernant leurs créations ou leurs offres numériquement opérationnelle?
  • Quel espace numérique offre les meilleures conditions de repérabilité, d’accessibilité et d’interopérabilité de l’information ?

Premier levier: mises à niveau des métiers du Web

Il est important de sensibiliser les acteurs culturels à l’adoption de pratiques documentaires telles que l’indexation de ressources en ligne. Ceci dit, la mise en application des principes, ainsi que le choix de modèles de représentation de contenus en ligne, sont des compétences qui ne s’acquièrent pas comme on apprend à se servir d’un logiciel. On ne peut pas attendre de toute personne et organisation du secteur culturel de tels efforts d’apprentissage. D’autant plus que la production de l’information pour le numérique fait appel à des méthodes et savoirs relevant des domaines du langage et de la représentation des connaissances autant que des technologies numériques.

Si les données structurées sont perçues comme des solutions pouvant accroître la visibilité d’offres culturelles sur nos écrans, elles appartiennent à des domaines de pratiques pas suffisamment maîtrisés au sein des métiers du Web. C’est pourtant bien vers des spécialistes en développement, intégration, référencement et optimisation que se tournent les acteurs culturels cherchant à rendre le contenu de leurs sites web plus interprétable par des machines. Or, à ma connaissance, il n’existe actuellement pas de formation et de plan de travail tenant compte de l’interdépendance des volets sémantiques, technologiques et stratégiques du web des données.

Il devient de plus en plus impératif d’identifier les connaissances à développer ou à approfondir chez les divers spécialistes contribuant à la conception de sites web aux contenus plus repérables. Il serait également souhaitable de soutenir un réseau de veille interdisciplinaire ayant pour objectif de contextualiser et d’analyser l’évolution de l’écosystème numérique.

Exemple: dans la foulée d’une étape importante de ses capacités d’interprétation (traitement automatique du langage), Google a mis à jour, cet été, ses directives d’évaluation de la qualité de l’information. Il va sans dire que c’est important.

Deuxième levier: modernisation des sites web

Dans le Web des moteurs de recherche intelligents, la reconnaissance des entités passe par l’indexation de pages web et l’analyse des contenus. Les sites web devraient donc être des sources d’information de première qualité, tant pour les internautes que pour les moteurs de recherche.

Est-il normal de ne pas trouver toute l’information, riche et détaillée, sur le site de référence d’une entreprise culturelle? Pour le bénéfice des projets numériques, il est vital de concevoir des contenus pertinents pour les machines, lesquelles évaluent à présent la qualité des sources d’information afin de générer la meilleure réponse à retourner à l’utilisateur.

Pour une productrice ou un artiste, il est beaucoup plus stratégique de faire de son site web une source primaire, en attribuant une page spécifique à la description de chaque œuvre, que de créer un article sur Wikipédia. Rappelons que Wikipédia n’est pas une source primaire pour les moteurs de recherche. De plus, l’usage du vocabulaire (Schema.org) ne leur fournit qu’un signal faible sur la nature d’une offre.

Un savoir commun, entre information et informatique

L’adaptation des contenus culturels à l’environnement numérique repose, avant tout, sur de meilleurs sites web. Ces espaces offrent les conditions optimales d’autonomie, repérabilité, accessibilité et interopérabilité. Leur modernisation requiert des acteurs clés, que sont les spécialistes du Web, une mise à niveau rapide de leurs connaissances et de leurs pratiques.

Finalement, afin d’opérer cette mise à niveau et de développer ces savoirs communs, il faut bien entendu insister sur l’interdisciplinarité entre les métiers du web et, notamment, le domaine des sciences de l’information.

Conseil en information numérique