Archives par mot-clé : wikipédia

Découvrabilité: les données et métadonnées sont-elles toujours utiles?

De façon générale, les initiatives visant à promouvoir une offre culturelle afin de favoriser sa « découvrabilité » concernent les moteurs de recherche comme Google ou des plateformes en ligne, existantes ou à concevoir. Ce sont cependant deux types de projets différents pour lesquels le type d’information à produire détermine des activités, compétences et ressources nécessaires différentes.

Google: rédiger et communiquer

Afin de fournir des réponses sous forme d’extraits, Google exploite le texte de pages HTML bien conçues et avec du bon contenu. Des données, même encodées sous forme de balises, n’ont pas les qualités d’interprétabilité et d’expressivité d’un texte. Ceci est d’autant plus important que, depuis plus d’une décennie, l’algorithme de Google est entré dans le domaine du langage humain. Alphabet, la compagnie propriétaire du moteur de recherche, expérimente Bard, une technologie similaire à ChatGPT.

Pour atteindre les objectifs d’une stratégie numérique, il y aurait donc intérêt à améliorer le contenu rédactionnel du site en tenant compte des intérêts des publics cibles et des principes d’optimisation. On ne répétera jamais assez que la connaissance du marché est la clé de la relation entre une offre culturelle et ses publics cibles.

Balises Schema.org et fonctionnalités de Google

Pour générer des aperçus détaillés liées à des offres culturelles, Google n’utilise que deux éléments du langage de balisage Schema.org: Book et Event.

La balise Book s’applique au livre, mais son usage est cependant limitée aux fournisseurs proposant un large choix de livres. Cette préférence pour des intermédiaires commerciaux concerne aussi la deuxième balise, Event, qui décrit un événement. Il n’est généralement pas nécessaire de la produire car les données sont collectées auprès des billetteries et exploitées uniquement durant une courte période précédant la date du spectacle.

Un contenu rédactionnel riche et pérenne, sur un site bien conçu, est donc essentiel pour se démarquer et se positionner auprès de clientèles ciblées.

Plateformes: documenter et organiser

La production et l’utilisation de données et métadonnées convient à des projets qui ont pour objectif de faciliter la gestion et l’utilisation de l’information. En voici des exemples:

Ajouter des données dans Wikidata les rend découvrables et réutilisables sur cette plateforme. Celle-ci offre également la possibilité de partager et lier des données sans avoir à maîtriser l’architecture complexe du Web sémantique.

Des projets sont également réalisés en exploitant des données de Wikidata en complémentarité avec d’autres sources de données.

D’autres projets centrés sur les données concernent l’adoption d’un modèle de métadonnées pour des plateformes et des catalogues en ligne. Dans un domaine tel que la musique, par exemple, le référencement d’œuvres selon un modèle uniforme sert à harmoniser les données produites par différents acteurs de l’industrie utilisant les mêmes systèmes ou plateformes.

L’adoption de normes et de bonnes pratiques communes pour produire des données permet également d’optimiser des stratégies de promotion et de collecter de l’information plus précise sur la consommation.

On ne devrait cependant pas imposer un seul modèle de métadonnées pour tous les systèmes. Par exemple, une bibliothèque et une librairie ne décrivent pas un livre de la même façon en raison de leurs missions et activités spécifiques. De plus, un modèle est fait de choix et d’exclusions, ce qui soulève d’importants enjeux de diversité culturelle et de décolonisation.

Rédiger un texte ou produire des données?

La rédaction et les données ont des usages et des objectifs spécifiques. Un texte descriptif permet de communiquer de l’information de façon expressive, alors que des données permettent d’organiser et de réutiliser de l’information. Ces deux types de production numérique ne doivent pas être confondus :

Rédaction (Méta)données
Attention d’une audience Réutilisation de l’information
Récit, narration Entités, éléments factuels
Composition éditoriale Structure logique
Créativité, style, ton Standardisation
Signification indépendante du contexte Signification dépendante du contexte
Tableau – Quel type de production choisir selon l’objectif ou l’usage

Un texte à propos d’une création musicale a un plus grand potentiel d’attention et de séduction que des données brutes, surtout pour une personne ne connaissant ni l’œuvre ni ses interprètes. Par conséquent, sur une page web, il aura beaucoup plus de valeur pour l’algorithme de Google, qui pourra l’analyser, le contextualiser et en utiliser les extraits répondant aux questions des utilisateurs.

Comme on l’a vu plus précédemment, les données jouent un rôle central dans une plateforme d’écoute en continu car elles permettent d’en enrichir les fonctionnalités (recherche, tri, recommandation, etc.). Elles ne jouent cependant pas celui d’une campagne de promotion.

  • Rédaction – Par exemple, votre projet repose sur la transmission d’information rédigée à l’intention de vos publics sur un site web, un réseau social, un média numérique ou Wikipédia (dans le respect de ses principes fondateurs).
  • Données et métadonnées – Par exemple, votre projet repose sur l’organisation, le tri et la représentation de l’information dans un catalogue en ligne, une base de données classique, des graphes de données liées avec les technologies du Web sémantique ou un projet comme Wikidata.

En conclusion

Le problème de la découvrabilité, c’est de mettre la solution avant le diagnostic et la stratégie. C’est peut-être aussi, comme le dit Jean-Robert Bisaillon, le résultat du « récupérationnisme politique ». L’emballement qui pousse les individus et organisations à produire des données dans le but d’influencer les moteurs de recherche tient en effet du solutionnisme et nuit au développement d’expertise.

Il faut apprendre à la fois à rédiger pour des publics cibles et à prendre soin des données, là où elles sont utiles. Toute initiative de promotion d’offres culturelles doit reposer sur une réflexion stratégique et une méthodologie de projet spécifique. Également, il ne peut y avoir de progrès sans un suivi constant des technologies numériques que l’on envisage de mettre en œuvre afin de promouvoir l’accès à la connaissance et à la culture. Pour cela, il est nécessaire que les programmes de soutien prévoient des budgets et échéanciers conséquents.

Découvrabilité: oui, mais dans quel environnement technologique?

Quatre environnements technologiques: Web, base de données, données ouvertes et liées, données ouvertes.
Découvrabilité: quel type de projet? Quatre environnements technologiques et types de projets numériques pertinents.

Favoriser la découverte d’une offre pour atteindre un objectif c’est bien, mais dans quel environnement technologique? La réponse à cette question, rarement abordée, pourrait pourtant aiguiller certains projets ciblant les moteurs de recherche vers de meilleures pratiques de conception et de rédaction pour le Web plutôt que vers la création de métadonnées.

Recherchée: méthodologie de projet

Parmi les écueils qui constituent des risques pour la réussite d’un projet, j’ai déjà élaboré sur le but et le solutionnisme technologique. Le but (résultat mesurable) est fréquemment confondu avec les moyens (découvrabilité).  L’énonciation d’un but fait partie d’un exercice stratégique. Celui-ci est escamoté, de même que l’identification des besoins, lorsque des moyens technologiques semblent apporter une réponse simple à une situation pourtant complexe.

Ces écueils pourraient être évités en adoptant une démarche de réalisation de projet qui débute avec une réflexion stratégique. Ce sujet devrait figurer au premier plan des différents coffres à outils proposés, en culture comme dans tous les domaines.

Numérique: différents environnements technologiques

Voici à présent, un troisième écueil qui peut apporter son lot de problèmes: la méconnaissance d’un univers où se croisent, sans nécessairement se connecter, divers domaines d’expertise.

Ce que nous désignons généralement comme « le numérique » rassemble des environnements technologiques qui ont des langages, structures, normes et, surtout, des objectifs et usages bien spécifiques. Voici les environnements que l’on peut retrouver dans des projets

Web (pages)

Celui des moteurs de recherche: c’est à dire les sites et plateformes développés avec les standards du Web et et dont le contenu est accessible et indexable. Seul le contenu de type HTML est exploité pour répondre aux demandes des utilisateurs. Dans cet objectif, des métadonnées comme des identifiants internationaux (par exemple: ISNI) ou locaux (par exemple: numéros uniques d’œuvres) présentent beaucoup moins d’intérêt, pour les algorithmes, qu’une bonne description à la Wikipédia. Ces métadonnées seront, par contre, très importantes dans des environnements centrés sur les données, comme les trois suivants.

Celui des jardins clos, au contenu non accessible aux moteurs de recherche, car il n’est volontairement pas ouvert et conforme aux standards du Web. On y trouve les plateformes accessibles aux détenteurs de compte (payants ou gratuit), comme les réseaux sociaux et les sites d’écoute musicale.

Web sémantique (données ouvertes et liées)

Il s’agit d’une extension du Web qui utilise des technologies, standards et infrastructures différentes de celles du Web auquel nos navigateurs nous permettent d’accéder. Ce type de contenu qui n’est pas du HTML ne peut être indexé, interprété et utilisé par les moteurs de recherche à titre de résultat.

Contribuer à Wikidata peut intéresser des initiatives de données ouvertes et liées qui ne souhaiteraient pas développer leurs propres infrastructure et modèle de représentation.

Base de données relationnelles

Même si celle-ci peut servir à alimenter des pages web, une base données n’est pas « dans le Web » et donc, inaccessible à des moteurs de recherche comme Google. Par contre, un bon modèle de données et des métadonnées appropriées à la mission et aux utilisateurs cibles participent à la conception d’interfaces de recherche et de découverte.

Données ouvertes

Libérer des données est, en soi, un projet comprenant plusieurs étapes importantes afin de rendre celles-ci disponibles sous forme de fichier(s). Ce type de démarche est réalisé en amont d’un projet de données ouvertes et liées. Si des métadonnées permettent de décrire un jeu de données, les données elles-mêmes ne font pas partie du contenu exploitable par les moteurs de recherche.

Quel est l’environnement concerné?

Il est important de bien cerner le problème, ou d’identifier et prioriser les besoins, avant de développer une stratégie et de se pencher sur les outils technologiques. Ceci réduira considérablement les risques et coûts associés à des choix qui ne pas alignés sur le résultat attendu, notamment en raison de l’incompatibilité de plateformes, langages, applications et usages.

Voici, des types de projets qui correspondent aux environnements technologiques présentés précédemment:

Site web
Promotion et visibilité de l’information par l’entremise de moteurs de recherche commerciaux.

Données ouvertes
Réutilisation de données pour la recherche ou le développement d’applications.

Données ouvertes et liées
Réutilisation de données avec les technologies du Web sémantique: bases de connaissances interconnectées, fonctions avancées d’analyse et de recherche.

Base de données relationnelle
Gestion et utilisation  de données, comme celles d’un catalogue d’enregistrements musicaux, par exemple, par des applications.

Il est possible que plus d’un environnement technologique soit concerné par un projet. Dans ce cas, il est impératif de rechercher des expertises, planifier des budgets et gérer des projets qui seront spécifiques à chacun des environnements.

* * *

Il est plus que temps d’améliorer la littératie numérique de tous les acteurs participant à des projets. Et plus précisément, connaître les particularités des différents environnements technologiques. C’est une mise à niveau qui devrait logiquement concerner les bailleurs de fonds, les prestataires de services de conception et les spécialistes des sciences de l’information.  Dans ce contexte, on devrait se demander s’il est souhaitable que les acteurs du domaine culturel soient les seuls à faire des apprentissages essentiels à la transformation numérique de tout l’écosystème.

Wikipédia, Wikidata, Google et la découvrabilité: gare au solutionnisme

Le Guide des bonnes pratiques: découvrabilité et données en culture, récemment publié par le Ministère de la Culture et des Communications du Québec, est un bel effort de synthèse. Il faut cependant plus qu’un exercice de rédaction pour transmettre à des non-initiés des connaissances sur des systèmes dont le fonctionnement et les interdépendances sont complexes, changeants et trop souvent, incompris.

Wikipédia et Wikidata: des vases communicants?

Dans ce document, plusieurs affirmations concernant Wikipédia et Wikidata, ainsi que leur utilisation par les moteurs de recherche risquent cependant d’être incorrectement interprétées.

lI est aussi dans l’intérêt d’une ou d’un artiste, peu importe son domaine, de fournir les informations à Wikidata à propos, par exemple, de ses œuvres et de son parcours sous forme de données pour alimenter Wikipédia.

Cette injonction (page 15) est un raccourci qui donne à croire qu’il suffit de saisir ou verser des données dans Wikidata pour alimenter Wikipédia. Or, il serait plus exact de dire que pour chaque article créé dans Wikipédia, un élément Wikidata existe, mais l’inverse n’est pas possible (des éléments Wikidata n’ont pas d’articles correspondants dans Wikipédia). Par exemple, pour l’article sur le chorégraphe Jean-Pierre Perreault, on a l’élément Q3169633. Pour documenter davantage l’élément, dans Wikidata, des libellés ont été ajoutés (par exemple: nom, prénom, occupation, identifiant ISNI).

Le contenu, la donnée et les moteurs de recherche

Il est important de saisir la différence et les rôles spécifiques que peuvent jouer le contenu (article) et la donnée (élément) dans des projets visant à améliorer la repérabilité et la découverte.

Les moteurs de recherche pourront par la suite les mettre en valeur lors de recherches d’internautes, notamment dans les cartes enrichies qui apparaissent souvent lorsqu’une recherche est réalisée sur Google.

Ici (page 15), encore, cette affirmation pourrait laisser croire que les moteurs de recherche puisent de l’information à même ces bases de connaissances. Ce raccourci ne tient pas compte du rôle central des sites web pour des moteurs de recherche dont le fonctionnement repose sur l’indexation de documents (pages web) et l’analyse du contenu (texte).

Par exemple, la recherche « Jean-Pierre Perreault » sur Google produit une fiche d’information qui résulte de la reconnaissance d’entités nommées dans des pages web. L’ambiguïté résultant d’une homonymie entre le chorégraphe et un professeur n’a pas été résolue pour la recherche d’images.

Résultat d'une recherche sur "jean-pierre perreault", avec Google.
Résultat d’une recherche sur « Jean-Pierre Perreault », avec Google.

Par contre, la recherche « qui est Jean-Pierre Perreault » fait appel à l’analyse du texte contenu dans les pages web qui ont été indexées par le moteur de recherche. Le résultat est enrichi, c’est-à-dire qu’il s’agit d’une réponse fournie directement à partir d’un texte extrait d’un site web dont la structure et le contenu réunissent les conditions d’autorité, expertise et fiabilité.

Résultat de la recherche "qui est Jean-Pierre Perreault", sur Google.
Résultat de la recherche « qui est Jean-Pierre Perreault », sur Google.

Base de connaissances pour la reconnaissance d’entités

Voici un autre raccourci (page 16) qui peut laisser croire que verser des données dans Wikidata est une solution au manque de visibilité des contenus culturels québécois sur le Web. Ceci peut avoir pour conséquence l’appauvrissement graduel de la valeur informationnelle des sites web, alors qu’il faudrait plutôt guider et soutenir l’adoption de meilleures pratiques pour leur conception.

Comme il a été mentionné précédemment, en saisissant vos données dans Wikidata, vous vous assurez que les moteurs de recherche peuvent les trouver//

Pour un moteur comme Google, une base de connaissances externe comme Wikidata a pour fonction de faciliter la reconnaissance d’entités nommées (personnes, lieux, œuvres, événements, etc.) et d’aider le moteur de recherche à réduire toute ambiguïté. Le rôle d’une telle base de connaissances est illustré dans le schéma ci-dessous (numéro 200). Il s’agit d’une illustration fournie dans une demande de brevet déposée par Google en 2012. Ce document, ainsi que d’autres brevets, sont très bien commentés par l’expert Bill Slawski. La compagnie développait alors sa propre base d’entités nommées (numéro 150) qui, selon les observateurs, était probablement issue de Freebase dont l’acquisition a été complétée par Google en 2014.

Utilisation de bases de connaisances par Google pour réduire l'ambiguïté entre entités nommées.
Utilisation de bases de connaissances par Google pour réduire l’ambiguïté entre entités nommées. Illustration tirée d’une demande de brevet déposée par Google, en 2012. Explications et commentaires dans ce billet de l’expert Bill Slawski.

Projets wiki: contribuer pour de bonnes raisons

Ces précisions n’ont pas pour objet de réduire l’enthousiasme des acteurs culturels et des autres citoyens pour les projets de la Fondation Wikimedia.  Bien au contraire. Elles visent d’abord, à faire connaître un peu mieux ces systèmes auxquels sont souvent attribués des fonctionnements qui ne sont pas démontrés… mais porteurs de tant d’espérances. Leur objectif principal est d’encourager des usages et des initiatives moins orientés vers le marketing et la promotion, mais qui correspondent davantage à la mission et aux valeurs de Wikimedia et à un Web universel, libre de droit, ouvert et décentralisé.

Deux leviers à ajouter au rapport de la mission franco-québécoise sur la découvrabilité

Leviers de la découvrabilité des contenus culturels francophones (source: MCCQ).
Rapport franco-québécois sur la découvrabilité en ligne des contenus culturels francophones.

Le rapport sur la découvrabilité en ligne des contenus culturels francophones résulte d’une mission conjointe des ministères de la Culture du Québec et de la France. Il dresse un bon état des lieux d’un ensemble de phénomènes et d’actions, sans égarer le lecteur dans les détails techniques. Un excellent exercice de synthèse, donc, réalisé par Danielle Desjardins, auteure de plusieurs rapports pour le secteur culturel et collaboratrice du site de veille du Fonds des médias du Canada.

Cependant, dans le schéma des 12 leviers à activer pour une meilleure découvrabilité des contenus culturels francophones (voir plus haut), il manque à mon avis deux éléments essentiels:

  • Est-ce aux acteurs culturels que revient la charge de rendre l’information concernant leurs créations ou leurs offres numériquement opérationnelle?
  • Quel espace numérique offre les meilleures conditions de repérabilité, d’accessibilité et d’interopérabilité de l’information ?

Premier levier: mises à niveau des métiers du Web

Il est important de sensibiliser les acteurs culturels à l’adoption de pratiques documentaires telles que l’indexation de ressources en ligne. Ceci dit, la mise en application des principes, ainsi que le choix de modèles de représentation de contenus en ligne, sont des compétences qui ne s’acquièrent pas comme on apprend à se servir d’un logiciel. On ne peut pas attendre de toute personne et organisation du secteur culturel de tels efforts d’apprentissage. D’autant plus que la production de l’information pour le numérique fait appel à des méthodes et savoirs relevant des domaines du langage et de la représentation des connaissances autant que des technologies numériques.

Si les données structurées sont perçues comme des solutions pouvant accroître la visibilité d’offres culturelles sur nos écrans, elles appartiennent à des domaines de pratiques pas suffisamment maîtrisés au sein des métiers du Web. C’est pourtant bien vers des spécialistes en développement, intégration, référencement et optimisation que se tournent les acteurs culturels cherchant à rendre le contenu de leurs sites web plus interprétable par des machines. Or, à ma connaissance, il n’existe actuellement pas de formation et de plan de travail tenant compte de l’interdépendance des volets sémantiques, technologiques et stratégiques du web des données.

Il devient de plus en plus impératif d’identifier les connaissances à développer ou à approfondir chez les divers spécialistes contribuant à la conception de sites web aux contenus plus repérables. Il serait également souhaitable de soutenir un réseau de veille interdisciplinaire ayant pour objectif de contextualiser et d’analyser l’évolution de l’écosystème numérique.

Exemple: dans la foulée d’une étape importante de ses capacités d’interprétation (traitement automatique du langage), Google a mis à jour, cet été, ses directives d’évaluation de la qualité de l’information. Il va sans dire que c’est important.

Deuxième levier: modernisation des sites web

Dans le Web des moteurs de recherche intelligents, la reconnaissance des entités passe par l’indexation de pages web et l’analyse des contenus. Les sites web devraient donc être des sources d’information de première qualité, tant pour les internautes que pour les moteurs de recherche.

Est-il normal de ne pas trouver toute l’information, riche et détaillée, sur le site de référence d’une entreprise culturelle? Pour le bénéfice des projets numériques, il est vital de concevoir des contenus pertinents pour les machines, lesquelles évaluent à présent la qualité des sources d’information afin de générer la meilleure réponse à retourner à l’utilisateur.

Pour une productrice ou un artiste, il est beaucoup plus stratégique de faire de son site web une source primaire, en attribuant une page spécifique à la description de chaque œuvre, que de créer un article sur Wikipédia. Rappelons que Wikipédia n’est pas une source primaire pour les moteurs de recherche. De plus, l’usage du vocabulaire (Schema.org) ne leur fournit qu’un signal faible sur la nature d’une offre.

Un savoir commun, entre information et informatique

L’adaptation des contenus culturels à l’environnement numérique repose, avant tout, sur de meilleurs sites web. Ces espaces offrent les conditions optimales d’autonomie, repérabilité, accessibilité et interopérabilité. Leur modernisation requiert des acteurs clés, que sont les spécialistes du Web, une mise à niveau rapide de leurs connaissances et de leurs pratiques.

Finalement, afin d’opérer cette mise à niveau et de développer ces savoirs communs, il faut bien entendu insister sur l’interdisciplinarité entre les métiers du web et, notamment, le domaine des sciences de l’information.