Archives par mot-clé : google

Wikipédia, Wikidata, Google et la découvrabilité: gare au solutionnisme

Le Guide des bonnes pratiques: découvrabilité et données en culture, récemment publié par le Ministère de la Culture et des Communications du Québec, est un bel effort de synthèse. Il faut cependant plus qu’un exercice de rédaction pour transmettre à des non-initiés des connaissances sur des systèmes dont le fonctionnement et les interdépendances sont complexes, changeants et trop souvent, incompris.

Wikipédia et Wikidata: des vases communicants?

Dans ce document, plusieurs affirmations concernant Wikipédia et Wikidata, ainsi que leur utilisation par les moteurs de recherche risquent cependant d’être incorrectement interprétées.

lI est aussi dans l’intérêt d’une ou d’un artiste, peu importe son domaine, de fournir les informations à Wikidata à propos, par exemple, de ses œuvres et de son parcours sous forme de données pour alimenter Wikipédia.

Cette injonction (page 15) est un raccourci qui donne à croire qu’il suffit de saisir ou verser des données dans Wikidata pour alimenter Wikipédia. Or, il serait plus exact de dire que pour chaque article créé dans Wikipédia, un élément Wikidata existe, mais l’inverse n’est pas possible (des éléments Wikidata n’ont pas d’articles correspondants dans Wikipédia). Par exemple, pour l’article sur le chorégraphe Jean-Pierre Perreault, on a l’élément Q3169633. Pour documenter davantage l’élément, dans Wikidata, des libellés ont été ajoutés (par exemple: nom, prénom, occupation, identifiant ISNI).

Le contenu, la donnée et les moteurs de recherche

Il est important de saisir la différence et les rôles spécifiques que peuvent jouer le contenu (article) et la donnée (élément) dans des projets visant à améliorer la repérabilité et la découverte.

Les moteurs de recherche pourront par la suite les mettre en valeur lors de recherches d’internautes, notamment dans les cartes enrichies qui apparaissent souvent lorsqu’une recherche est réalisée sur Google.

Ici (page 15), encore, cette affirmation pourrait laisser croire que les moteurs de recherche puisent de l’information à même ces bases de connaissances. Ce raccourci ne tient pas compte du rôle central des sites web pour des moteurs de recherche dont le fonctionnement repose sur l’indexation de documents (pages web) et l’analyse du contenu (texte).

Par exemple, la recherche « Jean-Pierre Perreault » sur Google produit une fiche d’information qui résulte de la reconnaissance d’entités nommées dans des pages web. L’ambiguïté résultant d’une homonymie entre le chorégraphe et un professeur n’a pas été résolue pour la recherche d’images.

Résultat d'une recherche sur "jean-pierre perreault", avec Google.
Résultat d’une recherche sur « Jean-Pierre Perreault », avec Google.

Par contre, la recherche « qui est Jean-Pierre Perreault » fait appel à l’analyse du texte contenu dans les pages web qui ont été indexées par le moteur de recherche. Le résultat est enrichi, c’est-à-dire qu’il s’agit d’une réponse fournie directement à partir d’un texte extrait d’un site web dont la structure et le contenu réunissent les conditions d’autorité, expertise et fiabilité.

Résultat de la recherche "qui est Jean-Pierre Perreault", sur Google.
Résultat de la recherche « qui est Jean-Pierre Perreault », sur Google.

Base de connaissances pour la reconnaissance d’entités

Voici un autre raccourci (page 16) qui peut laisser croire que verser des données dans Wikidata est une solution au manque de visibilité des contenus culturels québécois sur le Web. Ceci peut avoir pour conséquence l’appauvrissement graduel de la valeur informationnelle des sites web, alors qu’il faudrait plutôt guider et soutenir l’adoption de meilleures pratiques pour leur conception.

Comme il a été mentionné précédemment, en saisissant vos données dans Wikidata, vous vous assurez que les moteurs de recherche peuvent les trouver//

Pour un moteur comme Google, une base de connaissances externe comme Wikidata a pour fonction de faciliter la reconnaissance d’entités nommées (personnes, lieux, œuvres, événements, etc.) et d’aider le moteur de recherche à réduire toute ambiguïté. Le rôle d’une telle base de connaissances est illustré dans le schéma ci-dessous (numéro 200). Il s’agit d’une illustration fournie dans une demande de brevet déposée par Google en 2012. Ce document, ainsi que d’autres brevets, sont très bien commentés par l’expert Bill Slawski. La compagnie développait alors sa propre base d’entités nommées (numéro 150) qui, selon les observateurs, était probablement issue de Freebase dont l’acquisition a été complétée par Google en 2014.

Utilisation de bases de connaisances par Google pour réduire l'ambiguïté entre entités nommées.
Utilisation de bases de connaissances par Google pour réduire l’ambiguïté entre entités nommées. Illustration tirée d’une demande de brevet déposée par Google, en 2012. Explications et commentaires dans ce billet de l’expert Bill Slawski.

Projets wiki: contribuer pour de bonnes raisons

Ces précisions n’ont pas pour objet de réduire l’enthousiasme des acteurs culturels et des autres citoyens pour les projets de la Fondation Wikimedia.  Bien au contraire. Elles visent d’abord, à faire connaître un peu mieux ces systèmes auxquels sont souvent attribués des fonctionnements qui ne sont pas démontrés… mais porteurs de tant d’espérances. Leur objectif principal est d’encourager des usages et des initiatives moins orientés vers le marketing et la promotion, mais qui correspondent davantage à la mission et aux valeurs de Wikimedia et à un Web universel, libre de droit, ouvert et décentralisé.

Découvrabilité: comment aiguiller des initiatives numériques vers la bonne voie

Aiguillage pour projets de données numériques
Aiguillage pour projets de données numériques – (SunsetTracksCrop), Arne Hückelheim, [CC BY-SA 3.0], Wikimedia Commons
Il est temps d’apporter un peu de clarté dans le méli-mélo de concepts qui ne sont pas très bien maîtrisés. Voici une petite mise au point qui pourrait être bénéfique pour les promoteurs d’initiatives numériques, ainsi que les organisations qui les financent.

Quel est le but?

Il arrive qu’un projet n’ait pas de but précisément déterminé: on ne sait pas quel problème il résoudra ou quels seront les résultats tangibles. Par exemple, « authentifier une œuvre » est un moyen et non, une finalité.

Il importe de définir un but précis et tangible pour mobiliser des membres et des partenaires. Ceci est aussi essentiel pour déterminer l’espace numérique concerné par le projet et, ainsi, identifier les technologies et structures sémantiques appropriées.

Quel type d’espace numérique?

Il arrive également qu’un projet de données numériques rassemble des concepts et technologies qui appartiennent à des espaces numériques différents. Ces espaces sont:

  1. Web des moteurs de recherche

Le Web que nous connaissons est ce qu’on peut appeler le « Web des documents » parce que des pages sont reliées par des réseaux de liens hypertextes.  Dans cet espace, le texte contenu dans chaque  page est indexé et exploité par des moteurs de recherche.

Wikipédia, tout comme Wikidata, est une des bases de connaissances utilisées par Google pour valider une entité qui a été reconnue sur un site web. Rédiger un article sur Wikipédia est une excellente façon d’enrichir l’encyclopédie avec des éléments historiques et culturels québécois. On peut également s’inspirer de la structure d’un article pour améliorer le contenu d’une page web et ainsi, le rendre utile pour les moteurs de recherche.

Google exploite les balises Schema.org uniquement pour certains types de contenus afin de produire des résultats enrichis, sans toutefois en garantir l’utilisation. Les consignes d’intégration des balises démontrent l’intérêt du moteur de recherche pour le développement d’ententes commerciales (données) avec certains opérateurs et intermédiaires :

  • Musique: Google ne recommande pas de modèle; des ententes ont été conclues avec les plateformes musicales.
  • Livre: le moteur précise que son modèle cible uniquement les « distributeurs à gros volume ».
  • Événement: les balises ne sont pas nécessaires si un site tiers (ex: billetterie, Facebook, Eventbrite) est utilisé.

Attention: les balises sont sans effet si le contenu de la page ne répond pas aux exigences de qualité de Google. Il est donc plus efficace d’améliorer la valeur informative des sites web d’acteurs culturels dans un domaine ou territoire donné que d’insérer des balises.

2. Web des données

Le Web sémantique, appelé aussi « Web des données », est une extension du Web des documents. Des entités ou des ressources sont représentées par des triplets de données (entité – relation – entité). Pour les moteurs de recherche, il n’y a pas de pages à indexer, ni de contenu à exploiter dans cet espace. C’est là que la conception ou, préférablement, l’adaptation d’ontologies de domaine peut être pertinente.

Verser des données dans Wikidata permet d’enrichir une base de connaissances mondiales. Il est alors possible de lier des données de différentes sources sans avoir à investir dans le développement d’infrastructures et de modèles conceptuels pour profiter des avantages du web sémantique.

Mais ceci ne rend pas une offre culturelle plus visible. Les moteurs de recherche indexent le contenu de sites web et peuvent utiliser des ressources comme Wikidata pour valider la reconnaissance d’entités.

3. Plateforme web « privée »

Des plateformes web, qui offrent des contenus et les réseaux sociaux, forment des espaces numériques privés: elles ont leurs langages et règles de représentation et d’utilisation de l’information. Les moteurs de recherche ne peuvent en indexer le contenu, d’autant que plusieurs ne sont accessibles que sur abonnement.

4. Base de données classique

Un autre type d’espace numérique très important est constitué des bases de données. Elles peuvent être interrogées à partir de sites web et également, alimenter le contenu de catalogue en ligne. Mais n’étant pas conçues avec les technologies et standards du Web, celle-ci ne sont pas accessibles aux moteurs de recherche.

5. Et les données ouvertes?

Les données ouvertes ne rendent pas ce qu’elles décrivent plus visible ou repérable pour les moteurs de recherche. Libérer des données permet à ceux qui les utilisent, de créer de la valeur sous forme de services, produits ou nouvelles connaissances. Des données ouvertes sont également nécessaires pour des initiatives de données ouvertes et liées avec les technologies du web sémantique.

Les données ou le contenu?

Les données et le contenu jouent des rôles différent pour la découverte et la repérabilité des offres culturelles selon l’espace numérique visé.

L’amélioration de la repérabilité d’offres culturelles sur le web, pour les moteurs de recherche, repose principalement sur la lisibilité de la structure d’un site web et de son contenu. L’analyse du langage qui permet la reconnaissance d’entités et l’interprétation d’un texte ne se fait pas sur des données, mais du contenu.

Il est donc important de rappeler que les moteurs de recherche indexent du texte. Le contenu leur fournit le contexte et la diversité de termes et de liens nécessaires pour alimenter leurs modèles d’organisation des connaissances. Ceux-ci sont appelés  des graphes de connaissances. Google n’utilise pas d’autre modèle que le sien.

Identifiants:  dans quels espaces?

Les données sont exploitées par une grande variété de systèmes de gestion de bases de données et, également, sous forme de données liées (ouvertes ou non), dans le web sémantique. C’est dans ces types d’espaces numériques que des identifiants uniques sous forme de données sont les plus utiles. Bien que ces derniers puissent enrichir la biographie d’une artiste ou la fiche technique d’une œuvre, sur un site web, ils ne peuvent être interprétés par les moteurs de recherche.

Découvrabilité: ça commence sur un site web

Votre site web devrait être la source d’information numérique  la plus complète et la plus fiable à votre sujet. Pour différencier une offre culturelle, il faut miser sur une description plus riche que de simples informations factuelles. En utilisant des hyperliens pour fournir plus d’information, vous signalez des entités importantes qui aident les moteurs à contextualiser votre offre. En prime: un contenu bien structuré vous permettra de mieux interpréter les statistiques d’usage de votre site.

Les moteurs de recherche améliorent sans cesse leur capacité à interpréter le contenu afin de l’utiliser pour répondre à des questions.  Nous devons réinvestir le domaine du langage sur ces espaces numériques privilégiés que sont nos sites web.

De données structurées à contenu structuré

Extraits de sites web qui répondent à des questions, sur Google.
Variabilité des textes extraits du site web en fonction de l’interprétation de l’intention de la recherche.

Je le répète: il faut retomber en amour avec nos sites web. Nous devons réinvestir le domaine du langage sur ces espaces numériques privilégiés que sont nos sites web.

L’hypertexte en réseau

Le World Wide Web dont c’est aujourd’hui l’anniversaire,  est cette application de l’Internet qui permet de relier des éléments d’information pour former un hypertexte. Nos site web sont des espaces numériques privilégiés parce des standards universels et libres nous offrent la possibilité de publier et partager des contenus, indépendamment des règles des plateformes commerciales et sociales. Sur nos sites web, nous détenons un contrôle stratégique: décider de la façon de documenter une chose et faire des liens qui la place dans un écosystème de connaissances.

Afin de réduire l’angle mort de la promotion de la culture sur le Web, nous pourrions beaucoup mieux documenter nos offres sans nécessairement plonger dans des domaines de connaissances complexes.

Le Web des moteurs de recherche

De quelles machines est-il question ici? Il s’agit des moteurs de recherche qui indexent les pages web, ce qui exclut les plateformes pour lesquelles il faut ouvrir une session (Spotify, Netflix, les réseaux sociaux). À celles-ci, on peut ajouter le Web sémantique qui est une extension du Web permettant de relier des données.  Ce sont des espaces numériques différents et qui font appel à des structures, règles et technologies spécifiques. Le Web des moteurs de recherche est celui des contenus accessibles, repérables et interopérables.

Wikidata permet de valider l’identification d’entités spécifiques et de fournir de l’information factuelle, comme une date de naissance. Cependant, c’est le contenu d’un site web qui contient le texte de la réponse à une question. Les moteurs de recherche analysent et évaluent, à présent, le texte des pages web afin d’en interpréter le sens avec certitude.

Rédiger pour des moteurs plus intelligents

L’information collectée sur les sites est mise en relation avec un système d’organisation de la connaissance qui permet de mieux interpréter une chose et d’enrichir la « compréhension » qu’a une machine de cette chose:

  • Interprétation: de quoi est-il question?
  • Classification: de quel type de chose s’agit-il?
  • Contexte: à quels autres types de choses/personnes est-ce relié?

Il faut lire l’article ci-dessous pour constater la rapidité du développement des systèmes d’analyse du langage (ce à quoi servent les graphes de connaissance). Cette évolution est en marche, que ce soit chez Google ou tout autre entreprise tirant profit de l’extraction de l’information.

It is clear that Google is moving rapidly toward a quasi-human understanding of the world and all its algorithms will increasingly rely on its understanding of entities and its confidence in its understanding.

▣ Jason Barnard. « Tracking Google Knowledge Graph Algorithm Updates & Volatility ». Search Engine Journal, 11 mars 2021.

Nous devons prioriser l’amélioration de nos sites web afin de nous rendre plus intelligibles, comme personne physique ou morale. Ceci permet de résister à une centralisation de l’information qui aplanit la diversité des expressions et des perspectives et de relier les acteurs de nos écosystèmes sans l’intervention d’algorithmes.

***

Alors, quelle serait la valeur informationnelle de votre site selon votre moteur de recherche favori?

L’angle mort de la promotion de l’offre culturelle sur le Web

Planche dPlanche de l’Encyclopédie de Diderot et d’Alembert: taille de la plume pour l’écriture. Morburre, [CC BY-SA 3.0], Wikimedia Commonse l’Encyclopédie de Diderot et d’Alembert: Taille de la plume pour l’écriture.
Planche de l’Encyclopédie de Diderot et d’Alembert: taille de la plume pour l’écriture. Morburre, [CC BY-SA 3.0], Wikimedia Commons
L’angle mort de la promotion de l’offre culturelle dans un monde numérique est la faible valeur informative de nos sites web.  Quand une œuvre est mieux documentée dans une brochure que sur le site de son auteur, il est clair que les sciences du langage et de l’information n’ont pas été prises en compte dans sa conception.

Or, ce ne sont plus les balises Schema.org insérées dans le code ni les articles de Wikipédia qui facilitent le travail des moteurs de recherche  en les rendant intelligents. C’est, à présent, le traitement automatique du langage naturel. Celui-ci permet aux algorithmes d’évaluer l’information présente sur une page web et lisible par les humains.

Plus l’information offerte par le texte est riche et contextualisée par des liens vers d’autres pages web, plus elle a de valeur pour nous et, par conséquent, pour les moteurs de recherche dont l’objectif est de nous offrir les meilleurs résultats possibles.

Un travail de spécialistes

Après quelques années d’accompagnement d’entrepreneurs culturels, je peux affirmer que rares sont les non-initiés sachant manier avec aisance des notions et des mécanismes qui demeurent complexes, même pour des spécialistes du Web. Ce billet sur les définitions divergentes de ce qu’est une ontologie permet de mesurer le défi d’établir une compréhension commune et claire d’une notion pourtant fondamentale des systèmes documentaires. Et pour celles et ceux qui persévèrent, les concepts et pratiques nouvellement acquis sont trop éloignés de leurs activités pour qu’ils soient en mesure de les intégrer aux opérations et de se livrer à la veille technique qui s’impose en permanence.

Structurer de l’information pour une variété d’usages et de systèmes, c’est un travail de spécialistes. Le rôle de créateurs de contenu consiste à documenter cette information et à raconter comment elle s’insère dans notre monde.  Ils peuvent se faire aider afin de produire l’information répondant le mieux aux intérêts des publics cibles et de fournir des liens nécessaires aux humains et aux machines pour apporter du contexte, favorisant ainsi la découverte.

Voici les étapes qu’il faudrait suivre afin d’améliorer la valeur informative de la page web consacrée à une offre culturelle:

1- Stratégie: quelle information, à quels publics, pour quels résultats

Mieux un contenu est documenté, plus il est susceptible de pouvoir réponse à une question. Il est donc important de baser la conception du contenu d’une page sur une solide connaissance des publics cibles. D’où la nécessité d’une stratégie et d’une concertation entre les producteurs, diffuseurs et toutes autres parties concernées. Toutefois, l’élaboration d’une stratégie de ce type requiert une formation préalable mobilisant divers spécialistes.

2- Documentation: les choses et les relations entre ces choses

L’adaptation de nos contenus culturels à l’environnement numérique commence par l’écriture. Tous les éditeurs de sites web doivent à présent mieux organiser et documenter leurs contenus pour les rendre plus repérables. Pour Google, « documenter » signifie: bien décrire un contenu et fournir du contexte en faisant des liens entre des concepts. Plus la documentation est exhaustive et clairement libellée, plus elle a de la valeur pour les utilisateurs — et plus la page web de l’offre culturelle devient une source d’information de qualité.

3- Balises: signaler certains types de contenus

Certains types de contenus — comme les vidéos, par exemple — peuvent apparaître sous forme d’extraits, dans la liste de résultats de Google (résultats enrichis). L’utilisation de balises permettant de catégoriser des contenus n’est donc pertinente que pour un petit nombre d’offres. Les modèles descriptifs recommandés sont ceux qui concernent les projets de développement des services du moteur de recherche.  De plus, les consignes à suivre évoluent en fonction du résultat des expérimentations et de l’avancement du traitement automatique du langage.

Nous devons, alors, éviter de développer des fonctionnalités qui deviennent rapidement obsolètes ou, pire, qui réduisent notre capacité d’innovation en l’encadrant dans la logique d’affaires d’une plateforme. Il faut donc que nous demeurions  extrêmement vigilants afin que nos projets nous apportent une réelle valeur et ne tombent pas dans le solutionnisme technologique.

4- Wikipédia: création d’article utile, mais non essentielle

Wikipédia facilite l’identification d’un concept ou objet spécifique, mais ce sont les pages web qui sont les sources primaires pour Google. Contrairement à la croyance courante, la production d’une fiche de réponse (appelée « knowledge panel ») résulte du traitement du contenu provenant de différentes pages web. Celles-ci sont qualifiées par le moteur de recherche pour l’information qu’elles offrent. En analysant certains brevets déposés par Google, on peut déduire que son utilisation de l’encyclopédie n’est ni constante, ni déterminante. Créer un article Wikipédia n’est donc pas une activité essentielle dans un plan de découvrabilité, même si cela peut accroître la notoriété d’un sujet lorsqu’il contient des connaissances utiles et des liens vers d’autres articles.

L’écriture: une « solution » à la portée de tous!

Adapter nos contenus culturels à l’environnement numérique commence donc par une technique millénaire: l’écriture. Nous pourrions beaucoup mieux documenter nos offres culturelles sur nos sites web sans nécessairement plonger dans des domaines de connaissance complexes. Il suffit d’apprendre à décrire des choses et les relations entre ces choses pour des systèmes qui, eux-même, apprennent à lire afin de fournir la meilleure information à leurs utilisateurs.  Bref, avant de se lancer dans la modélisation de données ou le web sémantique, il serait temps de revenir aux stratégies de communication, ainsi qu’aux bonnes pratiques de rédaction web.

Deux leviers à ajouter au rapport de la mission franco-québécoise sur la découvrabilité

Leviers de la découvrabilité des contenus culturels francophones (source: MCCQ).
Rapport franco-québécois sur la découvrabilité en ligne des contenus culturels francophones.

Le rapport sur la découvrabilité en ligne des contenus culturels francophones résulte d’une mission conjointe des ministères de la Culture du Québec et de la France. Il dresse un bon état des lieux d’un ensemble de phénomènes et d’actions, sans égarer le lecteur dans les détails techniques. Un excellent exercice de synthèse, donc, réalisé par Danielle Desjardins, auteure de plusieurs rapports pour le secteur culturel et collaboratrice du site de veille du Fonds des médias du Canada.

Cependant, dans le schéma des 12 leviers à activer pour une meilleure découvrabilité des contenus culturels francophones (voir plus haut), il manque à mon avis deux éléments essentiels:

  • Est-ce aux acteurs culturels que revient la charge de rendre l’information concernant leurs créations ou leurs offres numériquement opérationnelle?
  • Quel espace numérique offre les meilleures conditions de repérabilité, d’accessibilité et d’interopérabilité de l’information ?

Premier levier: mises à niveau des métiers du Web

Il est important de sensibiliser les acteurs culturels à l’adoption de pratiques documentaires telles que l’indexation de ressources en ligne. Ceci dit, la mise en application des principes, ainsi que le choix de modèles de représentation de contenus en ligne, sont des compétences qui ne s’acquièrent pas comme on apprend à se servir d’un logiciel. On ne peut pas attendre de toute personne et organisation du secteur culturel de tels efforts d’apprentissage. D’autant plus que la production de l’information pour le numérique fait appel à des méthodes et savoirs relevant des domaines du langage et de la représentation des connaissances autant que des technologies numériques.

Si les données structurées sont perçues comme des solutions pouvant accroître la visibilité d’offres culturelles sur nos écrans, elles appartiennent à des domaines de pratiques pas suffisamment maîtrisés au sein des métiers du Web. C’est pourtant bien vers des spécialistes en développement, intégration, référencement et optimisation que se tournent les acteurs culturels cherchant à rendre le contenu de leurs sites web plus interprétable par des machines. Or, à ma connaissance, il n’existe actuellement pas de formation et de plan de travail tenant compte de l’interdépendance des volets sémantiques, technologiques et stratégiques du web des données.

Il devient de plus en plus impératif d’identifier les connaissances à développer ou à approfondir chez les divers spécialistes contribuant à la conception de sites web aux contenus plus repérables. Il serait également souhaitable de soutenir un réseau de veille interdisciplinaire ayant pour objectif de contextualiser et d’analyser l’évolution de l’écosystème numérique.

Exemple: dans la foulée d’une étape importante de ses capacités d’interprétation (traitement automatique du langage), Google a mis à jour, cet été, ses directives d’évaluation de la qualité de l’information. Il va sans dire que c’est important.

Deuxième levier: modernisation des sites web

Dans le Web des moteurs de recherche intelligents, la reconnaissance des entités passe par l’indexation de pages web et l’analyse des contenus. Les sites web devraient donc être des sources d’information de première qualité, tant pour les internautes que pour les moteurs de recherche.

Est-il normal de ne pas trouver toute l’information, riche et détaillée, sur le site de référence d’une entreprise culturelle? Pour le bénéfice des projets numériques, il est vital de concevoir des contenus pertinents pour les machines, lesquelles évaluent à présent la qualité des sources d’information afin de générer la meilleure réponse à retourner à l’utilisateur.

Pour une productrice ou un artiste, il est beaucoup plus stratégique de faire de son site web une source primaire, en attribuant une page spécifique à la description de chaque œuvre, que de créer un article sur Wikipédia. Rappelons que Wikipédia n’est pas une source primaire pour les moteurs de recherche. De plus, l’usage du vocabulaire (Schema.org) ne leur fournit qu’un signal faible sur la nature d’une offre.

Un savoir commun, entre information et informatique

L’adaptation des contenus culturels à l’environnement numérique repose, avant tout, sur de meilleurs sites web. Ces espaces offrent les conditions optimales d’autonomie, repérabilité, accessibilité et interopérabilité. Leur modernisation requiert des acteurs clés, que sont les spécialistes du Web, une mise à niveau rapide de leurs connaissances et de leurs pratiques.

Finalement, afin d’opérer cette mise à niveau et de développer ces savoirs communs, il faut bien entendu insister sur l’interdisciplinarité entre les métiers du web et, notamment, le domaine des sciences de l’information.

Découvrabilité: des métadonnées, oui, mais dans quel but?

Machinerie (chaîne de montage)
Machine à produire des résultats. Tetra Pak [CC BY-SA 2.0], Wikimedia Commons
Il faut encore le répéter: produire des métadonnées n’est pas une stratégie et se contenter d’intégrer des balises Schema.org dans une page web ne garantit pas nécessairement la découvrabilité d’une offre. À l’inverse, par contre, une bonne stratégie permet de choisir les bons outils et les bonnes métadonnées.

Retour sur des notes prises en lisant des propositions de projets numériques.

À la recherche de la stratégie perdue

L’absence de réflexion stratégique est le talon d’Achille de la plupart des propositions de projets et de plans de découvrabilité. Pourtant, qu’il s’agisse de baliser des types de contenu à l’intention des moteurs de recherche ou de décrire des ressources dans un catalogue en ligne, la production de métadonnées utiles s’appuie sur la connaissance des publics cibles et des résultats recherchés.

La meilleure façon d’évaluer le résultat des efforts déployés pour qu’une offre ou un contenu rejoigne ses publics est de fixer des objectifs mesurables et réalistes. Et pour cela, il faut avoir élaboré une stratégie basée sur la connaissance du marché, des opportunités et des contraintes propres à l’organisation.

Les connexions entre votre offre et ses publics cibles

Les algorithmes des plateformes évoluent vers une personnalisation accrue des réponses qu’elles proposent en s’appuyant sur les profils de leurs utilisateurs. Nos sites web devraient faire de même en fournissant des éléments d’information qui « parlent » aux publics cibles et qui, conséquemment, facilitent le travail des moteurs de recherche.

Petit rappel: nous découvrons de l’information sur l’interface d’un moteur de recherche, mais c’est celui-ci qui la trouve. Et cela, en fonction d’un traitement algorithmique fondé sur :

  • la popularité (ou l’autorité) des contenus;
  • leur similarité avec le profil et l’historique de navigation de l’utilisateur.

Avant de tout miser sur des métadonnées

Voici quelques éléments clés sur lesquels réfléchir avant de déterminer les activités à réaliser dans le cadre d’un plan de découvrabilité:

  • Peu importe les activités évoquées par le terme, la découvrabilité n’est mesurable qu’à l’aide des objectifs déterminés par la stratégie. Pas de stratégie: pas d’objectifs donc pas d’évaluation des résultats. Et cela s’applique autant à une stratégie de promotion qu’à des initiatives de mutualisation de données et de modélisation de connaissances pour le web sémantique.
  • Les moteurs de recherche ne sont que l’un des vecteurs de la découverte. Celle-ci n’advient pas que par l’entremise de machines car la recommandation est encore largement sociale — réseaux sociaux, réseaux professionnels et académiques, bibliothécaires, libraires, médias et publications spécialisées. Les métadonnées ne sont que l’un des moyens à mettre en œuvre, au même titre qu’une page Facebook ou une chaîne YouTube, au service d’une stratégie.
  • Se contenter d’intégrer des balises ne permet pas aux moteurs de recherche de fournir aux utilisateurs les réponses correspondant le plus à leurs profils ni de différencier une offre au sein d’une même catégorie, comme des événements, par exemple.
  • Les deux cotés d’une même page :
    • Métadonnées dans le code HTML: les modèles Schema.org permettent aux moteurs de recherche de catégoriser des types de contenu.
    • Données dans le contenu d’une page web: certains éléments d’information repérables, tels que des entités nommées et des mots clés, facilitent la contextualisation et la personnalisation des résultats de recherche.
  • Il faut se tenir bien informé de l’évolution du moteur de recherche et de ses consignes d’utilisation avant d’indexer des offres avec Schema.org. Les objectifs de Google varient dans le temps, selon les types de contenu et selon les ententes qu’il conclut avec certaines grandes sources de données, comme par exemple, des plateformes musicales.
  • Un site web qui fournit de l’information structurée pour des machines et qui contribue à un écosystème de liens utiles pour des humains est un excellent investissement stratégique.
  • Tous les acteurs de l’écosystème numérique d’une offre culturelle contribuent au rayonnement de celle-ci par l’information offerte sur leurs sites web . Ceux-ci participent également au déploiement d’un réseau d’hyperliens fournissant des données contextuelles aux moteurs de recherche et des parcours de découverte aux humains.
  • Un bon plan de découvrabilité résulte d’une connaissance des publics cibles et de l’utilisation réfléchie et coordonnée de différents outils: référencement, modèles Schema.org, contributions à Wikipédia et Wikidata, publications sur des réseaux sociaux, campagnes de promotion et publicité.

Il n’existe pas de recette gagnante: une stratégie de visibilité et de rayonnement est spécifique à chaque projet. Le succès d’un plan découvrabilité dépend de choix qui sont alignés sur cette stratégie afin de publier la bonne information, dans le bon format, au bon endroit et pour le bon public.

Comment faire un plan de « découvrabilité » pour des résultats mesurables

« La grande absente de la plupart des initiatives numériques, c’est la stratégie. »
Photo: Kelly Sikkema via Unsplash

Depuis peu, en culture, on retrouve un volet « découvrabilité » dans la plupart des appels à projets. S’agit-il d’une application technologique, de techniques de référencement ou d’une campagne de promotion numérique?  L’absence d’explications concrètes et de description des compétences requises met les  demandeurs (ainsi que les bailleurs de fonds!) dans une situation où ils ne disposent pas des guides nécessaires pour savoir ce qu’il faut faire, ni quels résultats escompter.

Un  projet dans un projet

Assurer la repérabilité d’une nouvelle création ou d’une nouvelle offre est un projet à part entière, avec ses ressources, ses objectifs et ses réalisations. Il ne s’agit pas de mettre en commun ce que chacun aura produit de son côté, mais de produire des contributions s’alimentant les unes des autres. C’est pourquoi, dans nos velléités de transformation numérique, le travail en silo est un frein à la réussite de nos projets.

Les mots qui font des connexions

C’est l’information fournie à propos des choses qui est repérable — pas les choses en elles-mêmes. Cette distinction est extrêmement importante puisque c’est le choix des éléments descriptifs qui retient l’attention d’audiences cibles et qui permet aux moteurs de recherche de connecter des offres à des intentions et des profils d’utilisateurs.

Sous le couvert nébuleux de la découvrabilité, il existe en réalité des pratiques et des standards permettant de structurer l’information pour le Web afin d’en assurer la repérabilité, l’accessibilité et l’interopérabilité.

Google ne parle pas web sémantique

Représenter des connaissances avec les technologies du web sémantique (URI, RDF…) et structurer de l’information pour des moteurs de recherche sont des projets différents qui n’ont pas les mêmes finalités.

Si votre objectif est de faire découvrir votre offre culturelle en vous servant, entre autres, des moteurs de recherche pour générer des visites, des visionnements ou des achats, le web sémantique ne vous sera d’aucune utilité!

Google n’exploite que le langage de balisage Schema.org

Pas de « découvrabilité » sans stratégie

La grande lacune de la plupart des plans de découvrabilité est l’absence ou la faiblesse de la stratégie comment pousser les bons contenus aux bons publics, sur les bons canaux, pour atteindre des objectifs mesurables. Or, ce travail est essentiel à plusieurs titres:

1 – Connaître les publics et fixer des objectifs

À quels besoins et à quels publics votre offre est-elle susceptible de répondre? Les objectifs à atteindre doivent être déterminés en fonction des intérêts et comportements de ces publics cibles ainsi que de leurs possibles relations à l’offre.

2 – Différencier votre offre

Le vocabulaire Schema.org permet de fournir une description détaillée d’une offre culturelle. Google n’en utilise cependant que certains éléments. Baliser une offre de spectacle n’est pas suffisant pour permettre à celle-ci de se différencier de milliers d’autres offres. La connaissance des publics fournit les éléments d’information et le vocabulaire pouvant aider les moteurs de recherche à faire des connexions entre les intentions et profils des utilisateurs et les offres disponibles.

3 – Faire travailler des spécialistes ensemble

Les balises et le référencement par mots clés sont des outils complémentaires s’appuyant sur la stratégie de promotion. Accroître la découverte commence par la présentation de l’offre sur le site web . Ceci a pour but de faciliter le travail des moteurs de recherche et d’améliorer l’expérience de l’utilisateur avec leur interfaces.

4 – Relier les acteurs de l’écosystème

Si un site web est absolument essentiel et stratégique, d’autres présences numériques contribuent au rayonnement d’une offre. Une bonne stratégie met donc à contribution les acteurs de l’écosystème en identifiant des points d’entrée (réseau social, vidéo, site partenaire, etc.) et en multipliant ainsi les parcours de découverte.

5 – Ne pas compter uniquement sur Google

En se contentant de produire des métadonnées sous forme de balises Schema.org, on se conforme aux modèles et directives qui répondent avant tout aux objectifs d’affaires d’un géant du numérique. Bien que le balisage d’offres pour les moteurs de recherche fasse partie des bonnes pratiques web, Google ne garantit aucun résultat (longue lecture, mais excellent billet).

6 – Mesurer l’atteinte des objectifs

Finalement, la découverte d’offres culturelles sur un moteur de recherche est difficilement mesurable. Elle dépend de plusieurs facteurs extrêmement variables, comme le profil, l’intention présumée par l’algorithme et les usages antérieurs de chaque utilisateur. Ce sont donc les objectifs et indicateurs de mesure ayant été déterminés dans le plan stratégique qui permettront d’évaluer la réussite de celui-ci.

Utiliser des métadonnées sans tomber dans le solutionnisme

Ce ne sont pas les métadonnées qui produisent des résultats, mais les moyens déterminés par la stratégie. Il faut donc proposer des initiatives plus marquantes pour la diffusion et l’appréciation de nos offres culturelles. Par exemple, renouveler l’expérience de recherche sur un site en présentant l’information sous forme de fiches, de façon similaire à Google, mais selon d’autres règles que la popularité et la similarité.

Il n’existe pas de recette. Chaque projet étant unique, il doit se différencier pour se démarquer, et ce grâce au choix des canaux, plateformes, mots, images et liens adressés aux bons publics.

Surtout, il ne faut pas se contenter d’appliquer les consignes de Google. On doit également chercher à comprendre l’interaction complexe des systèmes et identifier les éléments stratégiques que nous pouvons contrôler.

Enfin, nous ne pouvons pas encourager le milieu culturel à se conformer à un système dont nous ne comprenons pas le fonctionnement et dénoncer, dans le même temps, la domination et l’opacité des GAFAM. Cette contradiction en dit long sur les connaissances qu’il nous reste à acquérir…

Faire parler les images: repérabilité et interopérabilité des métadonnées

Indexation participative d'une photographie.
Indexation participative d’une photographie. Photogestion [CC BY-SA 4.0], Wikimedia Commons
Je mentionnais dans un précédent billet sur le rayonnement des offres  culturelles  que « des images qui parlent et font du lien » facilitent le travail des moteurs de recherche.

Les images sont des éléments d’information et des données. Elles améliorent le repérage d’entités (personnes, organisations, œuvres, lieux, événements) dans des pages web. Elles contribuent au développement de nouveaux parcours de découverte. À titre d’exemple, nous pouvons mentionner le moteur de recherche Google Images (créé en juillet 2001) et Wikimedia Commons où sont déposées un nombre grandissant d’images, dont celles de galeries d’art, pour en favoriser la réutilisation.

Voici deux annonces récentes qui devraient sensibiliser les éditeurs de sites web et professionnels du numérique à l’importance de documenter les images et/ou d’adopter de meilleurs pratiques.

IIIF (International Image Interoperability Framework)

D’abord, le mois dernier, IIIF annonçait que l’annotation des images s’étend désormais aux images des contenus audio et images en mouvement (vidéo, film). De plus, lIIF rend son modèle compatible avec l’écosystème des données liées en passant du modèle Open Annotation aux standards du Web (W3C Web Annotations) et en facilitant l’usage du langage JSON-LD pour exprimer les données. IIIF est un format de transmission de données: il ne permet pas de gérer des collections.

A critical element of this release is the ability to move beyond static digital images to present and annotate audio and moving images. This is done by adding duration to the existing IIIF canvas model, which also features x and y coordinates as means of selecting and annotating regions. Now, images and video can be juxtaposed using open source software viewers — allowing the public to view time-based media in open source media players, and allowing researchers to use open assets to create new tools and works including critical editions, annotated oral histories, musical works with thematic markup, and more.

IIIF Announces Final Release of 3.0 Specifications

Google Images

Cette semaine, Google dévoilait une nouvelle fonctionnalité qui permet de spécifier les informations relatives à la licence d’utilisation d’une image: licence payante, Creative Commons. Cette fonctionnalité permet d’utiliser le langage de balisage Schema.org (appelé « données structurées » par la plateforme) ou les métadonnées IPTC qui sont incrustées dans les fichiers des photos numériques.

L’un des moyens permettant d’indiquer à Google qu’une image peut être concédée sous licence consiste à ajouter des champs de données structurées. Ces données structurées représentent un format normalisé permettant de fournir des informations sur une page et de classer son contenu.

Licence d’image dans Google Images (BÊTA)

 

Et si le rayonnement des offres culturelles passait par de meilleurs sites web?

Illustration du concept de pertinence dans un écosystème numérique
Concept de « pertinence », dans un écosystème numérique. GinsuText [CC BY-SA 3.0], Wikimedia Commons
Favoriser la visibilité des contenus culturels québécois en ligne n’est pas une question de technologie. Les solutions technologiques, quelles qu’elles soient, ne peuvent améliorer la qualité de l’information. À ce titre, je ne parle pas des bases de données. Leur absence de traitement documentaire adéquat est connue. Je parle du contenu de sites web que même la présence de balises Schema n’arrive pas à rendre plus exploitable par des moteurs de recherche.

Structurer l’information autour d’entités repérables

Pourtant, plus de vingt ans après la naissance du web, la conception de sites est encore largement influencée par la production de documents imprimés.  Si la forme et le design se sont adaptés aux modes et aux supports, la structure et la conception de l’information n’ont pas bougé. Nos sites sont encore conçus pour être lus par des humains.

Voici quelques éléments qui sont essentiels pour faciliter le repérage d’entités (personnes, organisations, œuvres, lieux, événements) par des moteurs de recherche et autres applications.

Un site pour être dans le web

Un site web est au centre d’un écosystème numérique. C’est une adresse où se trouve de l’information accessible selon des standards universels et ouverts. C’est également un espace de publication qui n’est pas assujetti à d’autres objectifs que ceux de son propriétaire. Constitué de pages et de documents reliés entre eux et à d’autres sites web par des hyperliens, il peut se trouver sur le parcours d’utilisateurs et de moteurs de recherche. Un site web marque l’existence d’une entité dans cette application qui opère sur l’Internet et qui s’appelle le Web.

Ne compter que sur des réseaux sociaux pour avoir une présence numérique est une pratique qui réduit le potentiel de rayonnement et de découverte de nos contenus culturels.

Une URL pour chaque offre

Le développement des moteurs évolue rapidement vers le repérage et l’interprétation d’entités nommées (noms propres ou expressions définies comme un événement) dans des données non structurées. Pour faciliter le repérage d’un événement ou d’une œuvre, il faut lui attribuer une page spécifique. Publier plusieurs offres dans la même page ne permet pas à une machine de traiter adéquatement l’information qui y est présente. L’unicité et la persistance de l’URL signalent la présence d’une entité «événement» ou «œuvre» qui est liée à l’entité organisation.

Des mots qui connectent avec des publics

L’intégration des balises du vocabulaire Schema.org permet d’identifier des types d’offres. Leur usage ne permet cependant pas aux moteurs de recherche de différencier une offre d’autres offres similaires. Ce sont alors des mots (description, titre, caractéristiques) qui peuvent générer des liens entre l’information recherchée par des utilisateurs et les données non structurées qui sont présentes dans la page web.

Le choix des mots employés est stratégique parce que ceux-ci peuvent être utilisés pour fournir une réponse plus précise à une question (et cela, tant dans le contenu d’une page que dans le balisage qui est intégré dans son code HTML). Il s’agit d’établir des connexions avec les vocabulaires et intérêts des publics cibles et de rendre le contenu indexé unique ou le distinguer d’autres contenus similaires.

Des images qui parlent et font du lien

Parmi les conditions qui facilitent le traitement de l’information par les moteurs de recherche, on ignore trop souvent celles qui concernent les images. Une page qui comprend une image sera préférée à une autre qui n’en a pas. Si des liens, dans le code HTML de la page, fournissent un accès à des fichiers contenant trois résolutions de cette image (1X1, 4X3, 16X9), le contenu sera assurément exploitable. dans des résultats de recherche et sur de petits écrans. Notez que l’optimisation des images est automatiquement prise en charge par certains systèmes de gestion de contenu et certains thèmes de  WordPress.

Nommer le fichier d’une image en utilisant des mots qui sont pertinents avec la description de son contenu en facilite l’exploitation et la gestion.

Des liens pour relier des entités nommées

Ne pas faire de liens, hors d’un site web, afin d’y retenir les internautes nuit au rayonnement. Le déploiement de liens entre les acteurs concernés par la création, production et diffusion d’un contenu culturel souligne la présence numérique de chacun. La simple présence de liens vers des sources d’information externes enrichit l’information tout en favorisant des découvertes. Par exemple, relier des entités nommées autour d’une production audiovisuelle (œuvres musicales, lieu historique, réalisatrice et d’acteurs) améliore leur potentiel d’être découvertes par des humains et des machines.

Des sites web pour construire un réseau d’hyperliens

Le rayonnement et la découverte de nos contenus culturels sur le web dépendent, avant tout, de l’organisation et de la structure de l’information sur nos sites web. Ne pas avoir son propre site, c’est ne pas faire partie du web ouvert, interopérable et de plus en plus interprétable par des machines. C’est également laisser à d’autres le soin de parler de vous. Mais, c’est surtout, renoncer aux moyens les plus simples et accessibles (vous rappellez-vous les blogolistes ou « blog roll » ?) que nous ayons pour relier les personnes, les organisations, les œuvres, les événements et les lieux, sur nos territoires et sur tout le Québec.

Mais si l’amélioration de la qualité de l’information numérique repose sur de meilleurs sites web, faudrait-il alors revoir les programmes de financement qui en excluent le développement ?

Les acteurs culturels doivent-ils devenir spécialistes de l’information numérique ?

Les fournisseurs de services web ne sont-ils pas en première ligne lorsqu’il s’agit de conseiller et de réaliser des projets pour les acteurs culturels ? La même question se pose concernant les exigences de découvrablité des programmes de financement. Où sont les compétences nécessaires pour offrir un accompagnent qui soit susceptible d’apporter des améliorations notables ?

Nécessaire mise à jour des connaissances et des programmes de formation

En l’absence de connaissances formalisées et de méthodes pédagogiques pour améliorer la littératie de l’information numérique (car c’est bien de cela dont il s’agit), le milieu culturel est laissé à lui-même. Il fait face à une variété d’interprétations, d’approches et de propositions stratégiques et technologiques dont il n’est pas en mesure d’évaluer l’exactitude, la pertinence ou le rendement potentiel.

Il serait donc urgent de réunir des représentants des domaines des sciences de l’information et des technologies numériques, des secteurs industriels et académiques,  afin de proposer une mise à jour des compétences et des formations.

Découvertes culturelles: au-delà du marketing et du techno-solutionnisme

Wikipedia as a marketing tool, livre sur Google Books
Les utilisateurs préfèreraient-ils une encyclopédie ou un répertoire commercial?

Notre focalisation sur le marketing et les solutions technologiques est-elle un risque pour la diversité culturelle ? L’absence de vision partagée et la course aux résultats  peuvent-elles faire perdre aux acteurs de la culture la maîtrise stratégique des choix en matière de diffusion et d’accès ?

Nous espérons des solutions mécanistes qui accroîtront la consommation en imposant des offres culturelles à la façon des vieux modèles publicitaires. La mise en données de contenus culturels ne doit pas nous faire oublier qu’il appartient à chacun de réaliser la partie la plus stratégique d’un projet numérique : décider de la façon dont une chose (une œuvre, par exemple) doit être documentée et déterminer ce qui la relie à d’autres informations dans le web des données.

L’emploi du mot « initiative », de préférence à « projet », souligne l’importance de la démarche et des apprentissages, par rapport à la livraison d’un outil ou la modernisation d’un système. Voici comment nos initiatives pourraient être plus marquantes.

Miser sur l’éducation et l’accès à la culture

Le marketing peut entraîner la consommation de produits et services culturels, mais ce sont l’éducation et l’accès à la culture qui peuvent faire découvrir et apprécier la culture.  Or, il faudrait une plus grande porosité entre les politiques et projets éducatifs et culturels pour miser sur l’environnement familial et social pour faire connaître la culture.

Il faudrait également donner un rôle plus actif, dans nos plans et initiatives numériques, aux médiateurs de proximité que sont les professionnels des bibliothèques publiques et scolaires.

Privilégier les initiatives qui favorisent la diversité

Nous cherchons, par tous les moyens,  à ce que la culture locale soit vue et consommée, de préférence à d’autres offres.  Nos propositions techniques partagent cependant les défauts des plateformes dominantes. Qu’il s’agisse de baliser des contenus pour les moteurs de recherche ou de créer de nouvelles bases de données interrogeables, la façon dont sont conçues ces  « solutions » technologiques nuit à la diversité des offres culturelles.

  • La centralisation des décisions et du traitement de l’information renforce l’uniformisation.
  • La popularité comme principal critère de sélection défavorise les contenus de niche, les cultures et langues en situation minoritaire dans un répertoire, sur un territoire ou par rapport au reste du monde.
  • L’uniformisation du traitement documentaire, par l’imposition d’une méthode de classification, de vocabulaires et de référentiels spécifiques, appauvrit la qualité de l’information. Par conséquent, elle en diminue l’intérêt et la valeur pour différents publics.  Les initiatives de  décolonisation des modèles descriptifs tentent de réparer les ravages du rouleau compresseur de l’uniformisation sur la citoyenneté culturelle des peuples autochtones.
  • Les systèmes de recommandations et de personnalisation des offres  culturelles reposent sur la similarité des produits et services ou sur la similarité des profils des utilisateurs.

Ne pas céder des choix stratégiques

À l’arrivée de l’informatique, nous avons confié l’organisation de l’information à des systèmes de bases de données, selon les termes d’entreprises. Il est temps de remettre, selon nos propres termes, cette intelligence dans nos sites web et, plus spécifiquement, dans nos catalogues, collections, répertoires,  fonds et archives. Nous ne devrions pas abandonner la création de sens et de liens à des opérateurs de plateformes et à des fournisseurs de services.

Être trouvé ou découvert et laisser des traces numériques sont les fruits d’un travail de documentation. Celui-ci est trop souvent escamoté par la recherche d’une solution technologique. De plus, les façons de décrire des productions ou des offres culturelles offrent peu de possibilité de mettre celles-ci en relation avec des intérêts et des passions.

Par exemple, les catalogues et répertoires en ligne pourraient grandement améliorer l’expérience des utilisateurs en devenant des bases de connaissances interactives et interconnectées. Il serait ainsi possible d’intégrer de nouvelles informations et des liens vers d’autres ressources grâce aux contributions de chercheurs et d’amateurs.

Documenter: laisser des traces, créer du lien et faire sa marque

Documenter la culture et rendre cette information pertinente, attrayante et utile pour divers publics et usages sont la responsabilité de tous les acteurs du milieu culturel. Il manque une méthode de travail et des outils faciles à utiliser pour réaliser, en équipe ou avec des partenaires, l’évaluation de l’information publiée sur le web et le choix des métadonnées qui feront des liens entre les offres culturelles et les publics cibles.

C’est dans cette perspective qu’a été conçu un guide destiné aux artistes et aux organisations du milieu de la danse. Cette approche, en trois étapes (stratégie, information, technologie) repousse les choix technologiques à la toute dernière étape afin de remettre la documentation de la danse à ceux et celles qui la font.

Extraits du lancement du guide Bien documenter pour favoriser la découverte en ligne, réalisé pour la Fondation Jean-Pierre Perreault, dans le cadre de l’initiative La danse dans le web des données.