Découvrabilité: oui, mais dans quel environnement technologique?

Quatre environnements technologiques: Web, base de données, données ouvertes et liées, données ouvertes.
Découvrabilité: quel type de projet? Quatre environnements technologiques et types de projets numériques pertinents.

Favoriser la découverte d’une offre pour atteindre un objectif c’est bien, mais dans quel environnement technologique? La réponse à cette question, rarement abordée, pourrait pourtant aiguiller certains projets ciblant les moteurs de recherche vers de meilleures pratiques de conception et de rédaction pour le Web plutôt que vers la création de métadonnées.

Recherchée: méthodologie de projet

Parmi les écueils qui constituent des risques pour la réussite d’un projet, j’ai déjà élaboré sur le but et le solutionnisme technologique. Le but (résultat mesurable) est fréquemment confondu avec les moyens (découvrabilité).  L’énonciation d’un but fait partie d’un exercice stratégique. Celui-ci est escamoté, de même que l’identification des besoins, lorsque des moyens technologiques semblent apporter une réponse simple à une situation pourtant complexe.

Ces écueils pourraient être évités en adoptant une démarche de réalisation de projet qui débute avec une réflexion stratégique. Ce sujet devrait figurer au premier plan des différents coffres à outils proposés, en culture comme dans tous les domaines.

Numérique: différents environnements technologiques

Voici à présent, un troisième écueil qui peut apporter son lot de problèmes: la méconnaissance d’un univers où se croisent, sans nécessairement se connecter, divers domaines d’expertise.

Ce que nous désignons généralement comme « le numérique » rassemble des environnements technologiques qui ont des langages, structures, normes et, surtout, des objectifs et usages bien spécifiques. Voici les environnements que l’on peut retrouver dans des projets

Web (pages)

Celui des moteurs de recherche: c’est à dire les sites et plateformes développés avec les standards du Web et et dont le contenu est accessible et indexable. Seul le contenu de type HTML est exploité pour répondre aux demandes des utilisateurs. Dans cet objectif, des métadonnées comme des identifiants internationaux (par exemple: ISNI) ou locaux (par exemple: numéros uniques d’œuvres) présentent beaucoup moins d’intérêt, pour les algorithmes, qu’une bonne description à la Wikipédia. Ces métadonnées seront, par contre, très importantes dans des environnements centrés sur les données, comme les trois suivants.

Celui des jardins clos, au contenu non accessible aux moteurs de recherche, car il n’est volontairement pas ouvert et conforme aux standards du Web. On y trouve les plateformes accessibles aux détenteurs de compte (payants ou gratuit), comme les réseaux sociaux et les sites d’écoute musicale.

Web sémantique (données ouvertes et liées)

Il s’agit d’une extension du Web qui utilise des technologies, standards et infrastructures différentes de celle du Web auquel nos navigateurs nous permettent d’accéder. Ce type de contenu qui n’est pas du HTML ne peut être indexé, interprété et utilisé par les moteurs de recherche à titre de résultat.

Contribuer à Wikidata peut intéresser des initiatives de données ouvertes et liées qui ne souhaiteraient pas développer leurs propres infrastructure et modèle de représentation.

Base de données relationnelles

Même si celle-ci peut servir à alimenter des pages web, une base données n’est pas « dans le Web » et donc, inaccessible à des moteurs de recherche comme Google. Par contre, un bon modèle de données et des métadonnées appropriées à la mission et aux utilisateurs cibles participent à la conception d’interfaces de recherche et de découverte.

Données ouvertes

Libérer des données est, en soi, un projet comprenant plusieurs étapes importantes afin de rendre celles-ci disponibles sous forme de fichier(s). Ce type de démarche est réalisé en amont d’un projet de données ouvertes et liées. Si des métadonnées permettent de décrire un jeu de données, les données elles-mêmes ne font pas partie du contenu exploitable par les moteurs de recherche.

Quel est l’environnement concerné?

Il est important de bien cerner le problème, ou d’identifier et prioriser les besoins, avant de développer une stratégie et de se pencher sur les outils technologiques. Ceci réduira considérablement les risques et coûts associés à des choix qui ne pas alignés sur le résultat attendu, notamment en raison de l’incompatibilité de plateformes, langages, applications et usages.

Voici, des types de projets qui correspondent aux environnements technologiques présentés précédemment:

Site web
Promotion et visibilité de l’information par l’entremise de moteurs de recherche commerciaux.

Données ouvertes
Réutilisation de données pour la recherche ou le développement d’applications.

Données ouvertes et liées
Réutilisation de données avec les technologies du Web sémantique: bases de connaissances interconnectées, fonctions avancées d’analyse et de recherche.

Base de données relationnelle
Gestion et utilisation  de données, comme celles d’un catalogue d’enregistrements musicaux, par exemple, par des applications.

Il est possible que plus d’un environnement technologique soit concerné par un projet. Dans ce cas, il est impératif de rechercher des expertises, planifier des budgets et gérer des projets qui seront spécifiques à chacun des environnements.

* * *

Il est plus que temps d’améliorer la littératie numérique de tous les acteurs participant à des projets. Et plus précisément, connaître les particularités des différents environnements technologiques. C’est une mise à niveau qui devrait logiquement concerner les bailleurs de fonds, les prestataires de services de conception et les spécialistes des sciences de l’information.  Dans ce contexte, on devrait se demander s’il est souhaitable que les acteurs du domaine culturel soient les seuls à faire des apprentissages essentiels à la transformation numérique de tout l’écosystème.

Découvrabilité: comment aiguiller des initiatives numériques vers la bonne voie

Aiguillage pour projets de données numériques
Aiguillage pour projets de données numériques – (SunsetTracksCrop), Arne Hückelheim, [CC BY-SA 3.0], Wikimedia Commons
Il est temps d’apporter un peu de clarté dans le méli-mélo de concepts qui ne sont pas très bien maîtrisés. Voici une petite mise au point qui pourrait être bénéfique pour les promoteurs d’initiatives numériques, ainsi que les organisations qui les financent.

Quel est le but?

Il arrive qu’un projet n’ait pas de but précisément déterminé: on ne sait pas quel problème il résoudra ou quels seront les résultats tangibles. Par exemple, « authentifier une œuvre » est un moyen et non, une finalité.

Il importe de définir un but précis et tangible pour mobiliser des membres et des partenaires. Ceci est aussi essentiel pour déterminer l’espace numérique concerné par le projet et, ainsi, identifier les technologies et structures sémantiques appropriées.

Quel type d’espace numérique?

Il arrive également qu’un projet de données numériques rassemble des concepts et technologies qui appartiennent à des espaces numériques différents. Ces espaces sont:

  1. Web des moteurs de recherche

Le Web que nous connaissons est ce qu’on peut appeler le « Web des documents » parce que des pages sont reliées par des réseaux de liens hypertextes.  Dans cet espace, le texte contenu dans chaque  page est indexé et exploité par des moteurs de recherche.

Wikipédia, tout comme Wikidata, est une des bases de connaissances utilisées par Google pour valider une entité qui a été reconnue sur un site web. Rédiger un article sur Wikipédia est une excellente façon d’enrichir l’encyclopédie avec des éléments historiques et culturels québécois. On peut également s’inspirer de la structure d’un article pour améliorer le contenu d’une page web et ainsi, le rendre utile pour les moteurs de recherche.

Google exploite les balises Schema.org uniquement pour certains types de contenus afin de produire des résultats enrichis, sans toutefois en garantir l’utilisation. Les consignes d’intégration des balises démontrent l’intérêt du moteur de recherche pour le développement d’ententes commerciales (données) avec certains opérateurs et intermédiaires :

  • Musique: Google ne recommande pas de modèle; des ententes ont été conclues avec les plateformes musicales.
  • Livre: le moteur précise que son modèle cible uniquement les « distributeurs à gros volume ».
  • Événement: les balises ne sont pas nécessaires si un site tiers (ex: billetterie, Facebook, Eventbrite) est utilisé.

Attention: les balises sont sans effet si le contenu de la page ne répond pas aux exigences de qualité de Google. Il est donc plus efficace d’améliorer la valeur informative des sites web d’acteurs culturels dans un domaine ou territoire donné que d’insérer des balises.

2. Web des données

Le Web sémantique, appelé aussi « Web des données », est une extension du Web des documents. Des entités ou des ressources sont représentées par des triplets de données (entité – relation – entité). Pour les moteurs de recherche, il n’y a pas de pages à indexer, ni de contenu à exploiter dans cet espace. C’est là que la conception ou, préférablement, l’adaptation d’ontologies de domaine peut être pertinente.

Verser des données dans Wikidata permet d’enrichir une base de connaissances mondiales. Il est alors possible de lier des données de différentes sources sans avoir à investir dans le développement d’infrastructures et de modèles conceptuels pour profiter des avantages du web sémantique.

Mais ceci ne rend pas une offre culturelle plus visible. Les moteurs de recherche indexent le contenu de sites web et peuvent utiliser des ressources comme Wikidata pour valider la reconnaissance d’entités.

3. Plateforme web « privée »

Des plateformes web, qui offrent des contenus et les réseaux sociaux, forment des espaces numériques privés: elles ont leurs langages et règles de représentation et d’utilisation de l’information. Les moteurs de recherche ne peuvent en indexer le contenu, d’autant que plusieurs ne sont accessibles que sur abonnement.

4. Base de données classique

Un autre type d’espace numérique très important est constitué des bases de données. Elles peuvent être interrogées à partir de sites web et également, alimenter le contenu de catalogue en ligne. Mais n’étant pas conçues avec les technologies et standards du Web, celle-ci ne sont pas accessibles aux moteurs de recherche.

5. Et les données ouvertes?

Les données ouvertes ne rendent pas ce qu’elles décrivent plus visible ou repérable pour les moteurs de recherche. Libérer des données permet à ceux qui les utilisent, de créer de la valeur sous forme de services, produits ou nouvelles connaissances. Des données ouvertes sont également nécessaires pour des initiatives de données ouvertes et liées avec les technologies du web sémantique.

Les données ou le contenu?

Les données et le contenu jouent des rôles différent pour la découverte et la repérabilité des offres culturelles selon l’espace numérique visé.

L’amélioration de la repérabilité d’offres culturelles sur le web, pour les moteurs de recherche, repose principalement sur la lisibilité de la structure d’un site web et de son contenu. L’analyse du langage qui permet la reconnaissance d’entités et l’interprétation d’un texte ne se fait pas sur des données, mais du contenu.

Il est donc important de rappeler que les moteurs de recherche indexent du texte. Le contenu leur fournit le contexte et la diversité de termes et de liens nécessaires pour alimenter leurs modèles d’organisation des connaissances. Ceux-ci sont appelés  des graphes de connaissances. Google n’utilise pas d’autre modèle que le sien.

Identifiants:  dans quels espaces?

Les données sont exploitées par une grande variété de systèmes de gestion de bases de données et, également, sous forme de données liées (ouvertes ou non), dans le web sémantique. C’est dans ces types d’espaces numériques que des identifiants uniques sous forme de données sont les plus utiles. Bien que ces derniers puissent enrichir la biographie d’une artiste ou la fiche technique d’une œuvre, sur un site web, ils ne peuvent être interprétés par les moteurs de recherche.

Découvrabilité: ça commence sur un site web

Votre site web devrait être la source d’information numérique  la plus complète et la plus fiable à votre sujet. Pour différencier une offre culturelle, il faut miser sur une description plus riche que de simples informations factuelles. En utilisant des hyperliens pour fournir plus d’information, vous signalez des entités importantes qui aident les moteurs à contextualiser votre offre. En prime: un contenu bien structuré vous permettra de mieux interpréter les statistiques d’usage de votre site.

Les moteurs de recherche améliorent sans cesse leur capacité à interpréter le contenu afin de l’utiliser pour répondre à des questions.  Nous devons réinvestir le domaine du langage sur ces espaces numériques privilégiés que sont nos sites web.

De données structurées à contenu structuré

Extraits de sites web qui répondent à des questions, sur Google.
Variabilité des textes extraits du site web en fonction de l’interprétation de l’intention de la recherche.

Je le répète: il faut retomber en amour avec nos sites web. Nous devons réinvestir le domaine du langage sur ces espaces numériques privilégiés que sont nos sites web.

L’hypertexte en réseau

Le World Wide Web dont c’est aujourd’hui l’anniversaire,  est cette application de l’Internet qui permet de relier des éléments d’information pour former un hypertexte. Nos site web sont des espaces numériques privilégiés parce des standards universels et libres nous offrent la possibilité de publier et partager des contenus, indépendamment des règles des plateformes commerciales et sociales. Sur nos sites web, nous détenons un contrôle stratégique: décider de la façon de documenter une chose et faire des liens qui la place dans un écosystème de connaissances.

Afin de réduire l’angle mort de la promotion de la culture sur le Web, nous pourrions beaucoup mieux documenter nos offres sans nécessairement plonger dans des domaines de connaissances complexes.

Le Web des moteurs de recherche

De quelles machines est-il question ici? Il s’agit des moteurs de recherche qui indexent les pages web, ce qui exclut les plateformes pour lesquelles il faut ouvrir une session (Spotify, Netflix, les réseaux sociaux). À celles-ci, on peut ajouter le Web sémantique qui est une extension du Web permettant de relier des données.  Ce sont des espaces numériques différents et qui font appel à des structures, règles et technologies spécifiques. Le Web des moteurs de recherche est celui des contenus accessibles, repérables et interopérables.

Wikidata permet de valider l’identification d’entités spécifiques et de fournir de l’information factuelle, comme une date de naissance. Cependant, c’est le contenu d’un site web qui contient le texte de la réponse à une question. Les moteurs de recherche analysent et évaluent, à présent, le texte des pages web afin d’en interpréter le sens avec certitude.

Rédiger pour des moteurs plus intelligents

L’information collectée sur les sites est mise en relation avec un système d’organisation de la connaissance qui permet de mieux interpréter une chose et d’enrichir la « compréhension » qu’a une machine de cette chose:

  • Interprétation: de quoi est-il question?
  • Classification: de quel type de chose s’agit-il?
  • Contexte: à quels autres types de choses/personnes est-ce relié?

Il faut lire l’article ci-dessous pour constater la rapidité du développement des systèmes d’analyse du langage (ce à quoi servent les graphes de connaissance). Cette évolution est en marche, que ce soit chez Google ou tout autre entreprise tirant profit de l’extraction de l’information.

It is clear that Google is moving rapidly toward a quasi-human understanding of the world and all its algorithms will increasingly rely on its understanding of entities and its confidence in its understanding.

▣ Jason Barnard. « Tracking Google Knowledge Graph Algorithm Updates & Volatility ». Search Engine Journal, 11 mars 2021.

Nous devons prioriser l’amélioration de nos sites web afin de nous rendre plus intelligibles, comme personne physique ou morale. Ceci permet de résister à une centralisation de l’information qui aplanit la diversité des expressions et des perspectives et de relier les acteurs de nos écosystèmes sans l’intervention d’algorithmes.

***

Alors, quelle serait la valeur informationnelle de votre site selon votre moteur de recherche favori?

Nouveaux milieux documentaires en manque de spécialistes des sciences de l’information

Carte de la science de l'information.
Diversité des disciplines et thèmes abordés par la science de l’information. Zythème, [CC BY-SA 3.0], Wikimedia Commons
En culture comme en commerce, les initiatives de mise en commun de données numériques, constituent de nouveaux « milieux documentaires ». Au Québec, pourtant, les compétences et méthodes du domaine des sciences de l’information sont rarement sollicitées. Les institutions d’enseignement et les associations professionnelles concernées devraient pourtant reconnaître, dans ces projets, les notions et enjeux entourant les systèmes documentaires classiques.

Voici quelques lectures récentes illustrant des défis que pourraient relever les spécialistes intéressés par ces nouveaux milieux documentaires.

Taxonomie pour des contenus en mutation

▣ Dominic Tardif. « Ces livres qui se dérobent aux étiquettes ». Le Devoir, 9 janvier 2021.

Cet article introduit certains défis actuels de l’élaboration d’un modèle de métadonnées qui permette de faire des liens entre les ressources de bases de données différentes.

Tout choix est subjectif; il n’y a donc pas de donnée neutre. Un modèle de classement ou de catégorisation peut être porteur d’exclusion, notamment de ce qui peut apparaître inclassable (personne non genrée, pratiques artistiques hybrides…) car il impose le choix d’un descriptif parmi un nombre limité d’options.

Que faire des œuvres qui n’ont pas été pensées et créées dans le cadre d’une pratique déjà bien étiquetée? Et surtout, comment documenter l’intention?

Ça devient un problème à partir du moment où des livres ne reçoivent pas la reconnaissance qu’ils devraient avoir parce qu’on les juge à partir de critères qui n’ont rien à voir avec leur projet littéraire.
Clara Dupuis-Morency, autrice et enseignante en littérature.

Comment, alors, respecter la création, anticiper les biais et éviter que la perspective d’une culture dominante n’occulte celles d’autres cultures?

Un catalogage qui se satisferait de distinguer les textes de fiction des textes entretenant un rapport plus immédiat au réel serait donc inefficace.
ibid.

Algorithmes de recommandation personnalisée

The NYT Open Team. « We Recommend Articles With a Little Help From Our Friends (Machine Learning and Reader Input) ». NYT Open, 14 janvier 2021.

Ce billet publié par l’équipe des produits numériques du New York Times met en lumière le travail d’indexation et de catalogage requis par le développement d’un algorithme de recommandation. Il souligne l’importance d’intégrer la pensée humaine aux processus automatisés de traitement documentaire.

Le nettoyage des données et l’amélioration de la qualité descriptive des métadonnées sont des opérations essentielles à l’exploitation d’une base de données. Elles le sont également dans le cas d’un programme d’apprentissage automatique ayant pour objectif l’entraînement ou le bon fonctionnement d’un algorithme de recommandation.

When we took a deeper look at a few of the incorrect labels, we could often understand why the model assigned the label, but saw that correcting the mistake requires human judgement. It takes knowledge of history and society, as well as the ability to recognize context to intuit that some articles are better suited for some interest categories than others.
The NYT Open Team

(…)

Readers trust The Times to curate content that is relevant to them, and we take this trust seriously. This algorithm, like many other AI-based decision-making systems, should not make the final call without human oversight.
ibid.

De taxonomie à ontologie: un défi de taille!

▣ Heather Hedden. « Hierarchies in Taxonomies, Thesauri, Ontologies, and Beyond ». The Accidental Taxonomist, 20 janvier 2021.

À lire avant de convertir une taxonomie (ou tout autre vocabulaire contrôlé) en ontologie. Il s’agit bien de référentiels ayant des rôles différents et la problématique réside principalement dans les caractéristiques spécifiques de ces différents modes d’organisation des connaissances. Par exemple: l’adaptation de la structure hiérarchique d’une taxonomie à la structure en graphe d’une ontologie de domaine.

The problem is that the definitions and rules for hierarchies vary depending on the kind of knowledge organization system, so you cannot assume that a hierarchy in one system converts to a hierarchy in another system.

(…)

“Hierarchy” can have various types and uses. Not all kinds of hierarchies are reflected in even in taxonomies, which tend to be quite flexible. The rules are stricter when it comes to thesauri. Finally, in ontologies, there is only one kind of hierarchy.
Heather Hedden, taxonomiste, ontologiste, autrice et formatrice.

Culture de l’information et méthodes de travail

▣ Mike Tung. « From Knowledge Graphs to Knowledge Workflows ». Diffbot, 19 janvier 2021.

Le concept de « graphe de connaissance » (knowledge graph), a été popularisé par Google, bien que des structures de données en graphes existaient auparavant dans différents domaines. Ce type de structure est souvent perçu comme une solution qui permette d’imposer un modèle descriptif assurant la visibilité et/ou l’interopérabilité de ressources informationnelles.

L’adoption d’un modèle descriptif unique entraîne cependant une uniformisation des perspectives qui conduit à l’aplatissement des connaissances. C’est également la source de problèmes rarement anticipés. Par exemple: l’adoption d’un vocabulaire commun dans toute l’organisation va-t-elle «pérenniser» vos données ou entraîner des réunions sans fin pour débattre de ses mises à jour des vocabulaires et des ontologies sont discutées?

If we instead listen to the problems information workers have, spend a day shadowing them in their jobs, and design solutions that integrate knowledge-tech in a lightweight way to automate tedium, then we have a shot at solving a larger set of problems, to benefit more of society.
Mike Tung, CEO Diffbot.

Au-delà du solutionnisme technologique, il faut explorer les bénéfices issus du développement d’une véritable culture de l’information au sein des organisations. Cela signifie que la gestion et la qualité de l’information sont des responsabilités devant être partagées dans une organisation et non plus limitées au service des technologies de l’information.

Découvrabilité hors du Web des moteurs de recherche

Greta Bahnemann, Michael Carroll, Paul Clough, Mario Einaudi, Chatham Ewing, Jeff Mixter, Jason Roy, Holly Tomren, Bruce Washburn, Elliot Williams. « Transforming Metadata into Linked Data to Improve Digital Collection Discoverability: A CONTENTdm Pilot Project. OCLC, 2021.

OCLC, un organisme sans but lucratif au service des bibliothèques, rend compte d’un projet pilote sur la transformation des métadonnées de collections en données liées. Il nous rappelle que la découvrabilité recherchée n’est pas celle qui se mesure à l’aulne des résultats de Google ou des cotes de popularité des plateformes de contenus.

Les bases de données en graphe – il faut le répéter – ne sont pas indexées par les moteurs de recherche. Il existe d’autres espaces numériques où l’accès à la culture pourrait fournir des expériences de recherche et découverte pertinentes et efficaces. Exemple: naviguer à travers des collections qui proposent des connexions que des bases de données classiques n’arrivent pas à révéler.

Representing what is locally unique yet making local information legible to outsiders and creating a mechanism where differences can be understood, bridged, and linked is an important part of what public libraries using newer descriptive systems can surface.

À l’image des initiatives de la BnF et d’Europeana, le projet d’OCLC a permis à des institutions de se familiariser avec des méthodes et outils du web sémantique :

The Linked Data project demonstrated the amount of work involved in the transition to linked data, but also that the tools exist and that the workflows can be developed.

Pour une vision systémique du numérique

Les initiatives et projets qui visent à structurer l’information pour le numérique constituent de nouveaux milieux documentaires, hors des lieux habituels que sont les bibliothèques, centres de documentation et fonds d’archives. Les professionnels des sciences de l’information sont formés pour relever les défis inhérents aux « espaces» numériques que sont les sites web, les plateformes commerciales, le Web des données et, même, les jeux de données ouvertes. Il serait temps que la rencontre entre tous ces acteurs se réalise. La réussite de nos initiatives en dépend.

L’angle mort de la promotion de l’offre culturelle sur le Web

Planche dPlanche de l’Encyclopédie de Diderot et d’Alembert: taille de la plume pour l’écriture. Morburre, [CC BY-SA 3.0], Wikimedia Commonse l’Encyclopédie de Diderot et d’Alembert: Taille de la plume pour l’écriture.
Planche de l’Encyclopédie de Diderot et d’Alembert: taille de la plume pour l’écriture. Morburre, [CC BY-SA 3.0], Wikimedia Commons
L’angle mort de la promotion de l’offre culturelle dans un monde numérique est la faible valeur informative de nos sites web.  Quand une œuvre est mieux documentée dans une brochure que sur le site de son auteur, il est clair que les sciences du langage et de l’information n’ont pas été prises en compte dans sa conception.

Or, ce ne sont plus les balises Schema.org insérées dans le code ni les articles de Wikipédia qui facilitent le travail des moteurs de recherche  en les rendant intelligents. C’est, à présent, le traitement automatique du langage naturel. Celui-ci permet aux algorithmes d’évaluer l’information présente sur une page web et lisible par les humains.

Plus l’information offerte par le texte est riche et contextualisée par des liens vers d’autres pages web, plus elle a de valeur pour nous et, par conséquent, pour les moteurs de recherche dont l’objectif est de nous offrir les meilleurs résultats possibles.

Un travail de spécialistes

Après quelques années d’accompagnement d’entrepreneurs culturels, je peux affirmer que rares sont les non-initiés sachant manier avec aisance des notions et des mécanismes qui demeurent complexes, même pour des spécialistes du Web. Ce billet sur les définitions divergentes de ce qu’est une ontologie permet de mesurer le défi d’établir une compréhension commune et claire d’une notion pourtant fondamentale des systèmes documentaires. Et pour celles et ceux qui persévèrent, les concepts et pratiques nouvellement acquis sont trop éloignés de leurs activités pour qu’ils soient en mesure de les intégrer aux opérations et de se livrer à la veille technique qui s’impose en permanence.

Structurer de l’information pour une variété d’usages et de systèmes, c’est un travail de spécialistes. Le rôle de créateurs de contenu consiste à documenter cette information et à raconter comment elle s’insère dans notre monde.  Ils peuvent se faire aider afin de produire l’information répondant le mieux aux intérêts des publics cibles et de fournir des liens nécessaires aux humains et aux machines pour apporter du contexte, favorisant ainsi la découverte.

Voici les étapes qu’il faudrait suivre afin d’améliorer la valeur informative de la page web consacrée à une offre culturelle:

1- Stratégie: quelle information, à quels publics, pour quels résultats

Mieux un contenu est documenté, plus il est susceptible de pouvoir réponse à une question. Il est donc important de baser la conception du contenu d’une page sur une solide connaissance des publics cibles. D’où la nécessité d’une stratégie et d’une concertation entre les producteurs, diffuseurs et toutes autres parties concernées. Toutefois, l’élaboration d’une stratégie de ce type requiert une formation préalable mobilisant divers spécialistes.

2- Documentation: les choses et les relations entre ces choses

L’adaptation de nos contenus culturels à l’environnement numérique commence par l’écriture. Tous les éditeurs de sites web doivent à présent mieux organiser et documenter leurs contenus pour les rendre plus repérables. Pour Google, « documenter » signifie: bien décrire un contenu et fournir du contexte en faisant des liens entre des concepts. Plus la documentation est exhaustive et clairement libellée, plus elle a de la valeur pour les utilisateurs — et plus la page web de l’offre culturelle devient une source d’information de qualité.

3- Balises: signaler certains types de contenus

Certains types de contenus — comme les vidéos, par exemple — peuvent apparaître sous forme d’extraits, dans la liste de résultats de Google (résultats enrichis). L’utilisation de balises permettant de catégoriser des contenus n’est donc pertinente que pour un petit nombre d’offres. Les modèles descriptifs recommandés sont ceux qui concernent les projets de développement des services du moteur de recherche.  De plus, les consignes à suivre évoluent en fonction du résultat des expérimentations et de l’avancement du traitement automatique du langage.

Nous devons, alors, éviter de développer des fonctionnalités qui deviennent rapidement obsolètes ou, pire, qui réduisent notre capacité d’innovation en l’encadrant dans la logique d’affaires d’une plateforme. Il faut donc que nous demeurions  extrêmement vigilants afin que nos projets nous apportent une réelle valeur et ne tombent pas dans le solutionnisme technologique.

4- Wikipédia: création d’article utile, mais non essentielle

Wikipédia facilite l’identification d’un concept ou objet spécifique, mais ce sont les pages web qui sont les sources primaires pour Google. Contrairement à la croyance courante, la production d’une fiche de réponse (appelée « knowledge panel ») résulte du traitement du contenu provenant de différentes pages web. Celles-ci sont qualifiées par le moteur de recherche pour l’information qu’elles offrent. En analysant certains brevets déposés par Google, on peut déduire que son utilisation de l’encyclopédie n’est ni constante, ni déterminante. Créer un article Wikipédia n’est donc pas une activité essentielle dans un plan de découvrabilité, même si cela peut accroître la notoriété d’un sujet lorsqu’il contient des connaissances utiles et des liens vers d’autres articles.

L’écriture: une « solution » à la portée de tous!

Adapter nos contenus culturels à l’environnement numérique commence donc par une technique millénaire: l’écriture. Nous pourrions beaucoup mieux documenter nos offres culturelles sur nos sites web sans nécessairement plonger dans des domaines de connaissance complexes. Il suffit d’apprendre à décrire des choses et les relations entre ces choses pour des systèmes qui, eux-même, apprennent à lire afin de fournir la meilleure information à leurs utilisateurs.  Bref, avant de se lancer dans la modélisation de données ou le web sémantique, il serait temps de revenir aux stratégies de communication, ainsi qu’aux bonnes pratiques de rédaction web.

Découvrabilité: des métadonnées, oui, mais dans quel but?

Machinerie (chaîne de montage)
Machine à produire des résultats. Tetra Pak [CC BY-SA 2.0], Wikimedia Commons
Il faut encore le répéter: produire des métadonnées n’est pas une stratégie et se contenter d’intégrer des balises Schema.org dans une page web ne garantit pas nécessairement la découvrabilité d’une offre. À l’inverse, par contre, une bonne stratégie permet de choisir les bons outils et les bonnes métadonnées.

Retour sur des notes prises en lisant des propositions de projets numériques.

À la recherche de la stratégie perdue

L’absence de réflexion stratégique est le talon d’Achille de la plupart des propositions de projets et de plans de découvrabilité. Pourtant, qu’il s’agisse de baliser des types de contenu à l’intention des moteurs de recherche ou de décrire des ressources dans un catalogue en ligne, la production de métadonnées utiles s’appuie sur la connaissance des publics cibles et des résultats recherchés.

La meilleure façon d’évaluer le résultat des efforts déployés pour qu’une offre ou un contenu rejoigne ses publics est de fixer des objectifs mesurables et réalistes. Et pour cela, il faut avoir élaboré une stratégie basée sur la connaissance du marché, des opportunités et des contraintes propres à l’organisation.

Les connexions entre votre offre et ses publics cibles

Les algorithmes des plateformes évoluent vers une personnalisation accrue des réponses qu’elles proposent en s’appuyant sur les profils de leurs utilisateurs. Nos sites web devraient faire de même en fournissant des éléments d’information qui « parlent » aux publics cibles et qui, conséquemment, facilitent le travail des moteurs de recherche.

Petit rappel: nous découvrons de l’information sur l’interface d’un moteur de recherche, mais c’est celui-ci qui la trouve. Et cela, en fonction d’un traitement algorithmique fondé sur :

  • la popularité (ou l’autorité) des contenus;
  • leur similarité avec le profil et l’historique de navigation de l’utilisateur.

Avant de tout miser sur des métadonnées

Voici quelques éléments clés sur lesquels réfléchir avant de déterminer les activités à réaliser dans le cadre d’un plan de découvrabilité:

  • Peu importe les activités évoquées par le terme, la découvrabilité n’est mesurable qu’à l’aide des objectifs déterminés par la stratégie. Pas de stratégie: pas d’objectifs donc pas d’évaluation des résultats. Et cela s’applique autant à une stratégie de promotion qu’à des initiatives de mutualisation de données et de modélisation de connaissances pour le web sémantique.
  • Les moteurs de recherche ne sont que l’un des vecteurs de la découverte. Celle-ci n’advient pas que par l’entremise de machines car la recommandation est encore largement sociale — réseaux sociaux, réseaux professionnels et académiques, bibliothécaires, libraires, médias et publications spécialisées. Les métadonnées ne sont que l’un des moyens à mettre en œuvre, au même titre qu’une page Facebook ou une chaîne YouTube, au service d’une stratégie.
  • Se contenter d’intégrer des balises ne permet pas aux moteurs de recherche de fournir aux utilisateurs les réponses correspondant le plus à leurs profils ni de différencier une offre au sein d’une même catégorie, comme des événements, par exemple.
  • Les deux cotés d’une même page :
    • Métadonnées dans le code HTML: les modèles Schema.org permettent aux moteurs de recherche de catégoriser des types de contenu.
    • Données dans le contenu d’une page web: certains éléments d’information repérables, tels que des entités nommées et des mots clés, facilitent la contextualisation et la personnalisation des résultats de recherche.
  • Il faut se tenir bien informé de l’évolution du moteur de recherche et de ses consignes d’utilisation avant d’indexer des offres avec Schema.org. Les objectifs de Google varient dans le temps, selon les types de contenu et selon les ententes qu’il conclut avec certaines grandes sources de données, comme par exemple, des plateformes musicales.
  • Un site web qui fournit de l’information structurée pour des machines et qui contribue à un écosystème de liens utiles pour des humains est un excellent investissement stratégique.
  • Tous les acteurs de l’écosystème numérique d’une offre culturelle contribuent au rayonnement de celle-ci par l’information offerte sur leurs sites web . Ceux-ci participent également au déploiement d’un réseau d’hyperliens fournissant des données contextuelles aux moteurs de recherche et des parcours de découverte aux humains.
  • Un bon plan de découvrabilité résulte d’une connaissance des publics cibles et de l’utilisation réfléchie et coordonnée de différents outils: référencement, modèles Schema.org, contributions à Wikipédia et Wikidata, publications sur des réseaux sociaux, campagnes de promotion et publicité.

Il n’existe pas de recette gagnante: une stratégie de visibilité et de rayonnement est spécifique à chaque projet. Le succès d’un plan découvrabilité dépend de choix qui sont alignés sur cette stratégie afin de publier la bonne information, dans le bon format, au bon endroit et pour le bon public.

Faire parler les images: repérabilité et interopérabilité des métadonnées

Indexation participative d'une photographie.
Indexation participative d’une photographie. Photogestion [CC BY-SA 4.0], Wikimedia Commons
Je mentionnais dans un précédent billet sur le rayonnement des offres  culturelles  que « des images qui parlent et font du lien » facilitent le travail des moteurs de recherche.

Les images sont des éléments d’information et des données. Elles améliorent le repérage d’entités (personnes, organisations, œuvres, lieux, événements) dans des pages web. Elles contribuent au développement de nouveaux parcours de découverte. À titre d’exemple, nous pouvons mentionner le moteur de recherche Google Images (créé en juillet 2001) et Wikimedia Commons où sont déposées un nombre grandissant d’images, dont celles de galeries d’art, pour en favoriser la réutilisation.

Voici deux annonces récentes qui devraient sensibiliser les éditeurs de sites web et professionnels du numérique à l’importance de documenter les images et/ou d’adopter de meilleurs pratiques.

IIIF (International Image Interoperability Framework)

D’abord, le mois dernier, IIIF annonçait que l’annotation des images s’étend désormais aux images des contenus audio et images en mouvement (vidéo, film). De plus, lIIF rend son modèle compatible avec l’écosystème des données liées en passant du modèle Open Annotation aux standards du Web (W3C Web Annotations) et en facilitant l’usage du langage JSON-LD pour exprimer les données. IIIF est un format de transmission de données: il ne permet pas de gérer des collections.

A critical element of this release is the ability to move beyond static digital images to present and annotate audio and moving images. This is done by adding duration to the existing IIIF canvas model, which also features x and y coordinates as means of selecting and annotating regions. Now, images and video can be juxtaposed using open source software viewers — allowing the public to view time-based media in open source media players, and allowing researchers to use open assets to create new tools and works including critical editions, annotated oral histories, musical works with thematic markup, and more.

IIIF Announces Final Release of 3.0 Specifications

Google Images

Cette semaine, Google dévoilait une nouvelle fonctionnalité qui permet de spécifier les informations relatives à la licence d’utilisation d’une image: licence payante, Creative Commons. Cette fonctionnalité permet d’utiliser le langage de balisage Schema.org (appelé « données structurées » par la plateforme) ou les métadonnées IPTC qui sont incrustées dans les fichiers des photos numériques.

L’un des moyens permettant d’indiquer à Google qu’une image peut être concédée sous licence consiste à ajouter des champs de données structurées. Ces données structurées représentent un format normalisé permettant de fournir des informations sur une page et de classer son contenu.

Licence d’image dans Google Images (BÊTA)

 

Comment rendre votre information repérable, accessible et interopérable

Ce billet s’inscrit dans la ligne du précédent, qui appelait à remplacer le terme fourre-tout de découvrabilité par les objectifs, beaucoup plus concrets, de repérabilité, accessibilité et interopérabilité.

Diagramme illustrant la recherche augmentée dans un brevet déposé par Google en 2013
Diagramme illustrant la recherche augmentée, brevet déposé par Google en 2013.
Source de la référence: ce billet de Bill Slawski.

Nos sites web sont des ensembles d’informations structurées pouvant être repérées, consultées, utilisées et interconnectées sur la grande plateforme ouverte qu’est le Web. C’est pour cette raison que les nôtres sont au cœur de la découverte de contenus et d’offres diverses. Nous devrions consacrer prioritairement nos efforts à les moderniser. Parce qu’aujourd’hui, tout part de là.

Objectif: aider les moteurs à repérer et lier des entités

Les moteurs de recherche indexent le contenu des pages web. Grâce au développement de bases de connaissances structurées (Knowledge Graph), ceux-ci peuvent repérer dans chaque page des choses ayant une signification spécifique, comme des personnes, des lieux, des événements ou des œuvres. Ces choses sont appelées « entités nommées ». Les entités nommées qui sont repérées sont catégorisées et associées selon le modèle d’organisation propre à chacune des bases de connaissances des moteurs de recherche.

Nos sites web, lorsqu’ils sont bien conçus, alimentent ces bases de connaissances. C’est pour cette raison qu’il faut prioriser l’amélioration de la repérabilité des contenus sur nos sites avant de verser des données dans Wikidata. Cette base de connaissances, tout comme d’autres, sert à réduire l’ambiguïté entre des entités (homonymes) et à valider les liens entre elles. Elle ne remplace cependant pas les sources d’information interconnectées, classifiées et référencées que sont les sites web.

Stratégie: quoi, pour qui, avec quels objectifs?

L’amélioration des conditions de repérabilité de l’information ne produit pas de résultat immédiat, contrairement aux tactiques de référencement organique de pages. Elle s’inscrit dans la durée et doit s’appuyer sur des notions précises plutôt que sur des mythes.

La réflexion stratégique permet de déterminer les objectifs à atteindre, les questions auxquelles les données doivent répondre, les publics cibles et les caractéristiques des offres à mettre de l’avant. Les objectifs vérifiables et mesurables de la « découvrabilité » sont les indicateurs de succès qui ont été déterminés en amont dans la stratégie numérique.

Responsabilités: qui fait quoi?

Comme je l’ai déjà mentionné dans un autre billet, nous ne devons plus concevoir des sites web comme des documents, mais comme des plateformes de données. Il faut nous affranchir d’un modèle de conception hérité du document imprimé afin de concevoir le site en commençant par les modèles de données plutôt que par les modèles de pages. Viennent ensuite la définition des structures représentant le ou les domaine de connaissance, puis la représentation des types d’entités sous forme de nœuds et de liens pour former, finalement, des graphes. Tout ceci nous oblige à revoir la méthodologie de conception de sites et à faire appel à des compétences qui sont rarement sollicitées pour des projets web.

Il ne s’agit pas uniquement de savoir comment intégrer ce processus dans les activités d’un projet, mais aussi de savoir ce qui doit être fait à l’interne et ce qui doit, par contre, être confié à des spécialistes.

Il n’existe pas de recette toute faite, ni d’application, pour améliorer ainsi l’organisation de l’information. L’élaboration d’un modèle de données représentant différentes entités et les relations qui les définissent est un travail de spécialiste. De plus, la spécificité des offres, objectifs stratégiques, publics cibles et environnements technologiques soulèvent des questions auxquelles une présentation de 3 heures ne permet pas de fournir de réponses solides.

Trois étapes essentielles pour structurer l’information

J’utilise des outils simples pour accompagner des équipes dans leurs démarches d’amélioration de sites web et de description de contenus avec des données structurées. Cependant, les projets n’avanceraient pas si ces équipes étaient livrées à elles-même, sans ressources pour répondre aux nombreuses questions que la démarche permet de soulever.

1. Organiser le site web autour des entités

L’organisation du site et la structure de l’information concernent les pages web lisibles par des humains et indexables par des machines (voir Structurer l’information autour d’entités repérables) et le code informatique de ces pages qui est interprétable par des machines (lire Schema.org n’est pas le moteur de recherche).

Vous pouvez évaluer en quelques points si la structure et le contenu des pages de votre site fournissent aux éléments d’information (entités nommées, métadonnées, mots clés) les meilleures conditions d’exploitation, pour des visiteurs et pour des moteurs de recherche.

  • Arborescence (accès aux offres et contenus).
  • Nomenclature (alignement de la taxonomie sur les publics cibles).
  • URL unique et lisible pour chaque offre et contenu.
  • Images (nomenclature de fichier, texte alternatif, résolutions).
  • Description (caractéristiques, attributs distinctifs, expérience).
  • Information à valeur ajoutée (liens vers d’autres sources d’information complémentaire).

2. Faire « du lien »

Comment évaluer le potentiel de rayonnement de vos contenus dans le numérique?

  • En cartographiant l’écosystème composé de points et de liens qui jouent un rôle central dans leur visibilité et découverte.
  • En identifiant les points (site web, réseaux sociaux, sites de partenaires) permettant d’établir des connexions pertinentes vers vos offres.

Vous reporterez ensuite, dans une grille, les points ainsi identifiés, puis dresser l’inventaire détaillé de l’information diffusée, de la fréquence des publications, des rôles et responsabilités de chacun. Vous serez alors en mesure de:

  • Déterminer les points permettant de rejoindre différents publics (en d’autres termes, associer les bons canaux et contenus aux bons publics).
  • Identifier les liens à créer ou à solidifier ainsi que les partenariats à développer.

3. Décrire les entités

Cette grille permettra d’identifier les métadonnées qui rendent vos offres et contenus uniques et plus faciles à trouver. Vous pouvez à la fois:

  • Trouver les mots pour différencier votre offre auprès de vos publics cibles.
  • Fournir des métadonnées permettant aux moteurs de recherche de fournir des réponses personnalisées.

Ces activités devraient être réalisées en groupe, au sein d’une organisation ou, lorsqu’il s’agit d’une initiative collective, avec les représentants de différentes organisations.

Découvrabilité = Repérabilité + Accessibilité + Interopérabilité

Standards W3C: repérabilité, accessibilité, interopérabilité

Traditionnellement, des réponses sont retrouvées à partir d’une collection de documents ou d’un graphe de connaissances.
(«Traditionally, answers have been retrieved from a collection of documents or a knowledge graph», Google AI Blog)

Traditionnellement ?

Cet adverbe est ici associé à «graphe de connaissances»: une technologie et des pratiques documentaires que nous ne maîtrisons pas.

Cette association, signale l’ampleur de l’écart entre notre conception des systèmes d’information, qui a peu évolué depuis l’invention des bases de données (pré Web), et le développement de graphes de données interconnectables (entité-relation) permettant, depuis plusieurs années déjà, de raisonner sur des connaissances.

Découvrabilité

Je préfère ne plus employer le terme « découvrabilité » car il porte l’illusion de pouvoir pousser des contenus sur les écrans des utilisateurs, comme à l’époque d’avant Internet. Cet espoir, qui façonne la plupart de nos projets connectés, est probablement la source de leur plus grande faiblesse.

Afin de faire évoluer nos usages du Web, il faut que nos initiatives numériques aient d’autres objectifs, plus concrets et vérifiables, que la découvrabilité. Ce mot trahit notre incapacité à faire évoluer notre compréhension du Web face à des entreprises qui se sont constituées en misant sur ses possibilités ultimes.

S’agit-il d’une caractéristique de l’information ou d’une activité de promotion? « Découvrabilité » est un néologisme dont nous n’arrivons pas à rapporter le sens à un savoir commun. Et pour cause: chaque spécialiste ou consultant l’adapte à ses compétences et à sa capacité d’intervention. L’absence de définition commune et précise ne facilite donc pas la convergence des initiatives numériques.

Je crois que nous aurions intérêt à remplacer ce concept flou par trois objectifs concrets pour lesquels il existe des connaissances formalisées et des outils pratiques: repérabilité, accessibilité et interopérabilité.

Repérabilité

Information documentée de façon à pouvoir être identifiée et localisée le plus aisément possible (architecture du site web, taxonomie, métadonnées). Synonyme: trouvabilité.

Accessibilité

L’information se trouve dans le Web et est accessible tant aux humains (contenu ouvert) qu’aux machines et algorithmes (indexation par les moteurs de recherche). L’accessibilité du web, qui vise initialement à permettre aux personnes handicapées d’accéder aux contenus et services web, est l’une des composantes de l’accessibilité numérique.

Interopérabilité

L’information est exprimée selon les standards universels, libres et ouverts d’accessibilité et de lisibilité pour les humains et les machines (protocole de communication HTTP, adressage URL, langage HTML). Voir ses enjeux, principes et typologies présentés dans Wikipedia.

***

Le Web est la seule plateforme permettant de publier de l’information de façon repérable, accessible et interopérable par qui ou quoi que ce soit. C’est pour cette raison que l’amélioration de la découverte d’offres et de contenus, dans un monde numérique, dépend de la structure de l’information publiée sur les sites web.

Dans le prochain billet, nous verrons pourquoi il faut revoir la façon dont nous concevons nos sites web et ce que tous devraient savoir pour adopter de nouvelles bonnes pratiques.

Et si nous retombions en amour avec nos sites web?

William Moore de la réserve de Mattagami, Ontario, réparant un filet.
John Macfie, 1958, Archives publiques de l’Ontario sur Flickr.

Pourquoi l’évolution de nos sites web s’est-elle arrêtée au document numérique alors que chez des entreprises, comme Amazon ou Spotify, elle se concrétise par le déploiement de plateformes de données?

Les interactions que nous pouvions organiser sur nos domaines se sont atrophiées car nous avons laissé aux algorithmes le soin de faire des liens de proximité, de sens, de popularité ou autres. Ces liens qui favorisent la découverte et le rayonnement, nous ne les contrôlons pas.

Décloisonner les parcours de formation

Est-ce faute de ne pas avoir adapté, en les décloisonnant, des formations comme l’informatique, la communication et les sciences de l’information à la complexité de nouvelles pratiques? Dans le Web, les logiques technologiques, informationnelles et industrielles s’entrecroisent à présent pour former un nouveau champ de connaissances pour lequel il n’existe pas encore de savoir commun.

Entrer dans le domaine du langage

Ou, encore, est-ce faute de n’avoir pas réalisé que la donnée relève  beaucoup plus du langage et de la pensée que du calcul et de la technologie?

Les concepts et particularités propres aux différents domaines de l’activité humaine ne sont pas aisément traduisibles dans la pensée mathématique des machines. L’information n’est plus uniquement un enjeu d’ingénierie, une chose à stocker, à transformer et à faire circuler. Dans le Web, elle relève du domaine du langage, décrivant des choses et des relations entre ces choses. Cette perspective, pourtant essentielle à l’ère de l’intelligence artificielle, est pratiquement absente des méthodes courantes de conception.

S’affranchir du document

Ou, tout simplement, est-ce parce que des solutions d’utilisation facile et très souvent gratuites nous ont été offertes? Avons-nous finalement laissé à d’autres les défis de l’évolution du Web et de nos architectures de connaissances? Cette évolution était pourtant prévisible dès 2009, la nouvelle méthode de conception de sites proposée cette anné-là par la BBC dans un billet de blogue en faisant foi.

Ne plus troquer l’acquisition d’expertise pour la facilité

Je crois bien que nous avons graduellement délégué à des entreprises, par algorithmes interposés, le choix des mots et des liens définissant qui nous sommes et la régulation des flux d’information dans un espace qui n’est pourtant qu’un sous-ensemble du Web. Nous avons renoncé au contrôle sur la découverte et la recommandation dont nous disposions grâce à nos blogues, nos répertoires et même, nos collections de fils RSS — j’utilise encore la mienne!

Alors que nous concevons encore un site web comme un ensemble de documents, les acteurs de la nouvelle économie prospèrent grâce à des sites web conçus comme des plateformes de données. Ces plateformes permettent d’aller beaucoup plus loin que la publication d’information. Par exemple:

  • Trouver, réutiliser et partager des contenus par les utilisateurs et à l’interne;
  • Définir les rôles, responsabilités et règles de gouvernance relatifs à chaque ensemble de données.
  • Faciliter l’accès, de façon transversale, aux connaissances nécessaires pour la recherche de solutions et l’innovation.
  • Et, surtout, relier les métadonnées descriptives des ressources aux données d’usage résultant de l’interaction des utilisateurs avec les contenus.

Réapprendre à faire du Web

Avant de tenter de mesurer le rayonnement de contenus culturels sur les plateformes, il faudrait se demander si nous en maîtrisons les conditions, sur nos sites web et au sein de nos écosystèmes numériques.

Nous avons choisi la gratuité et la facilité des plateformes qui sont la propriété d’entreprises sachant, mieux que nous, exploiter l’information tirée des interactions avec nos contenus. Le contexte actuel de la pandémie semble avoir accentué notre dépendance envers ces services qui entretiennent notre espoir de retrouver nos publics et nos clients.

Nos sites web nous offrent pourtant toujours la possibilité de développer et d’afficher nos écosystèmes de liens et de nommer les choses qui nous rassemblent. Afin de ne pas les laisser s’atrophier, nous devrions nous en servir pour mieux représenter nos domaines d’activité, nos contenus, ainsi que nos réseaux.

Conseil en information numérique