De données structurées à contenu structuré

Extraits de sites web qui répondent à des questions, sur Google.
Variabilité des textes extraits du site web en fonction de l’interprétation de l’intention de la recherche.

Je le répète: il faut retomber en amour avec nos sites web. Nous devons réinvestir le domaine du langage sur ces espaces numériques privilégiés que sont nos sites web.

L’hypertexte en réseau

Le World Wide Web dont c’est aujourd’hui l’anniversaire,  est cette application de l’Internet qui permet de relier des éléments d’information pour former un hypertexte. Nos site web sont des espaces numériques privilégiés parce des standards universels et libres nous offrent la possibilité de publier et partager des contenus, indépendamment des règles des plateformes commerciales et sociales. Sur nos sites web, nous détenons un contrôle stratégique: décider de la façon de documenter une chose et faire des liens qui la place dans un écosystème de connaissances.

Afin de réduire l’angle mort de la promotion de la culture sur le Web, nous pourrions beaucoup mieux documenter nos offres sans nécessairement plonger dans des domaines de connaissances complexes.

Le Web des moteurs de recherche

De quelles machines est-il question ici? Il s’agit des moteurs de recherche qui indexent les pages web, ce qui exclut les plateformes pour lesquelles il faut ouvrir une session (Spotify, Netflix, les réseaux sociaux). À celles-ci, on peut ajouter le Web sémantique qui est une extension du Web permettant de relier des données.  Ce sont des espaces numériques différents et qui font appel à des structures, règles et technologies spécifiques. Le Web des moteurs de recherche est celui des contenus accessibles, repérables et interopérables.

Wikidata permet de valider l’identification d’entités spécifiques et de fournir de l’information factuelle, comme une date de naissance. Cependant, c’est le contenu d’un site web qui contient le texte de la réponse à une question. Les moteurs de recherche analysent et évaluent, à présent, le texte des pages web afin d’en interpréter le sens avec certitude.

Rédiger pour des moteurs plus intelligents

L’information collectée sur les sites est mise en relation avec un système d’organisation de la connaissance qui permet de mieux interpréter une chose et d’enrichir la « compréhension » qu’a une machine de cette chose:

  • Interprétation: de quoi est-il question?
  • Classification: de quel type de chose s’agit-il?
  • Contexte: à quels autres types de choses/personnes est-ce relié?

Il faut lire l’article ci-dessous pour constater la rapidité du développement des systèmes d’analyse du langage (ce à quoi servent les graphes de connaissance). Cette évolution est en marche, que ce soit chez Google ou tout autre entreprise tirant profit de l’extraction de l’information.

It is clear that Google is moving rapidly toward a quasi-human understanding of the world and all its algorithms will increasingly rely on its understanding of entities and its confidence in its understanding.

▣ Jason Barnard. « Tracking Google Knowledge Graph Algorithm Updates & Volatility ». Search Engine Journal, 11 mars 2021.

Nous devons prioriser l’amélioration de nos sites web afin de nous rendre plus intelligibles, comme personne physique ou morale. Ceci permet de résister à une centralisation de l’information qui aplanit la diversité des expressions et des perspectives et de relier les acteurs de nos écosystèmes sans l’intervention d’algorithmes.

***

Alors, quelle serait la valeur informationnelle de votre site selon votre moteur de recherche favori?

Nouveaux milieux documentaires en manque de spécialistes des sciences de l’information

Carte de la science de l'information.
Diversité des disciplines et thèmes abordés par la science de l’information. Zythème, [CC BY-SA 3.0], Wikimedia Commons
En culture comme en commerce, les initiatives de mise en commun de données numériques, constituent de nouveaux « milieux documentaires ». Au Québec, pourtant, les compétences et méthodes du domaine des sciences de l’information sont rarement sollicitées. Les institutions d’enseignement et les associations professionnelles concernées devraient pourtant reconnaître, dans ces projets, les notions et enjeux entourant les systèmes documentaires classiques.

Voici quelques lectures récentes illustrant des défis que pourraient relever les spécialistes intéressés par ces nouveaux milieux documentaires.

Taxonomie pour des contenus en mutation

▣ Dominic Tardif. « Ces livres qui se dérobent aux étiquettes ». Le Devoir, 9 janvier 2021.

Cet article introduit certains défis actuels de l’élaboration d’un modèle de métadonnées qui permette de faire des liens entre les ressources de bases de données différentes.

Tout choix est subjectif; il n’y a donc pas de donnée neutre. Un modèle de classement ou de catégorisation peut être porteur d’exclusion, notamment de ce qui peut apparaître inclassable (personne non genrée, pratiques artistiques hybrides…) car il impose le choix d’un descriptif parmi un nombre limité d’options.

Que faire des œuvres qui n’ont pas été pensées et créées dans le cadre d’une pratique déjà bien étiquetée? Et surtout, comment documenter l’intention?

Ça devient un problème à partir du moment où des livres ne reçoivent pas la reconnaissance qu’ils devraient avoir parce qu’on les juge à partir de critères qui n’ont rien à voir avec leur projet littéraire.
Clara Dupuis-Morency, autrice et enseignante en littérature.

Comment, alors, respecter la création, anticiper les biais et éviter que la perspective d’une culture dominante n’occulte celles d’autres cultures?

Un catalogage qui se satisferait de distinguer les textes de fiction des textes entretenant un rapport plus immédiat au réel serait donc inefficace.
ibid.

Algorithmes de recommandation personnalisée

The NYT Open Team. « We Recommend Articles With a Little Help From Our Friends (Machine Learning and Reader Input) ». NYT Open, 14 janvier 2021.

Ce billet publié par l’équipe des produits numériques du New York Times met en lumière le travail d’indexation et de catalogage requis par le développement d’un algorithme de recommandation. Il souligne l’importance d’intégrer la pensée humaine aux processus automatisés de traitement documentaire.

Le nettoyage des données et l’amélioration de la qualité descriptive des métadonnées sont des opérations essentielles à l’exploitation d’une base de données. Elles le sont également dans le cas d’un programme d’apprentissage automatique ayant pour objectif l’entraînement ou le bon fonctionnement d’un algorithme de recommandation.

When we took a deeper look at a few of the incorrect labels, we could often understand why the model assigned the label, but saw that correcting the mistake requires human judgement. It takes knowledge of history and society, as well as the ability to recognize context to intuit that some articles are better suited for some interest categories than others.
The NYT Open Team

(…)

Readers trust The Times to curate content that is relevant to them, and we take this trust seriously. This algorithm, like many other AI-based decision-making systems, should not make the final call without human oversight.
ibid.

De taxonomie à ontologie: un défi de taille!

▣ Heather Hedden. « Hierarchies in Taxonomies, Thesauri, Ontologies, and Beyond ». The Accidental Taxonomist, 20 janvier 2021.

À lire avant de convertir une taxonomie (ou tout autre vocabulaire contrôlé) en ontologie. Il s’agit bien de référentiels ayant des rôles différents et la problématique réside principalement dans les caractéristiques spécifiques de ces différents modes d’organisation des connaissances. Par exemple: l’adaptation de la structure hiérarchique d’une taxonomie à la structure en graphe d’une ontologie de domaine.

The problem is that the definitions and rules for hierarchies vary depending on the kind of knowledge organization system, so you cannot assume that a hierarchy in one system converts to a hierarchy in another system.

(…)

“Hierarchy” can have various types and uses. Not all kinds of hierarchies are reflected in even in taxonomies, which tend to be quite flexible. The rules are stricter when it comes to thesauri. Finally, in ontologies, there is only one kind of hierarchy.
Heather Hedden, taxonomiste, ontologiste, autrice et formatrice.

Culture de l’information et méthodes de travail

▣ Mike Tung. « From Knowledge Graphs to Knowledge Workflows ». Diffbot, 19 janvier 2021.

Le concept de « graphe de connaissance » (knowledge graph), a été popularisé par Google, bien que des structures de données en graphes existaient auparavant dans différents domaines. Ce type de structure est souvent perçu comme une solution qui permette d’imposer un modèle descriptif assurant la visibilité et/ou l’interopérabilité de ressources informationnelles.

L’adoption d’un modèle descriptif unique entraîne cependant une uniformisation des perspectives qui conduit à l’aplatissement des connaissances. C’est également la source de problèmes rarement anticipés. Par exemple: l’adoption d’un vocabulaire commun dans toute l’organisation va-t-elle «pérenniser» vos données ou entraîner des réunions sans fin pour débattre de ses mises à jour des vocabulaires et des ontologies sont discutées?

If we instead listen to the problems information workers have, spend a day shadowing them in their jobs, and design solutions that integrate knowledge-tech in a lightweight way to automate tedium, then we have a shot at solving a larger set of problems, to benefit more of society.
Mike Tung, CEO Diffbot.

Au-delà du solutionnisme technologique, il faut explorer les bénéfices issus du développement d’une véritable culture de l’information au sein des organisations. Cela signifie que la gestion et la qualité de l’information sont des responsabilités devant être partagées dans une organisation et non plus limitées au service des technologies de l’information.

Découvrabilité hors du Web des moteurs de recherche

Greta Bahnemann, Michael Carroll, Paul Clough, Mario Einaudi, Chatham Ewing, Jeff Mixter, Jason Roy, Holly Tomren, Bruce Washburn, Elliot Williams. « Transforming Metadata into Linked Data to Improve Digital Collection Discoverability: A CONTENTdm Pilot Project. OCLC, 2021.

OCLC, un organisme sans but lucratif au service des bibliothèques, rend compte d’un projet pilote sur la transformation des métadonnées de collections en données liées. Il nous rappelle que la découvrabilité recherchée n’est pas celle qui se mesure à l’aulne des résultats de Google ou des cotes de popularité des plateformes de contenus.

Les bases de données en graphe – il faut le répéter – ne sont pas indexées par les moteurs de recherche. Il existe d’autres espaces numériques où l’accès à la culture pourrait fournir des expériences de recherche et découverte pertinentes et efficaces. Exemple: naviguer à travers des collections qui proposent des connexions que des bases de données classiques n’arrivent pas à révéler.

Representing what is locally unique yet making local information legible to outsiders and creating a mechanism where differences can be understood, bridged, and linked is an important part of what public libraries using newer descriptive systems can surface.

À l’image des initiatives de la BnF et d’Europeana, le projet d’OCLC a permis à des institutions de se familiariser avec des méthodes et outils du web sémantique :

The Linked Data project demonstrated the amount of work involved in the transition to linked data, but also that the tools exist and that the workflows can be developed.

Pour une vision systémique du numérique

Les initiatives et projets qui visent à structurer l’information pour le numérique constituent de nouveaux milieux documentaires, hors des lieux habituels que sont les bibliothèques, centres de documentation et fonds d’archives. Les professionnels des sciences de l’information sont formés pour relever les défis inhérents aux « espaces» numériques que sont les sites web, les plateformes commerciales, le Web des données et, même, les jeux de données ouvertes. Il serait temps que la rencontre entre tous ces acteurs se réalise. La réussite de nos initiatives en dépend.

Découvrabilité: des métadonnées, oui, mais dans quel but?

Machinerie (chaîne de montage)
Machine à produire des résultats. Tetra Pak [CC BY-SA 2.0], Wikimedia Commons
Il faut encore le répéter: produire des métadonnées n’est pas une stratégie et se contenter d’intégrer des balises Schema.org dans une page web ne garantit pas nécessairement la découvrabilité d’une offre. À l’inverse, par contre, une bonne stratégie permet de choisir les bons outils et les bonnes métadonnées.

Retour sur des notes prises en lisant des propositions de projets numériques.

À la recherche de la stratégie perdue

L’absence de réflexion stratégique est le talon d’Achille de la plupart des propositions de projets et de plans de découvrabilité. Pourtant, qu’il s’agisse de baliser des types de contenu à l’intention des moteurs de recherche ou de décrire des ressources dans un catalogue en ligne, la production de métadonnées utiles s’appuie sur la connaissance des publics cibles et des résultats recherchés.

La meilleure façon d’évaluer le résultat des efforts déployés pour qu’une offre ou un contenu rejoigne ses publics est de fixer des objectifs mesurables et réalistes. Et pour cela, il faut avoir élaboré une stratégie basée sur la connaissance du marché, des opportunités et des contraintes propres à l’organisation.

Les connexions entre votre offre et ses publics cibles

Les algorithmes des plateformes évoluent vers une personnalisation accrue des réponses qu’elles proposent en s’appuyant sur les profils de leurs utilisateurs. Nos sites web devraient faire de même en fournissant des éléments d’information qui « parlent » aux publics cibles et qui, conséquemment, facilitent le travail des moteurs de recherche.

Petit rappel: nous découvrons de l’information sur l’interface d’un moteur de recherche, mais c’est celui-ci qui la trouve. Et cela, en fonction d’un traitement algorithmique fondé sur :

  • la popularité (ou l’autorité) des contenus;
  • leur similarité avec le profil et l’historique de navigation de l’utilisateur.

Avant de tout miser sur des métadonnées

Voici quelques éléments clés sur lesquels réfléchir avant de déterminer les activités à réaliser dans le cadre d’un plan de découvrabilité:

  • Peu importe les activités évoquées par le terme, la découvrabilité ( n’est mesurable qu’à l’aide des objectifs déterminés par la stratégie. Pas de stratégie: pas d’objectifs donc pas d’évaluation des résultats. Et cela s’applique autant à une stratégie de promotion qu’à des initiatives de mutualisation de données et de modélisation de connaissances pour le web sémantique.
  • Les moteurs de recherche ne sont que l’un des vecteurs de la découverte. Celle-ci n’advient pas que par l’entremise de machines car la recommandation est encore largement sociale — réseaux sociaux, réseaux professionnels et académiques, bibliothécaires, libraires, médias et publications spécialisées. Les métadonnées ne sont que l’un des moyens à mettre en œuvre, au même titre qu’une page Facebook ou une chaîne YouTube, au service d’une stratégie.
  • Se contenter d’intégrer des balises ne permet pas aux moteurs de recherche de fournir aux utilisateurs les réponses correspondant le plus à leurs profils ni de différencier une offre au sein d’une même catégorie, comme des événements, par exemple.
  • Les deux cotés d’une même page :
    • Métadonnées dans le code HTML: les modèles Schema.org permettent aux moteurs de recherche de catégoriser des types de contenu.
    • Données dans le contenu d’une page web: certains éléments d’information repérables, tels que des entités nommées et des mots clés, facilitent la contextualisation et la personnalisation des résultats de recherche.
  • Il faut se tenir bien informé de l’évolution du moteur de recherche et de ses consignes d’utilisation avant d’indexer des offres avec Schema.org. Les objectifs de Google varient dans le temps, selon les types de contenu et selon les ententes qu’il conclut avec certaines grandes sources de données, comme par exemple, des plateformes musicales.
  • Un site web qui fournit de l’information structurée pour des machines et qui contribue à un écosystème de liens utiles pour des humains est un excellent investissement stratégique.
  • Tous les acteurs de l’écosystème numérique d’une offre culturelle contribuent au rayonnement de celle-ci par l’information offerte sur leurs sites web . Ceux-ci participent également au déploiement d’un réseau d’hyperliens fournissant des données contextuelles aux moteurs de recherche et des parcours de découverte aux humains.
  • Un bon plan de découvrabilité résulte d’une connaissance des publics cibles et de l’utilisation réfléchie et coordonnée de différents outils: référencement, modèles Schema.org, contributions à Wikipédia et Wikidata, publications sur des réseaux sociaux, campagnes de promotion et publicité.

Il n’existe pas de recette gagnante: une stratégie de visibilité et de rayonnement est spécifique à chaque projet. Le succès d’un plan découvrabilité dépend de choix qui sont alignés sur cette stratégie afin de publier la bonne information, dans le bon format, au bon endroit et pour le bon public.

Faire parler les images: repérabilité et interopérabilité des métadonnées

Indexation participative d'une photographie.
Indexation participative d’une photographie. Photogestion [CC BY-SA 4.0], Wikimedia Commons
Je mentionnais dans un précédent billet sur le rayonnement des offres  culturelles  que « des images qui parlent et font du lien » facilitent le travail des moteurs de recherche.

Les images sont des éléments d’information et des données. Elles améliorent le repérage d’entités (personnes, organisations, œuvres, lieux, événements) dans des pages web. Elles contribuent au développement de nouveaux parcours de découverte. À titre d’exemple, nous pouvons mentionner le moteur de recherche Google Images (créé en juillet 2001) et Wikimedia Commons où sont déposées un nombre grandissant d’images, dont celles de galeries d’art, pour en favoriser la réutilisation.

Voici deux annonces récentes qui devraient sensibiliser les éditeurs de sites web et professionnels du numérique à l’importance de documenter les images et/ou d’adopter de meilleurs pratiques.

IIIF (International Image Interoperability Framework)

D’abord, le mois dernier, IIIF annonçait que l’annotation des images s’étend désormais aux images des contenus audio et images en mouvement (vidéo, film). De plus, lIIF rend son modèle compatible avec l’écosystème des données liées en passant du modèle Open Annotation aux standards du Web (W3C Web Annotations) et en facilitant l’usage du langage JSON-LD pour exprimer les données. IIIF est un format de transmission de données: il ne permet pas de gérer des collections.

A critical element of this release is the ability to move beyond static digital images to present and annotate audio and moving images. This is done by adding duration to the existing IIIF canvas model, which also features x and y coordinates as means of selecting and annotating regions. Now, images and video can be juxtaposed using open source software viewers — allowing the public to view time-based media in open source media players, and allowing researchers to use open assets to create new tools and works including critical editions, annotated oral histories, musical works with thematic markup, and more.

IIIF Announces Final Release of 3.0 Specifications

Google Images

Cette semaine, Google dévoilait une nouvelle fonctionnalité qui permet de spécifier les informations relatives à la licence d’utilisation d’une image: licence payante, Creative Commons. Cette fonctionnalité permet d’utiliser le langage de balisage Schema.org (appelé « données structurées » par la plateforme) ou les métadonnées IPTC qui sont incrustées dans les fichiers des photos numériques.

L’un des moyens permettant d’indiquer à Google qu’une image peut être concédée sous licence consiste à ajouter des champs de données structurées. Ces données structurées représentent un format normalisé permettant de fournir des informations sur une page et de classer son contenu.

Licence d’image dans Google Images (BÊTA)

 

Comment rendre votre information repérable, accessible et interopérable

Ce billet s’inscrit dans la ligne du précédent, qui appelait à remplacer le terme fourre-tout de découvrabilité par les objectifs, beaucoup plus concrets, de repérabilité, accessibilité et interopérabilité.

Diagramme illustrant la recherche augmentée dans un brevet déposé par Google en 2013
Diagramme illustrant la recherche augmentée, brevet déposé par Google en 2013.
Source de la référence: ce billet de Bill Slawski.

Nos sites web sont des ensembles d’informations structurées pouvant être repérées, consultées, utilisées et interconnectées sur la grande plateforme ouverte qu’est le Web. C’est pour cette raison que les nôtres sont au cœur de la découverte de contenus et d’offres diverses. Nous devrions consacrer prioritairement nos efforts à les moderniser. Parce qu’aujourd’hui, tout part de là.

Objectif: aider les moteurs à repérer et lier des entités

Les moteurs de recherche indexent le contenu des pages web. Grâce au développement de bases de connaissances structurées (Knowledge Graph), ceux-ci peuvent repérer dans chaque page des choses ayant une signification spécifique, comme des personnes, des lieux, des événements ou des œuvres. Ces choses sont appelées « entités nommées ». Les entités nommées qui sont repérées sont catégorisées et associées selon le modèle d’organisation propre à chacune des bases de connaissances des moteurs de recherche.

Nos sites web, lorsqu’ils sont bien conçus, alimentent ces bases de connaissances. C’est pour cette raison qu’il faut prioriser l’amélioration de la repérabilité des contenus sur nos sites avant de verser des données dans Wikidata. Cette base de connaissances, tout comme d’autres, sert à réduire l’ambiguïté entre des entités (homonymes) et à valider les liens entre elles. Elle ne remplace cependant pas les sources d’information interconnectées, classifiées et référencées que sont les sites web.

Stratégie: quoi, pour qui, avec quels objectifs?

L’amélioration des conditions de repérabilité de l’information ne produit pas de résultat immédiat, contrairement aux tactiques de référencement organique de pages. Elle s’inscrit dans la durée et doit s’appuyer sur des notions précises plutôt que sur des mythes.

La réflexion stratégique permet de déterminer les objectifs à atteindre, les questions auxquelles les données doivent répondre, les publics cibles et les caractéristiques des offres à mettre de l’avant. Les objectifs vérifiables et mesurables de la « découvrabilité » sont les indicateurs de succès qui ont été déterminés en amont dans la stratégie numérique.

Responsabilités: qui fait quoi?

Comme je l’ai déjà mentionné dans un autre billet, nous ne devons plus concevoir des sites web comme des documents, mais comme des plateformes de données. Il faut nous affranchir d’un modèle de conception hérité du document imprimé afin de concevoir le site en commençant par les modèles de données plutôt que par les modèles de pages. Viennent ensuite la définition des structures représentant le ou les domaine de connaissance, puis la représentation des types d’entités sous forme de nœuds et de liens pour former, finalement, des graphes. Tout ceci nous oblige à revoir la méthodologie de conception de sites et à faire appel à des compétences qui sont rarement sollicitées pour des projets web.

Il ne s’agit pas uniquement de savoir comment intégrer ce processus dans les activités d’un projet, mais aussi de savoir ce qui doit être fait à l’interne et ce qui doit, par contre, être confié à des spécialistes.

Il n’existe pas de recette toute faite, ni d’application, pour améliorer ainsi l’organisation de l’information. L’élaboration d’un modèle de données représentant différentes entités et les relations qui les définissent est un travail de spécialiste. De plus, la spécificité des offres, objectifs stratégiques, publics cibles et environnements technologiques soulèvent des questions auxquelles une présentation de 3 heures ne permet pas de fournir de réponses solides.

Trois étapes essentielles pour structurer l’information

J’utilise des outils simples pour accompagner des équipes dans leurs démarches d’amélioration de sites web et de description de contenus avec des données structurées. Cependant, les projets n’avanceraient pas si ces équipes étaient livrées à elles-même, sans ressources pour répondre aux nombreuses questions que la démarche permet de soulever.

1. Organiser le site web autour des entités

L’organisation du site et la structure de l’information concernent les pages web lisibles par des humains et indexables par des machines (voir Structurer l’information autour d’entités repérables) et le code informatique de ces pages qui est interprétable par des machines (lire Schema.org n’est pas le moteur de recherche).

Vous pouvez évaluer en quelques points si la structure et le contenu des pages de votre site fournissent aux éléments d’information (entités nommées, métadonnées, mots clés) les meilleures conditions d’exploitation, pour des visiteurs et pour des moteurs de recherche.

  • Arborescence (accès aux offres et contenus).
  • Nomenclature (alignement de la taxonomie sur les publics cibles).
  • URL unique et lisible pour chaque offre et contenu.
  • Images (nomenclature de fichier, texte alternatif, résolutions).
  • Description (caractéristiques, attributs distinctifs, expérience).
  • Information à valeur ajoutée (liens vers d’autres sources d’information complémentaire).

2. Faire « du lien »

Comment évaluer le potentiel de rayonnement de vos contenus dans le numérique?

  • En cartographiant l’écosystème composé de points et de liens qui jouent un rôle central dans leur visibilité et découverte.
  • En identifiant les points (site web, réseaux sociaux, sites de partenaires) permettant d’établir des connexions pertinentes vers vos offres.

Vous reporterez ensuite, dans une grille, les points ainsi identifiés, puis dresser l’inventaire détaillé de l’information diffusée, de la fréquence des publications, des rôles et responsabilités de chacun. Vous serez alors en mesure de:

  • Déterminer les points permettant de rejoindre différents publics (en d’autres termes, associer les bons canaux et contenus aux bons publics).
  • Identifier les liens à créer ou à solidifier ainsi que les partenariats à développer.

3. Décrire les entités

Cette grille permettra d’identifier les métadonnées qui rendent vos offres et contenus uniques et plus faciles à trouver. Vous pouvez à la fois:

  • Trouver les mots pour différencier votre offre auprès de vos publics cibles.
  • Fournir des métadonnées permettant aux moteurs de recherche de fournir des réponses personnalisées.

Ces activités devraient être réalisées en groupe, au sein d’une organisation ou, lorsqu’il s’agit d’une initiative collective, avec les représentants de différentes organisations.

Découvrabilité = Repérabilité + Accessibilité + Interopérabilité

Standards W3C: repérabilité, accessibilité, interopérabilité

Traditionnellement, des réponses sont retrouvées à partir d’une collection de documents ou d’un graphe de connaissances.
(«Traditionally, answers have been retrieved from a collection of documents or a knowledge graph», Google AI Blog)

Traditionnellement ?

Cet adverbe est ici associé à «graphe de connaissances»: une technologie et des pratiques documentaires que nous ne maîtrisons pas.

Cette association, signale l’ampleur de l’écart entre notre conception des systèmes d’information, qui a peu évolué depuis l’invention des bases de données (pré Web), et le développement de graphes de données interconnectables (entité-relation) permettant, depuis plusieurs années déjà, de raisonner sur des connaissances.

Découvrabilité

Je préfère ne plus employer le terme « découvrabilité » car il porte l’illusion de pouvoir pousser des contenus sur les écrans des utilisateurs, comme à l’époque d’avant Internet. Cet espoir, qui façonne la plupart de nos projets connectés, est probablement la source de leur plus grande faiblesse.

Afin de faire évoluer nos usages du Web, il faut que nos initiatives numériques aient d’autres objectifs, plus concrets et vérifiables, que la découvrabilité. Ce mot trahit notre incapacité à faire évoluer notre compréhension du Web face à des entreprises qui se sont constituées en misant sur ses possibilités ultimes.

S’agit-il d’une caractéristique de l’information ou d’une activité de promotion? « Découvrabilité » est un néologisme dont nous n’arrivons pas à rapporter le sens à un savoir commun. Et pour cause: chaque spécialiste ou consultant l’adapte à ses compétences et à sa capacité d’intervention. L’absence de définition commune et précise ne facilite donc pas la convergence des initiatives numériques.

Je crois que nous aurions intérêt à remplacer ce concept flou par trois objectifs concrets pour lesquels il existe des connaissances formalisées et des outils pratiques: repérabilité, accessibilité et interopérabilité.

Repérabilité

Information documentée de façon à pouvoir être identifiée et localisée le plus aisément possible (architecture du site web, taxonomie, métadonnées). Synonyme: trouvabilité.

Accessibilité

L’information se trouve dans le Web et est accessible tant aux humains (contenu ouvert) qu’aux machines et algorithmes (indexation par les moteurs de recherche). L’accessibilité du web, qui vise initialement à permettre aux personnes handicapées d’accéder aux contenus et services web, est l’une des composantes de l’accessibilité numérique.

Interopérabilité

L’information est exprimée selon les standards universels, libres et ouverts d’accessibilité et de lisibilité pour les humains et les machines (protocole de communication HTTP, adressage URL, langage HTML). Voir ses enjeux, principes et typologies présentés dans Wikipedia.

***

Le Web est la seule plateforme permettant de publier de l’information de façon repérable, accessible et interopérable par qui ou quoi que ce soit. C’est pour cette raison que l’amélioration de la découverte d’offres et de contenus, dans un monde numérique, dépend de la structure de l’information publiée sur les sites web.

Dans le prochain billet, nous verrons pourquoi il faut revoir la façon dont nous concevons nos sites web et ce que tous devraient savoir pour adopter de nouvelles bonnes pratiques.

Et si nous retombions en amour avec nos sites web?

William Moore de la réserve de Mattagami, Ontario, réparant un filet.
John Macfie, 1958, Archives publiques de l’Ontario sur Flickr.

Pourquoi l’évolution de nos sites web s’est-elle arrêtée au document numérique alors que chez des entreprises, comme Amazon ou Spotify, elle se concrétise par le déploiement de plateformes de données?

Les interactions que nous pouvions organiser sur nos domaines se sont atrophiées car nous avons laissé aux algorithmes le soin de faire des liens de proximité, de sens, de popularité ou autres. Ces liens qui favorisent la découverte et le rayonnement, nous ne les contrôlons pas.

Décloisonner les parcours de formation

Est-ce faute de ne pas avoir adapté, en les décloisonnant, des formations comme l’informatique, la communication et les sciences de l’information à la complexité de nouvelles pratiques? Dans le Web, les logiques technologiques, informationnelles et industrielles s’entrecroisent à présent pour former un nouveau champ de connaissances pour lequel il n’existe pas encore de savoir commun.

Entrer dans le domaine du langage

Ou, encore, est-ce faute de n’avoir pas réalisé que la donnée relève  beaucoup plus du langage et de la pensée que du calcul et de la technologie?

Les concepts et particularités propres aux différents domaines de l’activité humaine ne sont pas aisément traduisibles dans la pensée mathématique des machines. L’information n’est plus uniquement un enjeu d’ingénierie, une chose à stocker, à transformer et à faire circuler. Dans le Web, elle relève du domaine du langage, décrivant des choses et des relations entre ces choses. Cette perspective, pourtant essentielle à l’ère de l’intelligence artificielle, est pratiquement absente des méthodes courantes de conception.

S’affranchir du document

Ou, tout simplement, est-ce parce que des solutions d’utilisation facile et très souvent gratuites nous ont été offertes? Avons-nous finalement laissé à d’autres les défis de l’évolution du Web et de nos architectures de connaissances? Cette évolution était pourtant prévisible dès 2009, la nouvelle méthode de conception de sites proposée cette anné-là par la BBC dans un billet de blogue en faisant foi.

Ne plus troquer l’acquisition d’expertise pour la facilité

Je crois bien que nous avons graduellement délégué à des entreprises, par algorithmes interposés, le choix des mots et des liens définissant qui nous sommes et la régulation des flux d’information dans un espace qui n’est pourtant qu’un sous-ensemble du Web. Nous avons renoncé au contrôle sur la découverte et la recommandation dont nous disposions grâce à nos blogues, nos répertoires et même, nos collections de fils RSS — j’utilise encore la mienne!

Alors que nous concevons encore un site web comme un ensemble de documents, les acteurs de la nouvelle économie prospèrent grâce à des sites web conçus comme des plateformes de données. Ces plateformes permettent d’aller beaucoup plus loin que la publication d’information. Par exemple:

  • Trouver, réutiliser et partager des contenus par les utilisateurs et à l’interne;
  • Définir les rôles, responsabilités et règles de gouvernance relatifs à chaque ensemble de données.
  • Faciliter l’accès, de façon transversale, aux connaissances nécessaires pour la recherche de solutions et l’innovation.
  • Et, surtout, relier les métadonnées descriptives des ressources aux données d’usage résultant de l’interaction des utilisateurs avec les contenus.

Réapprendre à faire du Web

Avant de tenter de mesurer le rayonnement de contenus culturels sur les plateformes, il faudrait se demander si nous en maîtrisons les conditions, sur nos sites web et au sein de nos écosystèmes numériques.

Nous avons choisi la gratuité et la facilité des plateformes qui sont la propriété d’entreprises sachant, mieux que nous, exploiter l’information tirée des interactions avec nos contenus. Le contexte actuel de la pandémie semble avoir accentué notre dépendance envers ces services qui entretiennent notre espoir de retrouver nos publics et nos clients.

Nos sites web nous offrent pourtant toujours la possibilité de développer et d’afficher nos écosystèmes de liens et de nommer les choses qui nous rassemblent. Afin de ne pas les laisser s’atrophier, nous devrions nous en servir pour mieux représenter nos domaines d’activité, nos contenus, ainsi que nos réseaux.

Solutionnisme et inégalités: gare aux écueils de la transformation numérique

jeu de mikado
Jeu de mikado, Heurtelions [CC BY-SA], Wikimedia Commons
Le recours au « tout numérique », dans les circonstances de la crise actuelle entraînée par la pandémie, révèle de nombreuses inégalités. Qu’il s’agisse de l’enseignement à distance, de la dématérialisation des services publics ou, même, du traçage des personnes, les propositions de « solutions » tiennent généralement pour acquis que l’informatique connectée est à la portée de tout le monde. Nous devons éviter les écueils de la transformation numériques que sont le solutionnisme et la création d’inégalités numériques.

Imaginer nos propres solutions

J’ai élaboré, dans un précédent billet, sur le piège du solutionnisme technologique:  « Ce ne sont pas des plateformes numériques qui ont permis à Netflix et compagnie de bouleverser l’industrie. C’est d’avoir compris le potentiel du Web et pensé autrement l’accès, la distribution et la production de contenus audiovisuels, en osant remettre en question les modèles établis.»

Cette expression peut s’appliquer au sentiment d’urgence qui nous pousse vers le développement d’un outil avant même d’avoir défini le problème, exploré les causes possibles et analysé les systèmes sociaux et techniques.

Il ne faut pas tomber dans ce piège et nous contenter de reproduire des stratégies et des outils qui ont été conçus pour servir d’autres objectifs que les nôtres.

Internet pour réduire les inégalités

Voici quelques éléments qui favoriseraient la transformation numérique, en commençant par la condition de base:

  • Accès Internet sur tout le territoire.
  • Accès Internet à la maison (gratuit ou à coût modique).
  • Bande passante nécessaire pour l’accès de qualité à du contenu audiovisuel.
  • Ordinateur à la maison (échapper aux coûts de l’obsolescence programmée,  promouvoir les logiciels libres). Équipement en nombre suffisant pour les besoins d’une famille confinée.
  • Connaissances informatiques et habiletés numériques suffisantes (autonomie des utilisateurs, sécurité informatique, protection de la vie privée).
  • Équipement adapté et logiciels et contenus web accessibles aux personnes en situation de handicap temporaire ou permanent.
  • Service de médiation: outils d’accès –et de contribution– à la connaissance et à la culture, littératie de l’information (bibliothèques publiques, initiatives citoyennes).
  • Commerçants, fonctionnaires, profs et professionnels ayant des compétences numériques suffisantes ou les ressources nécessaires pour offrir un bon niveau de services en ligne.
  • Amélioration du niveau d’alphabétisation (compréhension des consignes d’utilisation des services en ligne et des instructions techniques).

Technologies plus simples, accessibles et durables

Dans une tribune, Jean-François Marchandise, cofondateur de la Fondation Internet nouvelle génération, partage ce constat sur le besoin de médiation numérique :

Aujourd’hui, une grande partie de l’innovation numérique repose sur un numérique de luxe. Nous allons vers des « toujours plus », adaptés à un monde en croissance éternelle et en ressources infinies…
A contrario, il va davantage falloir composer avec un numérique moins high tech, qui puisse fonctionner avec trois bouts de ficelle, de manière plus décentralisée, avec une moindre dépendance au lointain, une relocalisation des savoir-faire.

De plus, si tous les citoyens sont égaux, ne devrions-nous pas élaborer des propositions numériques en fonction du plus bas dénominateur numérique commun ?

Pilotage d’initiatives et intelligence collective

Cette pandémie devrait nous faire réaliser que nous devons changer nos méthodes de travail et prendre garde aux inégalités numériques et au solutionnisme technologique.

Si nous souhaitons tirer des apprentissages constructifs de la complexité de cette situation, nos équipes de projets doivent être interdisciplinaires et nos analyses doivent tenir compte de l’interdépendance des systèmes. Les outils de communication et de travail collaboratif peuvent faciliter la circulation des idées. Cependant, seule une réelle transformation du pilotage des initiatives numériques, vers une forme d’intelligence collective, pourrait les rendre plus efficaces et accroître leurs bénéfices.

Pour que le Québec puisse se relever le plus rapidement de cette crise, l’ensemble de la société doit participer à la création de valeur (savoir, culture, industrie). Et pour cela, il faudrait d’abord réparer la fracture numérique, faire de l’accès Internet un service public essentiel et apprendre à piloter des projets dans la complexité.

Et si le rayonnement des offres culturelles passait par de meilleurs sites web?

Illustration du concept de pertinence dans un écosystème numérique
Concept de « pertinence », dans un écosystème numérique. GinsuText [CC BY-SA 3.0], Wikimedia Commons
Favoriser la visibilité des contenus culturels québécois en ligne n’est pas une question de technologie. Les solutions technologiques, quelles qu’elles soient, ne peuvent améliorer la qualité de l’information. À ce titre, je ne parle pas des bases de données. Leur absence de traitement documentaire adéquat est connue. Je parle du contenu de sites web que même la présence de balises Schema n’arrive pas à rendre plus exploitable par des moteurs de recherche.

Structurer l’information autour d’entités repérables

Pourtant, plus de vingt ans après la naissance du web, la conception de sites est encore largement influencée par la production de documents imprimés.  Si la forme et le design se sont adaptés aux modes et aux supports, la structure et la conception de l’information n’ont pas bougé. Nos sites sont encore conçus pour être lus par des humains.

Voici quelques éléments qui sont essentiels pour faciliter le repérage d’entités (personnes, organisations, œuvres, lieux, événements) par des moteurs de recherche et autres applications.

Un site pour être dans le web

Un site web est au centre d’un écosystème numérique. C’est une adresse où se trouve de l’information accessible selon des standards universels et ouverts. C’est également un espace de publication qui n’est pas assujetti à d’autres objectifs que ceux de son propriétaire. Constitué de pages et de documents reliés entre eux et à d’autres sites web par des hyperliens, il peut se trouver sur le parcours d’utilisateurs et de moteurs de recherche. Un site web marque l’existence d’une entité dans cette application qui opère sur l’Internet et qui s’appelle le Web.

Ne compter que sur des réseaux sociaux pour avoir une présence numérique est une pratique qui réduit le potentiel de rayonnement et de découverte de nos contenus culturels.

Une URL pour chaque offre

Le développement des moteurs évolue rapidement vers le repérage et l’interprétation d’entités nommées (noms propres ou expressions définies comme un événement) dans des données non structurées. Pour faciliter le repérage d’un événement ou d’une œuvre, il faut lui attribuer une page spécifique. Publier plusieurs offres dans la même page ne permet pas à une machine de traiter adéquatement l’information qui y est présente. L’unicité et la persistance de l’URL signalent la présence d’une entité «événement» ou «œuvre» qui est liée à l’entité organisation.

Des mots qui connectent avec des publics

L’intégration des balises du vocabulaire Schema.org permet d’identifier des types d’offres. Leur usage ne permet cependant pas aux moteurs de recherche de différencier une offre d’autres offres similaires. Ce sont alors des mots (description, titre, caractéristiques) qui peuvent générer des liens entre l’information recherchée par des utilisateurs et les données non structurées qui sont présentes dans la page web.

Le choix des mots employés est stratégique parce que ceux-ci peuvent être utilisés pour fournir une réponse plus précise à une question (et cela, tant dans le contenu d’une page que dans le balisage qui est intégré dans son code HTML). Il s’agit d’établir des connexions avec les vocabulaires et intérêts des publics cibles et de rendre le contenu indexé unique ou le distinguer d’autres contenus similaires.

Des images qui parlent et font du lien

Parmi les conditions qui facilitent le traitement de l’information par les moteurs de recherche, on ignore trop souvent celles qui concernent les images. Une page qui comprend une image sera préférée à une autre qui n’en a pas. Si des liens, dans le code HTML de la page, fournissent un accès à des fichiers contenant trois résolutions de cette image (1X1, 4X3, 16X9), le contenu sera assurément exploitable. dans des résultats de recherche et sur de petits écrans. Notez que l’optimisation des images est automatiquement prise en charge par certains systèmes de gestion de contenu et certains thèmes de  WordPress.

Nommer le fichier d’une image en utilisant des mots qui sont pertinents avec la description de son contenu en facilite l’exploitation et la gestion.

Des liens pour relier des entités nommées

Ne pas faire de liens, hors d’un site web, afin d’y retenir les internautes nuit au rayonnement. Le déploiement de liens entre les acteurs concernés par la création, production et diffusion d’un contenu culturel souligne la présence numérique de chacun. La simple présence de liens vers des sources d’information externes enrichit l’information tout en favorisant des découvertes. Par exemple, relier des entités nommées autour d’une production audiovisuelle (œuvres musicales, lieu historique, réalisatrice et d’acteurs) améliore leur potentiel d’être découvertes par des humains et des machines.

Des sites web pour construire un réseau d’hyperliens

Le rayonnement et la découverte de nos contenus culturels sur le web dépendent, avant tout, de l’organisation et de la structure de l’information sur nos sites web. Ne pas avoir son propre site, c’est ne pas faire partie du web ouvert, interopérable et de plus en plus interprétable par des machines. C’est également laisser à d’autres le soin de parler de vous. Mais, c’est surtout, renoncer aux moyens les plus simples et accessibles (vous rappellez-vous les blogolistes ou « blog roll » ?) que nous ayons pour relier les personnes, les organisations, les œuvres, les événements et les lieux, sur nos territoires et sur tout le Québec.

Mais si l’amélioration de la qualité de l’information numérique repose sur de meilleurs sites web, faudrait-il alors revoir les programmes de financement qui en excluent le développement ?

Les acteurs culturels doivent-ils devenir spécialistes de l’information numérique ?

Les fournisseurs de services web ne sont-ils pas en première ligne lorsqu’il s’agit de conseiller et de réaliser des projets pour les acteurs culturels ? La même question se pose concernant les exigences de découvrablité des programmes de financement. Où sont les compétences nécessaires pour offrir un accompagnent qui soit susceptible d’apporter des améliorations notables ?

Nécessaire mise à jour des connaissances et des programmes de formation

En l’absence de connaissances formalisées et de méthodes pédagogiques pour améliorer la littératie de l’information numérique (car c’est bien de cela dont il s’agit), le milieu culturel est laissé à lui-même. Il fait face à une variété d’interprétations, d’approches et de propositions stratégiques et technologiques dont il n’est pas en mesure d’évaluer l’exactitude, la pertinence ou le rendement potentiel.

Il serait donc urgent de réunir des représentants des domaines des sciences de l’information et des technologies numériques, des secteurs industriels et académiques,  afin de proposer une mise à jour des compétences et des formations.

Découvertes culturelles: au-delà du marketing et du techno-solutionnisme

Wikipedia as a marketing tool, livre sur Google Books
Les utilisateurs préfèreraient-ils une encyclopédie ou un répertoire commercial?

Notre focalisation sur le marketing et les solutions technologiques est-elle un risque pour la diversité culturelle ? L’absence de vision partagée et la course aux résultats  peuvent-elles faire perdre aux acteurs de la culture la maîtrise stratégique des choix en matière de diffusion et d’accès ?

Nous espérons des solutions mécanistes qui accroîtront la consommation en imposant des offres culturelles à la façon des vieux modèles publicitaires. La mise en données de contenus culturels ne doit pas nous faire oublier qu’il appartient à chacun de réaliser la partie la plus stratégique d’un projet numérique : décider de la façon dont une chose (une œuvre, par exemple) doit être documentée et déterminer ce qui la relie à d’autres informations dans le web des données.

L’emploi du mot « initiative », de préférence à « projet », souligne l’importance de la démarche et des apprentissages, par rapport à la livraison d’un outil ou la modernisation d’un système. Voici comment nos initiatives pourraient être plus marquantes.

Miser sur l’éducation et l’accès à la culture

Le marketing peut entraîner la consommation de produits et services culturels, mais ce sont l’éducation et l’accès à la culture qui peuvent faire découvrir et apprécier la culture.  Or, il faudrait une plus grande porosité entre les politiques et projets éducatifs et culturels pour miser sur l’environnement familial et social pour faire connaître la culture.

Il faudrait également donner un rôle plus actif, dans nos plans et initiatives numériques, aux médiateurs de proximité que sont les professionnels des bibliothèques publiques et scolaires.

Privilégier les initiatives qui favorisent la diversité

Nous cherchons, par tous les moyens,  à ce que la culture locale soit vue et consommée, de préférence à d’autres offres.  Nos propositions techniques partagent cependant les défauts des plateformes dominantes. Qu’il s’agisse de baliser des contenus pour les moteurs de recherche ou de créer de nouvelles bases de données interrogeables, la façon dont sont conçues ces  « solutions » technologiques nuit à la diversité des offres culturelles.

  • La centralisation des décisions et du traitement de l’information renforce l’uniformisation.
  • La popularité comme principal critère de sélection défavorise les contenus de niche, les cultures et langues en situation minoritaire dans un répertoire, sur un territoire ou par rapport au reste du monde.
  • L’uniformisation du traitement documentaire, par l’imposition d’une méthode de classification, de vocabulaires et de référentiels spécifiques, appauvrit la qualité de l’information. Par conséquent, elle en diminue l’intérêt et la valeur pour différents publics.  Les initiatives de  décolonisation des modèles descriptifs tentent de réparer les ravages du rouleau compresseur de l’uniformisation sur la citoyenneté culturelle des peuples autochtones.
  • Les systèmes de recommandations et de personnalisation des offres  culturelles reposent sur la similarité des produits et services ou sur la similarité des profils des utilisateurs.

Ne pas céder des choix stratégiques

À l’arrivée de l’informatique, nous avons confié l’organisation de l’information à des systèmes de bases de données, selon les termes d’entreprises. Il est temps de remettre, selon nos propres termes, cette intelligence dans nos sites web et, plus spécifiquement, dans nos catalogues, collections, répertoires,  fonds et archives. Nous ne devrions pas abandonner la création de sens et de liens à des opérateurs de plateformes et à des fournisseurs de services.

Être trouvé ou découvert et laisser des traces numériques sont les fruits d’un travail de documentation. Celui-ci est trop souvent escamoté par la recherche d’une solution technologique. De plus, les façons de décrire des productions ou des offres culturelles offrent peu de possibilité de mettre celles-ci en relation avec des intérêts et des passions.

Par exemple, les catalogues et répertoires en ligne pourraient grandement améliorer l’expérience des utilisateurs en devenant des bases de connaissances interactives et interconnectées. Il serait ainsi possible d’intégrer de nouvelles informations et des liens vers d’autres ressources grâce aux contributions de chercheurs et d’amateurs.

Documenter: laisser des traces, créer du lien et faire sa marque

Documenter la culture et rendre cette information pertinente, attrayante et utile pour divers publics et usages sont la responsabilité de tous les acteurs du milieu culturel. Il manque une méthode de travail et des outils faciles à utiliser pour réaliser, en équipe ou avec des partenaires, l’évaluation de l’information publiée sur le web et le choix des métadonnées qui feront des liens entre les offres culturelles et les publics cibles.

C’est dans cette perspective qu’a été conçu un guide destiné aux artistes et aux organisations du milieu de la danse. Cette approche, en trois étapes (stratégie, information, technologie) repousse les choix technologiques à la toute dernière étape afin de remettre la documentation de la danse à ceux et celles qui la font.

Extraits du lancement du guide Bien documenter pour favoriser la découverte en ligne, réalisé pour la Fondation Jean-Pierre Perreault, dans le cadre de l’initiative La danse dans le web des données.

Conseil en information numérique