Découvrabilité: des métadonnées, oui, mais dans quel but?

Machinerie (chaîne de montage)
Machine à produire des résultats. Tetra Pak [CC BY-SA 2.0], Wikimedia Commons
Il faut encore le répéter: produire des métadonnées n’est pas une stratégie et se contenter d’intégrer des balises Schema.org dans une page web ne garantit pas nécessairement la découvrabilité d’une offre. À l’inverse, par contre, une bonne stratégie permet de choisir les bons outils et les bonnes métadonnées.

Retour sur des notes prises en lisant des propositions de projets numériques.

À la recherche de la stratégie perdue

L’absence de réflexion stratégique est le talon d’Achille de la plupart des propositions de projets et de plans de découvrabilité. Pourtant, qu’il s’agisse de baliser des types de contenu à l’intention des moteurs de recherche ou de décrire des ressources dans un catalogue en ligne, la production de métadonnées utiles s’appuie sur la connaissance des publics cibles et des résultats recherchés.

La meilleure façon d’évaluer le résultat des efforts déployés pour qu’une offre ou un contenu rejoigne ses publics est de fixer des objectifs mesurables et réalistes. Et pour cela, il faut avoir élaboré une stratégie basée sur la connaissance du marché, des opportunités et des contraintes propres à l’organisation.

Les connexions entre votre offre et ses publics cibles

Les algorithmes des plateformes évoluent vers une personnalisation accrue des réponses qu’elles proposent en s’appuyant sur les profils de leurs utilisateurs. Nos sites web devraient faire de même en fournissant des éléments d’information qui « parlent » aux publics cibles et qui, conséquemment, facilitent le travail des moteurs de recherche.

Petit rappel: nous découvrons de l’information sur l’interface d’un moteur de recherche, mais c’est celui-ci qui la trouve. Et cela, en fonction d’un traitement algorithmique fondé sur :

  • la popularité (ou l’autorité) des contenus;
  • leur similarité avec le profil et l’historique de navigation de l’utilisateur.

Avant de tout miser sur des métadonnées

Voici quelques éléments clés sur lesquels réfléchir avant de déterminer les activités à réaliser dans le cadre d’un plan de découvrabilité:

  • Peu importe les activités évoquées par le terme, la découvrabilité n’est mesurable qu’à l’aide des objectifs déterminés par la stratégie. Pas de stratégie: pas d’objectifs donc pas d’évaluation des résultats. Et cela s’applique autant à une stratégie de promotion qu’à des initiatives de mutualisation de données et de modélisation de connaissances pour le web sémantique.
  • Les moteurs de recherche ne sont que l’un des vecteurs de la découverte. Celle-ci n’advient pas que par l’entremise de machines car la recommandation est encore largement sociale — réseaux sociaux, réseaux professionnels et académiques, bibliothécaires, libraires, médias et publications spécialisées. Les métadonnées ne sont que l’un des moyens à mettre en œuvre, au même titre qu’une page Facebook ou une chaîne YouTube, au service d’une stratégie.
  • Se contenter d’intégrer des balises ne permet pas aux moteurs de recherche de fournir aux utilisateurs les réponses correspondant le plus à leurs profils ni de différencier une offre au sein d’une même catégorie, comme des événements, par exemple.
  • Les deux cotés d’une même page :
    • Métadonnées dans le code HTML: les modèles Schema.org permettent aux moteurs de recherche de catégoriser des types de contenu.
    • Données dans le contenu d’une page web: certains éléments d’information repérables, tels que des entités nommées et des mots clés, facilitent la contextualisation et la personnalisation des résultats de recherche.
  • Il faut se tenir bien informé de l’évolution du moteur de recherche et de ses consignes d’utilisation avant d’indexer des offres avec Schema.org. Les objectifs de Google varient dans le temps, selon les types de contenu et selon les ententes qu’il conclut avec certaines grandes sources de données, comme par exemple, des plateformes musicales.
  • Un site web qui fournit de l’information structurée pour des machines et qui contribue à un écosystème de liens utiles pour des humains est un excellent investissement stratégique.
  • Tous les acteurs de l’écosystème numérique d’une offre culturelle contribuent au rayonnement de celle-ci par l’information offerte sur leurs sites web . Ceux-ci participent également au déploiement d’un réseau d’hyperliens fournissant des données contextuelles aux moteurs de recherche et des parcours de découverte aux humains.
  • Un bon plan de découvrabilité résulte d’une connaissance des publics cibles et de l’utilisation réfléchie et coordonnée de différents outils: référencement, modèles Schema.org, contributions à Wikipédia et Wikidata, publications sur des réseaux sociaux, campagnes de promotion et publicité.

Il n’existe pas de recette gagnante: une stratégie de visibilité et de rayonnement est spécifique à chaque projet. Le succès d’un plan découvrabilité dépend de choix qui sont alignés sur cette stratégie afin de publier la bonne information, dans le bon format, au bon endroit et pour le bon public.

Comment faire un plan de « découvrabilité » pour des résultats mesurables

« La grande absente de la plupart des initiatives numériques, c’est la stratégie. »
Photo: Kelly Sikkema via Unsplash

Depuis peu, en culture, on retrouve un volet « découvrabilité » dans la plupart des appels à projets. S’agit-il d’une application technologique, de techniques de référencement ou d’une campagne de promotion numérique?  L’absence d’explications concrètes et de description des compétences requises met les  demandeurs (ainsi que les bailleurs de fonds!) dans une situation où ils ne disposent pas des guides nécessaires pour savoir ce qu’il faut faire, ni quels résultats escompter.

Un  projet dans un projet

Assurer la repérabilité d’une nouvelle création ou d’une nouvelle offre est un projet à part entière, avec ses ressources, ses objectifs et ses réalisations. Il ne s’agit pas de mettre en commun ce que chacun aura produit de son côté, mais de produire des contributions s’alimentant les unes des autres. C’est pourquoi, dans nos velléités de transformation numérique, le travail en silo est un frein à la réussite de nos projets.

Les mots qui font des connexions

C’est l’information fournie à propos des choses qui est repérable — pas les choses en elles-mêmes. Cette distinction est extrêmement importante puisque c’est le choix des éléments descriptifs qui retient l’attention d’audiences cibles et qui permet aux moteurs de recherche de connecter des offres à des intentions et des profils d’utilisateurs.

Sous le couvert nébuleux de la découvrabilité, il existe en réalité des pratiques et des standards permettant de structurer l’information pour le Web afin d’en assurer la repérabilité, l’accessibilité et l’interopérabilité.

Google ne parle pas web sémantique

Représenter des connaissances avec les technologies du web sémantique (URI, RDF…) et structurer de l’information pour des moteurs de recherche sont des projets différents qui n’ont pas les mêmes finalités.

Si votre objectif est de faire découvrir votre offre culturelle en vous servant, entre autres, des moteurs de recherche pour générer des visites, des visionnements ou des achats, le web sémantique ne vous sera d’aucune utilité!

Google n’exploite que le langage de balisage Schema.org

Pour un plan de découvrabilité plus efficace

Voici les éléments de réflexion qui apporteront plus d’efficacité à votre plan de découvrabilité.  La grande lacune de la plupart des plans de découvrabilité est l’absence ou la faiblesse de la stratégie comment pousser les bons contenus aux bons publics, sur les bons canaux, pour atteindre des objectifs mesurables. Or, ce travail est essentiel à plusieurs titres:

1 – Connaître les publics et fixer des objectifs

À quels besoins et à quels publics votre offre est-elle susceptible de répondre? Les objectifs à atteindre doivent être déterminés en fonction des intérêts et comportements de ces publics cibles ainsi que de leurs possibles relations à l’offre.

2 – Différencier votre offre

Le vocabulaire Schema.org permet de fournir une description détaillée d’une offre culturelle. Google n’en utilise cependant que certains éléments. Baliser une offre de spectacle n’est pas suffisant pour permettre à celle-ci de se différencier de milliers d’autres offres. La connaissance des publics fournit les éléments d’information et le vocabulaire pouvant aider les moteurs de recherche à faire des connexions entre les intentions et profils des utilisateurs et les offres disponibles.

3 – Faire travailler des spécialistes ensemble

Les balises et le référencement par mots clés sont des outils complémentaires s’appuyant sur la stratégie de promotion. Accroître la découverte commence par la présentation de l’offre sur le site web . Ceci a pour but de faciliter le travail des moteurs de recherche et d’améliorer l’expérience de l’utilisateur avec leur interfaces.

4 – Relier les acteurs de l’écosystème

Si un site web est absolument essentiel et stratégique, d’autres présences numériques contribuent au rayonnement d’une offre. Une bonne stratégie met donc à contribution les acteurs de l’écosystème en identifiant des points d’entrée (réseau social, vidéo, site partenaire, etc.) et en multipliant ainsi les parcours de découverte.

5 – Ne pas compter uniquement sur Google

En se contentant de produire des métadonnées sous forme de balises Schema.org, on se conforme aux modèles et directives qui répondent avant tout aux objectifs d’affaires d’un géant du numérique. Bien que le balisage d’offres pour les moteurs de recherche fasse partie des bonnes pratiques web, Google ne garantit aucun résultat (longue lecture, mais excellent billet).

Attention: les métadonnées ne sont pas toujours utiles. Si vous souhaitez améliorer la valeur de votre site pour Google, corrigez les lacunes de conception et améliorez la valeur du contenu rédactionnel.

6 – Mesurer l’atteinte des objectifs

Finalement, la découverte d’offres culturelles sur un moteur de recherche est difficilement mesurable. Elle dépend de plusieurs facteurs extrêmement variables, comme le profil, l’intention présumée par l’algorithme et les usages antérieurs de chaque utilisateur. Ce sont donc les objectifs et indicateurs de mesure ayant été déterminés dans le plan stratégique qui permettront d’évaluer la réussite de celui-ci.

Utiliser des métadonnées sans tomber dans le solutionnisme

Ce ne sont pas les métadonnées qui produisent des résultats, mais les moyens déterminés par la stratégie. Il faut donc proposer des initiatives plus marquantes pour la diffusion et l’appréciation de nos offres culturelles. Par exemple, renouveler l’expérience de recherche sur un site en présentant l’information sous forme de fiches, de façon similaire à Google, mais selon d’autres règles que la popularité et la similarité.

Il n’existe pas de recette. Chaque projet étant unique, il doit se différencier pour se démarquer, et ce grâce au choix des canaux, plateformes, mots, images et liens adressés aux bons publics.

Surtout, il ne faut pas se contenter d’appliquer les consignes de Google. On doit également chercher à comprendre l’interaction complexe des systèmes et identifier les éléments stratégiques que nous pouvons contrôler.

Enfin, nous ne pouvons pas encourager le milieu culturel à se conformer à un système dont nous ne comprenons pas le fonctionnement et dénoncer, dans le même temps, la domination et l’opacité des GAFAM. Cette contradiction en dit long sur les connaissances qu’il nous reste à acquérir…

Faire parler les images: repérabilité et interopérabilité des métadonnées

Indexation participative d'une photographie.
Indexation participative d’une photographie. Photogestion [CC BY-SA 4.0], Wikimedia Commons
Je mentionnais dans un précédent billet sur le rayonnement des offres  culturelles  que « des images qui parlent et font du lien » facilitent le travail des moteurs de recherche.

Les images sont des éléments d’information et des données. Elles améliorent le repérage d’entités (personnes, organisations, œuvres, lieux, événements) dans des pages web. Elles contribuent au développement de nouveaux parcours de découverte. À titre d’exemple, nous pouvons mentionner le moteur de recherche Google Images (créé en juillet 2001) et Wikimedia Commons où sont déposées un nombre grandissant d’images, dont celles de galeries d’art, pour en favoriser la réutilisation.

Voici deux annonces récentes qui devraient sensibiliser les éditeurs de sites web et professionnels du numérique à l’importance de documenter les images et/ou d’adopter de meilleurs pratiques.

IIIF (International Image Interoperability Framework)

D’abord, le mois dernier, IIIF annonçait que l’annotation des images s’étend désormais aux images des contenus audio et images en mouvement (vidéo, film). De plus, lIIF rend son modèle compatible avec l’écosystème des données liées en passant du modèle Open Annotation aux standards du Web (W3C Web Annotations) et en facilitant l’usage du langage JSON-LD pour exprimer les données. IIIF est un format de transmission de données: il ne permet pas de gérer des collections.

A critical element of this release is the ability to move beyond static digital images to present and annotate audio and moving images. This is done by adding duration to the existing IIIF canvas model, which also features x and y coordinates as means of selecting and annotating regions. Now, images and video can be juxtaposed using open source software viewers — allowing the public to view time-based media in open source media players, and allowing researchers to use open assets to create new tools and works including critical editions, annotated oral histories, musical works with thematic markup, and more.

IIIF Announces Final Release of 3.0 Specifications

Google Images

Cette semaine, Google dévoilait une nouvelle fonctionnalité qui permet de spécifier les informations relatives à la licence d’utilisation d’une image: licence payante, Creative Commons. Cette fonctionnalité permet d’utiliser le langage de balisage Schema.org (appelé « données structurées » par la plateforme) ou les métadonnées IPTC qui sont incrustées dans les fichiers des photos numériques.

L’un des moyens permettant d’indiquer à Google qu’une image peut être concédée sous licence consiste à ajouter des champs de données structurées. Ces données structurées représentent un format normalisé permettant de fournir des informations sur une page et de classer son contenu.

Licence d’image dans Google Images (BÊTA)

 

Comment rendre votre information repérable, accessible et interopérable

Ce billet s’inscrit dans la ligne du précédent, qui appelait à remplacer le terme fourre-tout de découvrabilité par les objectifs, beaucoup plus concrets, de repérabilité, accessibilité et interopérabilité.

Diagramme illustrant la recherche augmentée dans un brevet déposé par Google en 2013
Diagramme illustrant la recherche augmentée, brevet déposé par Google en 2013.
Source de la référence: ce billet de Bill Slawski.

Nos sites web sont des ensembles d’informations structurées pouvant être repérées, consultées, utilisées et interconnectées sur la grande plateforme ouverte qu’est le Web. C’est pour cette raison que les nôtres sont au cœur de la découverte de contenus et d’offres diverses. Nous devrions consacrer prioritairement nos efforts à les moderniser. Parce qu’aujourd’hui, tout part de là.

Objectif: aider les moteurs à repérer et lier des entités

Les moteurs de recherche indexent le contenu des pages web. Grâce au développement de bases de connaissances structurées (Knowledge Graph), ceux-ci peuvent repérer dans chaque page des choses ayant une signification spécifique, comme des personnes, des lieux, des événements ou des œuvres. Ces choses sont appelées « entités nommées ». Les entités nommées qui sont repérées sont catégorisées et associées selon le modèle d’organisation propre à chacune des bases de connaissances des moteurs de recherche.

Nos sites web, lorsqu’ils sont bien conçus, alimentent ces bases de connaissances. C’est pour cette raison qu’il faut prioriser l’amélioration de la repérabilité des contenus sur nos sites avant de verser des données dans Wikidata. Cette base de connaissances, tout comme d’autres, sert à réduire l’ambiguïté entre des entités (homonymes) et à valider les liens entre elles. Elle ne remplace cependant pas les sources d’information interconnectées, classifiées et référencées que sont les sites web.

Stratégie: quoi, pour qui, avec quels objectifs?

L’amélioration des conditions de repérabilité de l’information ne produit pas de résultat immédiat, contrairement aux tactiques de référencement organique de pages. Elle s’inscrit dans la durée et doit s’appuyer sur des notions précises plutôt que sur des mythes.

La réflexion stratégique permet de déterminer les objectifs à atteindre, les questions auxquelles les données doivent répondre, les publics cibles et les caractéristiques des offres à mettre de l’avant. Les objectifs vérifiables et mesurables de la « découvrabilité » sont les indicateurs de succès qui ont été déterminés en amont dans la stratégie numérique.

Responsabilités: qui fait quoi?

Comme je l’ai déjà mentionné dans un autre billet, nous ne devons plus concevoir des sites web comme des documents, mais comme des plateformes de données. Il faut nous affranchir d’un modèle de conception hérité du document imprimé afin de concevoir le site en commençant par les modèles de données plutôt que par les modèles de pages. Viennent ensuite la définition des structures représentant le ou les domaine de connaissance, puis la représentation des types d’entités sous forme de nœuds et de liens pour former, finalement, des graphes. Tout ceci nous oblige à revoir la méthodologie de conception de sites et à faire appel à des compétences qui sont rarement sollicitées pour des projets web.

Il ne s’agit pas uniquement de savoir comment intégrer ce processus dans les activités d’un projet, mais aussi de savoir ce qui doit être fait à l’interne et ce qui doit, par contre, être confié à des spécialistes.

Il n’existe pas de recette toute faite, ni d’application, pour améliorer ainsi l’organisation de l’information. L’élaboration d’un modèle de données représentant différentes entités et les relations qui les définissent est un travail de spécialiste. De plus, la spécificité des offres, objectifs stratégiques, publics cibles et environnements technologiques soulèvent des questions auxquelles une présentation de 3 heures ne permet pas de fournir de réponses solides.

Trois étapes essentielles pour rendre l’information plus repérable et découvrable

J’utilise des outils simples pour accompagner des équipes dans leurs démarches d’amélioration de sites web et de description de contenus avec des données structurées. Cependant, les projets n’avanceraient pas si ces équipes étaient livrées à elles-même, sans ressources pour répondre aux nombreuses questions que la démarche permet de soulever.

Comment améliorer la découvrabilité de contenus culturels sur un site web? Les principes d’organisation et de rédaction des sujets des pages d’un site contribuent à la visibilité des contenus dans les résultats des moteurs  recherche. Voici trois étapes essentielles d’une méthode conception web pour une information plus repérable et découvrable:

1. Organiser le site web autour des entités

L’organisation du site et la structure de l’information concernent les pages web lisibles par des humains et indexables par des machines (voir Structurer l’information autour d’entités repérables) et le code informatique de ces pages qui est interprétable par des machines (lire Schema.org n’est pas le moteur de recherche).

Vous pouvez évaluer en quelques points si la structure et le contenu des pages de votre site fournissent aux éléments d’information (entités nommées, métadonnées, mots clés) les meilleures conditions d’exploitation, pour des visiteurs et pour des moteurs de recherche.

  • Arborescence (accès aux offres et contenus).
  • Nomenclature (alignement de la taxonomie sur les publics cibles).
  • URL unique et lisible pour chaque offre et contenu.
  • Images (nomenclature de fichier, texte alternatif, résolutions).
  • Description (caractéristiques, attributs distinctifs, expérience).
  • Information à valeur ajoutée (liens vers d’autres sources d’information complémentaire).

2. Faire « du lien »

Comment évaluer le potentiel de rayonnement de vos contenus dans le numérique?

  • En cartographiant l’écosystème composé de points et de liens qui jouent un rôle central dans leur visibilité et découverte.
  • En identifiant les points (site web, réseaux sociaux, sites de partenaires) permettant d’établir des connexions pertinentes vers vos offres.

Vous reporterez ensuite, dans une grille, les points ainsi identifiés, puis dresser l’inventaire détaillé de l’information diffusée, de la fréquence des publications, des rôles et responsabilités de chacun. Vous serez alors en mesure de:

  • Déterminer les points permettant de rejoindre différents publics (en d’autres termes, associer les bons canaux et contenus aux bons publics).
  • Identifier les liens à créer ou à solidifier ainsi que les partenariats à développer.

3. Décrire les entités

Cette grille permettra d’identifier les métadonnées qui rendent vos offres et contenus uniques et plus faciles à trouver. Vous pouvez à la fois:

  • Trouver les mots pour différencier votre offre auprès de vos publics cibles.
  • Fournir des métadonnées permettant aux moteurs de recherche de fournir des réponses personnalisées.

Ces activités devraient être réalisées en groupe, au sein d’une organisation ou, lorsqu’il s’agit d’une initiative collective, avec les représentants de différentes organisations.

Découvrabilité = Repérabilité + Accessibilité + Interopérabilité

Standards W3C: repérabilité, accessibilité, interopérabilité

Traditionnellement, des réponses sont retrouvées à partir d’une collection de documents ou d’un graphe de connaissances.
(«Traditionally, answers have been retrieved from a collection of documents or a knowledge graph», Google AI Blog)

Traditionnellement ?

Cet adverbe est ici associé à «graphe de connaissances»: une technologie et des pratiques documentaires que nous ne maîtrisons pas.

Cette association, signale l’ampleur de l’écart entre notre conception des systèmes d’information, qui a peu évolué depuis l’invention des bases de données (pré Web), et le développement de graphes de données interconnectables (entité-relation) permettant, depuis plusieurs années déjà, de raisonner sur des connaissances.

Découvrabilité

Je préfère ne plus employer le terme « découvrabilité » car il porte l’illusion de pouvoir pousser des contenus sur les écrans des utilisateurs, comme à l’époque d’avant Internet. Cet espoir, qui façonne la plupart de nos projets connectés, est probablement la source de leur plus grande faiblesse.

Afin de faire évoluer nos usages du Web, il faut que nos initiatives numériques aient d’autres objectifs, plus concrets et vérifiables, que la découvrabilité. Ce mot trahit notre incapacité à faire évoluer notre compréhension du Web face à des entreprises qui se sont constituées en misant sur ses possibilités ultimes.

S’agit-il d’une caractéristique de l’information ou d’une activité de promotion? « Découvrabilité » est un néologisme dont nous n’arrivons pas à rapporter le sens à un savoir commun. Et pour cause: chaque spécialiste ou consultant l’adapte à ses compétences et à sa capacité d’intervention. L’absence de définition commune et précise ne facilite donc pas la convergence des initiatives numériques.

Je crois que nous aurions intérêt à remplacer ce concept flou par trois objectifs concrets pour lesquels il existe des connaissances formalisées et des outils pratiques: repérabilité, accessibilité et interopérabilité.

Repérabilité

Information documentée de façon à pouvoir être identifiée et localisée le plus aisément possible (architecture du site web, taxonomie, métadonnées). Synonyme: trouvabilité.

Accessibilité

L’information se trouve dans le Web et est accessible tant aux humains (contenu ouvert) qu’aux machines et algorithmes (indexation par les moteurs de recherche). L’accessibilité du web, qui vise initialement à permettre aux personnes handicapées d’accéder aux contenus et services web, est l’une des composantes de l’accessibilité numérique.

Interopérabilité

L’information est exprimée selon les standards universels, libres et ouverts d’accessibilité et de lisibilité pour les humains et les machines (protocole de communication HTTP, adressage URL, langage HTML). Voir ses enjeux, principes et typologies présentés dans Wikipedia.

***

Le Web est la seule plateforme permettant de publier de l’information de façon repérable, accessible et interopérable par qui ou quoi que ce soit. C’est pour cette raison que l’amélioration de la découverte d’offres et de contenus, dans un monde numérique, dépend de la structure de l’information publiée sur les sites web.

Dans le prochain billet, nous verrons pourquoi il faut revoir la façon dont nous concevons nos sites web et ce que tous devraient savoir pour adopter de nouvelles bonnes pratiques.

Et si nous retombions en amour avec nos sites web?

William Moore de la réserve de Mattagami, Ontario, réparant un filet.
John Macfie, 1958, Archives publiques de l’Ontario sur Flickr.

Pourquoi l’évolution de nos sites web s’est-elle arrêtée au document numérique alors que chez des entreprises, comme Amazon ou Spotify, elle se concrétise par le déploiement de plateformes de données?

Les interactions que nous pouvions organiser sur nos domaines se sont atrophiées car nous avons laissé aux algorithmes le soin de faire des liens de proximité, de sens, de popularité ou autres. Ces liens qui favorisent la découverte et le rayonnement, nous ne les contrôlons pas.

Décloisonner les parcours de formation

Est-ce faute de ne pas avoir adapté, en les décloisonnant, des formations comme l’informatique, la communication et les sciences de l’information à la complexité de nouvelles pratiques? Dans le Web, les logiques technologiques, informationnelles et industrielles s’entrecroisent à présent pour former un nouveau champ de connaissances pour lequel il n’existe pas encore de savoir commun.

Entrer dans le domaine du langage

Ou, encore, est-ce faute de n’avoir pas réalisé que la donnée relève  beaucoup plus du langage et de la pensée que du calcul et de la technologie?

Les concepts et particularités propres aux différents domaines de l’activité humaine ne sont pas aisément traduisibles dans la pensée mathématique des machines. L’information n’est plus uniquement un enjeu d’ingénierie, une chose à stocker, à transformer et à faire circuler. Dans le Web, elle relève du domaine du langage, décrivant des choses et des relations entre ces choses. Cette perspective, pourtant essentielle à l’ère de l’intelligence artificielle, est pratiquement absente des méthodes courantes de conception.

S’affranchir du document

Ou, tout simplement, est-ce parce que des solutions d’utilisation facile et très souvent gratuites nous ont été offertes? Avons-nous finalement laissé à d’autres les défis de l’évolution du Web et de nos architectures de connaissances? Cette évolution était pourtant prévisible dès 2009, la nouvelle méthode de conception de sites proposée cette anné-là par la BBC dans un billet de blogue en faisant foi.

Ne plus troquer l’acquisition d’expertise pour la facilité

Je crois bien que nous avons graduellement délégué à des entreprises, par algorithmes interposés, le choix des mots et des liens définissant qui nous sommes et la régulation des flux d’information dans un espace qui n’est pourtant qu’un sous-ensemble du Web. Nous avons renoncé au contrôle sur la découverte et la recommandation dont nous disposions grâce à nos blogues, nos répertoires et même, nos collections de fils RSS — j’utilise encore la mienne!

Alors que nous concevons encore un site web comme un ensemble de documents, les acteurs de la nouvelle économie prospèrent grâce à des sites web conçus comme des plateformes de données. Ces plateformes permettent d’aller beaucoup plus loin que la publication d’information. Par exemple:

  • Trouver, réutiliser et partager des contenus par les utilisateurs et à l’interne;
  • Définir les rôles, responsabilités et règles de gouvernance relatifs à chaque ensemble de données.
  • Faciliter l’accès, de façon transversale, aux connaissances nécessaires pour la recherche de solutions et l’innovation.
  • Et, surtout, relier les métadonnées descriptives des ressources aux données d’usage résultant de l’interaction des utilisateurs avec les contenus.

Réapprendre à faire du Web

Avant de tenter de mesurer le rayonnement de contenus culturels sur les plateformes, il faudrait se demander si nous en maîtrisons les conditions, sur nos sites web et au sein de nos écosystèmes numériques.

Nous avons choisi la gratuité et la facilité des plateformes qui sont la propriété d’entreprises sachant, mieux que nous, exploiter l’information tirée des interactions avec nos contenus. Le contexte actuel de la pandémie semble avoir accentué notre dépendance envers ces services qui entretiennent notre espoir de retrouver nos publics et nos clients.

Nos sites web nous offrent pourtant toujours la possibilité de développer et d’afficher nos écosystèmes de liens et de nommer les choses qui nous rassemblent. Afin de ne pas les laisser s’atrophier, nous devrions nous en servir pour mieux représenter nos domaines d’activité, nos contenus, ainsi que nos réseaux.

Solutionnisme et inégalités: gare aux écueils de la transformation numérique

jeu de mikado
Jeu de mikado, Heurtelions [CC BY-SA], Wikimedia Commons
Le recours au « tout numérique », dans les circonstances de la crise actuelle entraînée par la pandémie, révèle de nombreuses inégalités. Qu’il s’agisse de l’enseignement à distance, de la dématérialisation des services publics ou, même, du traçage des personnes, les propositions de « solutions » tiennent généralement pour acquis que l’informatique connectée est à la portée de tout le monde. Nous devons éviter les écueils de la transformation numériques que sont le solutionnisme et la création d’inégalités numériques.

Imaginer nos propres solutions

J’ai élaboré, dans un précédent billet, sur le piège du solutionnisme technologique:  « Ce ne sont pas des plateformes numériques qui ont permis à Netflix et compagnie de bouleverser l’industrie. C’est d’avoir compris le potentiel du Web et pensé autrement l’accès, la distribution et la production de contenus audiovisuels, en osant remettre en question les modèles établis.»

Cette expression peut s’appliquer au sentiment d’urgence qui nous pousse vers le développement d’un outil avant même d’avoir défini le problème, exploré les causes possibles et analysé les systèmes sociaux et techniques.

Il ne faut pas tomber dans ce piège et nous contenter de reproduire des stratégies et des outils qui ont été conçus pour servir d’autres objectifs que les nôtres.

Internet pour réduire les inégalités

Voici quelques éléments qui favoriseraient la transformation numérique, en commençant par la condition de base:

  • Accès Internet sur tout le territoire.
  • Accès Internet à la maison (gratuit ou à coût modique).
  • Bande passante nécessaire pour l’accès de qualité à du contenu audiovisuel.
  • Ordinateur à la maison (échapper aux coûts de l’obsolescence programmée,  promouvoir les logiciels libres). Équipement en nombre suffisant pour les besoins d’une famille confinée.
  • Connaissances informatiques et habiletés numériques suffisantes (autonomie des utilisateurs, sécurité informatique, protection de la vie privée).
  • Équipement adapté et logiciels et contenus web accessibles aux personnes en situation de handicap temporaire ou permanent.
  • Service de médiation: outils d’accès –et de contribution– à la connaissance et à la culture, littératie de l’information (bibliothèques publiques, initiatives citoyennes).
  • Commerçants, fonctionnaires, profs et professionnels ayant des compétences numériques suffisantes ou les ressources nécessaires pour offrir un bon niveau de services en ligne.
  • Amélioration du niveau d’alphabétisation (compréhension des consignes d’utilisation des services en ligne et des instructions techniques).

Technologies plus simples, accessibles et durables

Dans une tribune, Jean-François Marchandise, cofondateur de la Fondation Internet nouvelle génération, partage ce constat sur le besoin de médiation numérique :

Aujourd’hui, une grande partie de l’innovation numérique repose sur un numérique de luxe. Nous allons vers des « toujours plus », adaptés à un monde en croissance éternelle et en ressources infinies…
A contrario, il va davantage falloir composer avec un numérique moins high tech, qui puisse fonctionner avec trois bouts de ficelle, de manière plus décentralisée, avec une moindre dépendance au lointain, une relocalisation des savoir-faire.

De plus, si tous les citoyens sont égaux, ne devrions-nous pas élaborer des propositions numériques en fonction du plus bas dénominateur numérique commun ?

Pilotage d’initiatives et intelligence collective

Cette pandémie devrait nous faire réaliser que nous devons changer nos méthodes de travail et prendre garde aux inégalités numériques et au solutionnisme technologique.

Si nous souhaitons tirer des apprentissages constructifs de la complexité de cette situation, nos équipes de projets doivent être interdisciplinaires et nos analyses doivent tenir compte de l’interdépendance des systèmes. Les outils de communication et de travail collaboratif peuvent faciliter la circulation des idées. Cependant, seule une réelle transformation du pilotage des initiatives numériques, vers une forme d’intelligence collective, pourrait les rendre plus efficaces et accroître leurs bénéfices.

Pour que le Québec puisse se relever le plus rapidement de cette crise, l’ensemble de la société doit participer à la création de valeur (savoir, culture, industrie). Et pour cela, il faudrait d’abord réparer la fracture numérique, faire de l’accès Internet un service public essentiel et apprendre à piloter des projets dans la complexité.

Et si le rayonnement des offres culturelles passait par de meilleurs sites web?

Illustration du concept de pertinence dans un écosystème numérique
Concept de « pertinence », dans un écosystème numérique. GinsuText [CC BY-SA 3.0], Wikimedia Commons
Favoriser la visibilité des contenus culturels québécois en ligne n’est pas une question de technologie. Les solutions technologiques, quelles qu’elles soient, ne peuvent améliorer la qualité de l’information. À ce titre, je ne parle pas des bases de données. Leur absence de traitement documentaire adéquat est connue. Je parle du contenu de sites web que même la présence de balises Schema n’arrive pas à rendre plus exploitable par des moteurs de recherche.

Structurer l’information autour d’entités repérables

Pourtant, plus de vingt ans après la naissance du web, la conception de sites est encore largement influencée par la production de documents imprimés.  Si la forme et le design se sont adaptés aux modes et aux supports, la structure et la conception de l’information n’ont pas bougé. Nos sites sont encore conçus pour être lus par des humains.

Voici quelques éléments qui sont essentiels pour faciliter le repérage d’entités (personnes, organisations, œuvres, lieux, événements) par des moteurs de recherche et autres applications.

Un site pour être dans le web

Un site web est au centre d’un écosystème numérique. C’est une adresse où se trouve de l’information accessible selon des standards universels et ouverts. C’est également un espace de publication qui n’est pas assujetti à d’autres objectifs que ceux de son propriétaire. Constitué de pages et de documents reliés entre eux et à d’autres sites web par des hyperliens, il peut se trouver sur le parcours d’utilisateurs et de moteurs de recherche. Un site web marque l’existence d’une entité dans cette application qui opère sur l’Internet et qui s’appelle le Web.

Ne compter que sur des réseaux sociaux pour avoir une présence numérique est une pratique qui réduit le potentiel de rayonnement et de découverte de nos contenus culturels.

Une URL pour chaque offre

Le développement des moteurs évolue rapidement vers le repérage et l’interprétation d’entités nommées (noms propres ou expressions définies comme un événement) dans des données non structurées. Pour faciliter le repérage d’un événement ou d’une œuvre, il faut lui attribuer une page spécifique. Publier plusieurs offres dans la même page ne permet pas à une machine de traiter adéquatement l’information qui y est présente. L’unicité et la persistance de l’URL signalent la présence d’une entité «événement» ou «œuvre» qui est liée à l’entité organisation.

Des mots qui connectent avec des publics

L’intégration des balises du vocabulaire Schema.org permet d’identifier des types d’offres et de générer des aperçus, ou résultats enrichis, dans certains cas d’usage (expressément non garanti par Google). Celles-ci ne permettent cependant pas aux moteurs de recherche de différencier une offre d’autres offres similaires. Ce sont alors des mots (description, titre, caractéristiques) qui peuvent générer des liens entre l’information recherchée par des utilisateurs et les données non structurées qui sont présentes dans la page web.

Le choix des mots employés est stratégique parce que ceux-ci peuvent être utilisés pour fournir une réponse plus précise à une question (et cela, tant dans le contenu d’une page que dans le balisage qui est intégré dans son code HTML). Il s’agit d’établir des connexions avec les vocabulaires et intérêts des publics cibles et de rendre le contenu indexé unique ou le distinguer d’autres contenus similaires.

Des images qui parlent et font du lien

Parmi les conditions qui facilitent le traitement de l’information par les moteurs de recherche, on ignore trop souvent celles qui concernent les images. Une page qui comprend une image sera préférée à une autre qui n’en a pas. Si des liens, dans le code HTML de la page, fournissent un accès à des fichiers contenant trois résolutions de cette image (1X1, 4X3, 16X9), le contenu sera assurément exploitable. dans des résultats de recherche et sur de petits écrans. Notez que l’optimisation des images est automatiquement prise en charge par certains systèmes de gestion de contenu et certains thèmes de  WordPress.

Nommer le fichier d’une image en utilisant des mots qui sont pertinents avec la description de son contenu en facilite l’exploitation et la gestion.

Des liens pour relier des entités nommées

Ne pas faire de liens, hors d’un site web, afin d’y retenir les internautes nuit au rayonnement. Le déploiement de liens entre les acteurs concernés par la création, production et diffusion d’un contenu culturel souligne la présence numérique de chacun. La simple présence de liens vers des sources d’information externes enrichit l’information tout en favorisant des découvertes. Par exemple, relier des entités nommées autour d’une production audiovisuelle (œuvres musicales, lieu historique, réalisatrice et d’acteurs) améliore leur potentiel d’être découvertes par des humains et des machines.

Des sites web pour construire un réseau d’hyperliens

Le rayonnement et la découverte de nos contenus culturels sur le web dépendent, avant tout, de l’organisation et de la structure de l’information sur nos sites web. Ne pas avoir son propre site, c’est ne pas faire partie du web ouvert, interopérable et de plus en plus interprétable par des machines. C’est également laisser à d’autres le soin de parler de vous. Mais, c’est surtout, renoncer aux moyens les plus simples et accessibles (vous rappellez-vous les blogolistes ou « blog roll » ?) que nous ayons pour relier les personnes, les organisations, les œuvres, les événements et les lieux, sur nos territoires et sur tout le Québec.

Mais si l’amélioration de la qualité de l’information numérique repose sur de meilleurs sites web, faudrait-il alors revoir les programmes de financement qui en excluent le développement ?

Les acteurs culturels doivent-ils devenir spécialistes de l’information numérique ?

Les fournisseurs de services web ne sont-ils pas en première ligne lorsqu’il s’agit de conseiller et de réaliser des projets pour les acteurs culturels ? La même question se pose concernant les exigences de découvrablité des programmes de financement. Où sont les compétences nécessaires pour offrir un accompagnent qui soit susceptible d’apporter des améliorations notables ?

Nécessaire mise à jour des connaissances et des programmes de formation

En l’absence de connaissances formalisées et de méthodes pédagogiques pour améliorer la littératie de l’information numérique (car c’est bien de cela dont il s’agit), le milieu culturel est laissé à lui-même. Il fait face à une variété d’interprétations, d’approches et de propositions stratégiques et technologiques dont il n’est pas en mesure d’évaluer l’exactitude, la pertinence ou le rendement potentiel.

Il serait donc urgent de réunir des représentants des domaines des sciences de l’information et des technologies numériques, des secteurs industriels et académiques,  afin de proposer une mise à jour des compétences et des formations.

Découvertes culturelles: au-delà du marketing et du techno-solutionnisme

Wikipedia as a marketing tool, livre sur Google Books
Les utilisateurs préfèreraient-ils une encyclopédie ou un répertoire commercial?

Notre focalisation sur le marketing et les solutions technologiques est-elle un risque pour la diversité culturelle ? L’absence de vision partagée et la course aux résultats  peuvent-elles faire perdre aux acteurs de la culture la maîtrise stratégique des choix en matière de diffusion et d’accès ?

Nous espérons des solutions mécanistes qui accroîtront la consommation en imposant des offres culturelles à la façon des vieux modèles publicitaires. La mise en données de contenus culturels ne doit pas nous faire oublier qu’il appartient à chacun de réaliser la partie la plus stratégique d’un projet numérique : décider de la façon dont une chose (une œuvre, par exemple) doit être documentée et déterminer ce qui la relie à d’autres informations dans le web des données.

L’emploi du mot « initiative », de préférence à « projet », souligne l’importance de la démarche et des apprentissages, par rapport à la livraison d’un outil ou la modernisation d’un système. Voici comment nos initiatives pourraient être plus marquantes.

Miser sur l’éducation et l’accès à la culture

Le marketing peut entraîner la consommation de produits et services culturels, mais ce sont l’éducation et l’accès à la culture qui peuvent faire découvrir et apprécier la culture.  Or, il faudrait une plus grande porosité entre les politiques et projets éducatifs et culturels pour miser sur l’environnement familial et social pour faire connaître la culture.

Il faudrait également donner un rôle plus actif, dans nos plans et initiatives numériques, aux médiateurs de proximité que sont les professionnels des bibliothèques publiques et scolaires.

Privilégier les initiatives qui favorisent la diversité

Nous cherchons, par tous les moyens,  à ce que la culture locale soit vue et consommée, de préférence à d’autres offres.  Nos propositions techniques partagent cependant les défauts des plateformes dominantes. Qu’il s’agisse de baliser des contenus pour les moteurs de recherche ou de créer de nouvelles bases de données interrogeables, la façon dont sont conçues ces  « solutions » technologiques nuit à la diversité des offres culturelles.

  • La centralisation des décisions et du traitement de l’information renforce l’uniformisation.
  • La popularité comme principal critère de sélection défavorise les contenus de niche, les cultures et langues en situation minoritaire dans un répertoire, sur un territoire ou par rapport au reste du monde.
  • L’uniformisation du traitement documentaire, par l’imposition d’une méthode de classification, de vocabulaires et de référentiels spécifiques, appauvrit la qualité de l’information. Par conséquent, elle en diminue l’intérêt et la valeur pour différents publics.  Les initiatives de  décolonisation des modèles descriptifs tentent de réparer les ravages du rouleau compresseur de l’uniformisation sur la citoyenneté culturelle des peuples autochtones.
  • Les systèmes de recommandations et de personnalisation des offres  culturelles reposent sur la similarité des produits et services ou sur la similarité des profils des utilisateurs.

Ne pas céder des choix stratégiques

À l’arrivée de l’informatique, nous avons confié l’organisation de l’information à des systèmes de bases de données, selon les termes d’entreprises. Il est temps de remettre, selon nos propres termes, cette intelligence dans nos sites web et, plus spécifiquement, dans nos catalogues, collections, répertoires,  fonds et archives. Nous ne devrions pas abandonner la création de sens et de liens à des opérateurs de plateformes et à des fournisseurs de services.

Être trouvé ou découvert et laisser des traces numériques sont les fruits d’un travail de documentation. Celui-ci est trop souvent escamoté par la recherche d’une solution technologique. De plus, les façons de décrire des productions ou des offres culturelles offrent peu de possibilité de mettre celles-ci en relation avec des intérêts et des passions.

Par exemple, les catalogues et répertoires en ligne pourraient grandement améliorer l’expérience des utilisateurs en devenant des bases de connaissances interactives et interconnectées. Il serait ainsi possible d’intégrer de nouvelles informations et des liens vers d’autres ressources grâce aux contributions de chercheurs et d’amateurs.

Documenter: laisser des traces, créer du lien et faire sa marque

Documenter la culture et rendre cette information pertinente, attrayante et utile pour divers publics et usages sont la responsabilité de tous les acteurs du milieu culturel. Il manque une méthode de travail et des outils faciles à utiliser pour réaliser, en équipe ou avec des partenaires, l’évaluation de l’information publiée sur le web et le choix des métadonnées qui feront des liens entre les offres culturelles et les publics cibles.

C’est dans cette perspective qu’a été conçu un guide destiné aux artistes et aux organisations du milieu de la danse. Cette approche, en trois étapes (stratégie, information, technologie) repousse les choix technologiques à la toute dernière étape afin de remettre la documentation de la danse à ceux et celles qui la font.

Extraits du lancement du guide Bien documenter pour favoriser la découverte en ligne, réalisé pour la Fondation Jean-Pierre Perreault, dans le cadre de l’initiative La danse dans le web des données.

Tendance zéro clic: leçons à tirer pour des initiatives plus marquantes

Wikidata - Cartographie des films et des lieux où se déroule l'action.
Wikidata, exemple de requête : cartographie des films et des lieux où se déroule l’action.

Mise à jour 2019-10-02: ajout d’un exemple récent d’initiative à fort potentiel transformateur.

La tendance zéro clic se confirme. Les moteurs de recherche fournissent dans leurs propres interfaces, des réponses, à partir de données collectées sur des sites web.  Ils sont ainsi les principaux bénéficiaires de l’information que nous structurons afin de rendre nos offres plus visibles.

Partenariat inéquitable

De plus, en développant des interfaces d’information spécialisées (voyage, musique,  musées, entre autres), ils se substituent aux agrégateurs et portails traditionnels. Cette désintermédiation est particulièrement dommageable pour les structures locales qui produisent de l’information. Celles-ci sont privées de données d’usage qui leur permettraient de mieux connaître leur marché et de s’ajuster à leurs publics.

Effacement de la diversité culturelle

Donc, lorsque nous décrivons nos offres à l’aide de données structurées, sur le modèle Schema.org, et de services comme Google Mon entreprise, nous travaillons pour des moteurs de recherche. De plus, nous nous conformons à un vocabulaire de description, une classification et une vision du monde uniques.  Ce constat est un problème pour la diversité culturelle, surtout pour les groupes ethniques et linguistiques en situation minoritaire.

Que faire ? Fournir un service minimum

Cependant, ne pas décrire  nos offres avec des balises sémantiques équivaut à refuser de faire indexer nos pages web par les robots des moteurs et, par conséquent, à rendre nos offres et nos contenus invisibles et incompréhensibles pour Google, Bing, Yahoo! et Yandex (moteur de recherche russe).

Alors, que faire pour ne pas demeurer des fournisseurs de contenus et de données (voir l’exemple des musées virtuels sur Google Arts & Culture) ?

Tout d’abord, il faudrait donner un « service minimum » aux moteurs de recherche en fournissant uniquement l’information qui est exigée pour certaines offres.  Google publie des instructions concernant les balises à renseigner, ainsi que les éléments de contenu à publier pour divers types d’offres.

Attention, Schema.org n’est qu’un vocabulaire. Ce n’est pas Google. Les moteurs de recherche exploitent les balises selon leurs propres règles. Celles-ci évoluent fréquemment, notamment, pour certains types de contenus.  Par exemple, Google annonce clairement ses préférences, dans le domaine du livre, en réservant son attention aux distributeurs qui utilisent les balises selon ses instructions.

Que faire  d’autre ? Aller vers le web des données

Nous mettons les moteurs de recherche et plateformes commerciales au centre de nos projets. Cependant, nous n’en maîtrisons pas le fonctionnement et nous n’avons aucun moyen de contrôle sur leur développement. Nous y investissons beaucoup d’efforts afin de positionner nos offres dans l’espoir d’accroître la consommation.

Et si nous élargissions notre définition de la découverte plutôt que de la centrer sur des activités de promotion? Ne pas nous limiter à la finalité économique de l’utilisation des données nous permettrait d’en embrasser le plein potentiel pour le développement de la culture et de l’éducation. Si nous choisissions de développer des initiatives en dehors des systèmes contrôlés par les acteurs dominants de l’économie numérique, nous pourrions être plus ingénieux et, finalement, créer plus de valeur pour nos propres écosystèmes.

Apprendre à jouer collectif

Il y a 25 ans, ce 1er octobre,  Tim Berners-Lee fondait le World Wide Web Consortium pour permettre à une communauté mondiale de développeurs et spécialistes divers de collaborer afin de définir des standards pour maintenir un web ouvert, accessible et interopérable pour tous.

Accroître le potentiel de la découverte passe par la décentralisation de la gestion de l’information, le partage de connaissance sous forme de données ouvertes et liées, selon les standards du web et par une redistribution plus équitable du pouvoir décisionnel. Wikipédia, Wikicommons et Wikidata, qui sont des projets de la Wikimedia Foundation, exemplifient ce modèle contributif qui donne à chacun la possibilité de participer au contenu et à la gouvernance.

Inventer d’autres formes de découverte

Tous les acteurs du domaine culturel n’ont pas les compétences et les ressources requises pour évaluer, modéliser et connecter des données avec les technologies du web sémantique. Wikidata constitue une option plus accessible: le référentiel, le mode de gouvernance et l’infrastructure n’ont pas à être développés. Ceci a pour principal avantage d’expérimenter rapidement la production et l’utilisation de données liées.

Les requêtes préconstruites qui permettent d’interroger les données de Wikidata offrent un aperçu du potentiel d’un projet contributif pour la valorisation de l’information. Par exemple, la requête 6.16 qui permet de cartographier tous les films en fonction du lieu où se déroule l’action. Lancez la requête en cliquant sur le pictogramme (flèche blanche sur fond bleu) à la gauche de l’écran. Les données des films localisés au Québec ne sont pas exhaustives et sont souvent imprécises (information incomplète, lieu fictif).

Si d’autres sources d’information étaient disponibles sous forme de données liées, on pourrait imaginer une interface où se croiseraient des images des lieux, des biographies d’acteurs et actrices ou des titres de chansons.

*** Mise à jour 2019-10-02

Voici un autre exemple d’initiative qui prend sa source hors des règles imposées par les moteurs de recherche et plateformes. Il s’agit de projets réalisés avec Wikipédia par le Musée national des beaux-arts du Québec.  Cette initiative est à la fois, une contribution du musée à la connaissance mondiale, tout en permettant à l’institution d’explorer le potentiel du liage de données, de rejoindre des publics qui ne fréquentent pas de musées et de donner prise à une culture du réseau dans l’organisation. Nathalie Thibault, archiviste au MNBAQ, en mentionne les effets marquants:

Un des impacts positifs de ce chantier a été de bonifier la présence d’œuvres dans des collections d’autres musées au Québec et au Canada dans les articles bonifiés et non pas juste le MNBAQ. Nous souhaitons collaborer avec les autres musées du Québec, car les articles améliorés sur les artistes du Québec serviront certainement à d’autres institutions muséales.

***

En conclusion, il est souhaitable que nous ayons une alternative aux grandes plateformes pour développer nos compétences et mettre en valeur nos collections, catalogues, fonds et portfolios. Il faut cependant favoriser les initiatives qui ciblent des résultats marquants et transmissibles tels que la décentralisation des prises de décision, l’abolition des silos organisationnels et la mise en commun de données.

Conseil en information numérique