Archives par mot-clé : une

Faire parler les images: repérabilité et interopérabilité des métadonnées

Indexation participative d'une photographie.
Indexation participative d’une photographie. Photogestion [CC BY-SA 4.0], Wikimedia Commons
Je mentionnais dans un précédent billet sur le rayonnement des offres  culturelles  que « des images qui parlent et font du lien » facilitent le travail des moteurs de recherche.

Les images sont des éléments d’information et des données. Elles améliorent le repérage d’entités (personnes, organisations, œuvres, lieux, événements) dans des pages web. Elles contribuent au développement de nouveaux parcours de découverte. À titre d’exemple, nous pouvons mentionner le moteur de recherche Google Images (créé en juillet 2001) et Wikimedia Commons où sont déposées un nombre grandissant d’images, dont celles de galeries d’art, pour en favoriser la réutilisation.

Voici deux annonces récentes qui devraient sensibiliser les éditeurs de sites web et professionnels du numérique à l’importance de documenter les images et/ou d’adopter de meilleurs pratiques.

IIIF (International Image Interoperability Framework)

D’abord, le mois dernier, IIIF annonçait que l’annotation des images s’étend désormais aux images des contenus audio et images en mouvement (vidéo, film). De plus, lIIF rend son modèle compatible avec l’écosystème des données liées en passant du modèle Open Annotation aux standards du Web (W3C Web Annotations) et en facilitant l’usage du langage JSON-LD pour exprimer les données. IIIF est un format de transmission de données: il ne permet pas de gérer des collections.

A critical element of this release is the ability to move beyond static digital images to present and annotate audio and moving images. This is done by adding duration to the existing IIIF canvas model, which also features x and y coordinates as means of selecting and annotating regions. Now, images and video can be juxtaposed using open source software viewers — allowing the public to view time-based media in open source media players, and allowing researchers to use open assets to create new tools and works including critical editions, annotated oral histories, musical works with thematic markup, and more.

IIIF Announces Final Release of 3.0 Specifications

Google Images

Cette semaine, Google dévoilait une nouvelle fonctionnalité qui permet de spécifier les informations relatives à la licence d’utilisation d’une image: licence payante, Creative Commons. Cette fonctionnalité permet d’utiliser le langage de balisage Schema.org (appelé « données structurées » par la plateforme) ou les métadonnées IPTC qui sont incrustées dans les fichiers des photos numériques.

L’un des moyens permettant d’indiquer à Google qu’une image peut être concédée sous licence consiste à ajouter des champs de données structurées. Ces données structurées représentent un format normalisé permettant de fournir des informations sur une page et de classer son contenu.

Licence d’image dans Google Images (BÊTA)

 

Comment rendre votre information repérable, accessible et interopérable

Ce billet s’inscrit dans la ligne du précédent, qui appelait à remplacer le terme fourre-tout de découvrabilité par les objectifs, beaucoup plus concrets, de repérabilité, accessibilité et interopérabilité.

Diagramme illustrant la recherche augmentée dans un brevet déposé par Google en 2013
Diagramme illustrant la recherche augmentée, brevet déposé par Google en 2013.
Source de la référence: ce billet de Bill Slawski.

Nos sites web sont des ensembles d’informations structurées pouvant être repérées, consultées, utilisées et interconnectées sur la grande plateforme ouverte qu’est le Web. C’est pour cette raison que les nôtres sont au cœur de la découverte de contenus et d’offres diverses. Nous devrions consacrer prioritairement nos efforts à les moderniser. Parce qu’aujourd’hui, tout part de là.

Objectif: aider les moteurs à repérer et lier des entités

Les moteurs de recherche indexent le contenu des pages web. Grâce au développement de bases de connaissances structurées (Knowledge Graph), ceux-ci peuvent repérer dans chaque page des choses ayant une signification spécifique, comme des personnes, des lieux, des événements ou des œuvres. Ces choses sont appelées « entités nommées ». Les entités nommées qui sont repérées sont catégorisées et associées selon le modèle d’organisation propre à chacune des bases de connaissances des moteurs de recherche.

Nos sites web, lorsqu’ils sont bien conçus, alimentent ces bases de connaissances. C’est pour cette raison qu’il faut prioriser l’amélioration de la repérabilité des contenus sur nos sites avant de verser des données dans Wikidata. Cette base de connaissances, tout comme d’autres, sert à réduire l’ambiguïté entre des entités (homonymes) et à valider les liens entre elles. Elle ne remplace cependant pas les sources d’information interconnectées, classifiées et référencées que sont les sites web.

Stratégie: quoi, pour qui, avec quels objectifs?

L’amélioration des conditions de repérabilité de l’information ne produit pas de résultat immédiat, contrairement aux tactiques de référencement organique de pages. Elle s’inscrit dans la durée et doit s’appuyer sur des notions précises plutôt que sur des mythes.

La réflexion stratégique permet de déterminer les objectifs à atteindre, les questions auxquelles les données doivent répondre, les publics cibles et les caractéristiques des offres à mettre de l’avant. Les objectifs vérifiables et mesurables de la « découvrabilité » sont les indicateurs de succès qui ont été déterminés en amont dans la stratégie numérique.

Responsabilités: qui fait quoi?

Comme je l’ai déjà mentionné dans un autre billet, nous ne devons plus concevoir des sites web comme des documents, mais comme des plateformes de données. Il faut nous affranchir d’un modèle de conception hérité du document imprimé afin de concevoir le site en commençant par les modèles de données plutôt que par les modèles de pages. Viennent ensuite la définition des structures représentant le ou les domaine de connaissance, puis la représentation des types d’entités sous forme de nœuds et de liens pour former, finalement, des graphes. Tout ceci nous oblige à revoir la méthodologie de conception de sites et à faire appel à des compétences qui sont rarement sollicitées pour des projets web.

Il ne s’agit pas uniquement de savoir comment intégrer ce processus dans les activités d’un projet, mais aussi de savoir ce qui doit être fait à l’interne et ce qui doit, par contre, être confié à des spécialistes.

Il n’existe pas de recette toute faite, ni d’application, pour améliorer ainsi l’organisation de l’information. L’élaboration d’un modèle de données représentant différentes entités et les relations qui les définissent est un travail de spécialiste. De plus, la spécificité des offres, objectifs stratégiques, publics cibles et environnements technologiques soulèvent des questions auxquelles une présentation de 3 heures ne permet pas de fournir de réponses solides.

Trois étapes essentielles pour structurer l’information

J’utilise des outils simples pour accompagner des équipes dans leurs démarches d’amélioration de sites web et de description de contenus avec des données structurées. Cependant, les projets n’avanceraient pas si ces équipes étaient livrées à elles-même, sans ressources pour répondre aux nombreuses questions que la démarche permet de soulever.

1. Organiser le site web autour des entités

L’organisation du site et la structure de l’information concernent les pages web lisibles par des humains et indexables par des machines (voir Structurer l’information autour d’entités repérables) et le code informatique de ces pages qui est interprétable par des machines (lire Schema.org n’est pas le moteur de recherche).

Vous pouvez évaluer en quelques points si la structure et le contenu des pages de votre site fournissent aux éléments d’information (entités nommées, métadonnées, mots clés) les meilleures conditions d’exploitation, pour des visiteurs et pour des moteurs de recherche.

  • Arborescence (accès aux offres et contenus).
  • Nomenclature (alignement de la taxonomie sur les publics cibles).
  • URL unique et lisible pour chaque offre et contenu.
  • Images (nomenclature de fichier, texte alternatif, résolutions).
  • Description (caractéristiques, attributs distinctifs, expérience).
  • Information à valeur ajoutée (liens vers d’autres sources d’information complémentaire).

2. Faire « du lien »

Comment évaluer le potentiel de rayonnement de vos contenus dans le numérique?

  • En cartographiant l’écosystème composé de points et de liens qui jouent un rôle central dans leur visibilité et découverte.
  • En identifiant les points (site web, réseaux sociaux, sites de partenaires) permettant d’établir des connexions pertinentes vers vos offres.

Vous reporterez ensuite, dans une grille, les points ainsi identifiés, puis dresser l’inventaire détaillé de l’information diffusée, de la fréquence des publications, des rôles et responsabilités de chacun. Vous serez alors en mesure de:

  • Déterminer les points permettant de rejoindre différents publics (en d’autres termes, associer les bons canaux et contenus aux bons publics).
  • Identifier les liens à créer ou à solidifier ainsi que les partenariats à développer.

3. Décrire les entités

Cette grille permettra d’identifier les métadonnées qui rendent vos offres et contenus uniques et plus faciles à trouver. Vous pouvez à la fois:

  • Trouver les mots pour différencier votre offre auprès de vos publics cibles.
  • Fournir des métadonnées permettant aux moteurs de recherche de fournir des réponses personnalisées.

Ces activités devraient être réalisées en groupe, au sein d’une organisation ou, lorsqu’il s’agit d’une initiative collective, avec les représentants de différentes organisations.

Découvrabilité = Repérabilité + Accessibilité + Interopérabilité

Standards W3C: repérabilité, accessibilité, interopérabilité

Traditionnellement, des réponses sont retrouvées à partir d’une collection de documents ou d’un graphe de connaissances.
(«Traditionally, answers have been retrieved from a collection of documents or a knowledge graph», Google AI Blog)

Traditionnellement

Ce mot est ici associé à «graphe de connaissances»: une technologie et des pratiques documentaires que nous ne maîtrisons pas. Cette association, signale l’ampleur de l’écart entre notre conception des systèmes d’information, qui a peu évolué depuis l’invention des bases de données (pré Web), et le développement de graphes de données interconnectables (entité-relation) permettant, depuis plusieurs années déjà de raisonner sur des connaissances.

Découvrabilité

Je préfère ne plus employer le terme « découvrabilité » car il porte l’illusion de pouvoir pousser des contenus sur les écrans des utilisateurs, comme à l’époque d’avant Internet. Cet espoir, qui façonne la plupart de nos projets connectés, est probablement la source de leur plus grande faiblesse.

Afin de faire évoluer nos usages du Web, il faut que nos initiatives numériques aient d’autres objectifs, plus concrets et vérifiables, que la découvrabilité. Ce mot trahit notre incapacité à faire évoluer notre compréhension du Web face à des entreprises qui se sont constituées en misant sur ses possibilités ultimes.

S’agit-il d’une caractéristique de l’information ou d’une activité de promotion? « Découvrabilité » est un néologisme dont nous n’arrivons pas à rapporter le sens à un savoir commun. Et pour cause: chaque spécialiste ou consultant l’adapte à ses compétences et à sa capacité d’intervention. L’absence de définition commune et précise ne facilite donc pas la convergence des initiatives numériques.

Je crois que nous aurions intérêt à remplacer ce concept flou par trois objectifs concrets pour lesquels il existe des connaissances formalisées et des outils pratiques: repérabilité, accessibilité et interopérabilité.

Repérabilité

Information documentée de façon à pouvoir être identifiée et localisée le plus aisément possible (architecture du site web, taxonomie, métadonnées). Synonyme: trouvabilité.

Accessibilité

L’information se trouve dans le Web et est accessible tant aux humains (contenu ouvert) qu’aux machines et algorithmes (indexation par les moteurs de recherche). L’accessibilité du web, qui vise initialement à permettre aux personnes handicapées d’accéder aux contenus et services web, est l’une des composantes de l’accessibilité numérique.

Interopérabilité

L’information est exprimée selon les standards universels, libres et ouverts d’accessibilité et de lisibilité pour les humains et les machines (protocole de communication HTTP, adressage URL, langage HTML). Voir ses enjeux, principes et typologies présentés dans Wikipedia.

***

Le Web est la seule plateforme permettant de publier de l’information de façon repérable, accessible et interopérable par qui ou quoi que ce soit. C’est pour cette raison que l’amélioration de la découverte d’offres et de contenus, dans un monde numérique, dépend de la structure de l’information publiée sur les sites web.

Dans le prochain billet, nous verrons pourquoi il faut revoir la façon dont nous concevons nos sites web et ce que tous devraient savoir pour adopter de nouvelles bonnes pratiques.