Archives de catégorie : Sciences de l’info

Wikipédia, Wikidata, Google et la découvrabilité: gare au solutionnisme

Le Guide des bonnes pratiques: découvrabilité et données en culture, récemment publié par le Ministère de la Culture et des Communications du Québec, est un bel effort de synthèse. Il faut cependant plus qu’un exercice de rédaction pour transmettre à des non-initiés des connaissances sur des systèmes dont le fonctionnement et les interdépendances sont complexes, changeants et trop souvent, incompris.

Wikipédia et Wikidata: des vases communicants?

Dans ce document, plusieurs affirmations concernant Wikipédia et Wikidata, ainsi que leur utilisation par les moteurs de recherche risquent cependant d’être incorrectement interprétées.

lI est aussi dans l’intérêt d’une ou d’un artiste, peu importe son domaine, de fournir les informations à Wikidata à propos, par exemple, de ses œuvres et de son parcours sous forme de données pour alimenter Wikipédia.

Cette injonction (page 15) est un raccourci qui donne à croire qu’il suffit de saisir ou verser des données dans Wikidata pour alimenter Wikipédia. Or, il serait plus exact de dire que pour chaque article créé dans Wikipédia, un élément Wikidata existe, mais l’inverse n’est pas possible (des éléments Wikidata n’ont pas d’articles correspondants dans Wikipédia). Par exemple, pour l’article sur le chorégraphe Jean-Pierre Perreault, on a l’élément Q3169633. Pour documenter davantage l’élément, dans Wikidata, des libellés ont été ajoutés (par exemple: nom, prénom, occupation, identifiant ISNI).

Le contenu, la donnée et les moteurs de recherche

Il est important de saisir la différence et les rôles spécifiques que peuvent jouer le contenu (article) et la donnée (élément) dans des projets visant à améliorer la repérabilité et la découverte.

Les moteurs de recherche pourront par la suite les mettre en valeur lors de recherches d’internautes, notamment dans les cartes enrichies qui apparaissent souvent lorsqu’une recherche est réalisée sur Google.

Ici (page 15), encore, cette affirmation pourrait laisser croire que les moteurs de recherche puisent de l’information à même ces bases de connaissances. Ce raccourci ne tient pas compte du rôle central des sites web pour des moteurs de recherche dont le fonctionnement repose sur l’indexation de documents (pages web) et l’analyse du contenu (texte).

Par exemple, la recherche « Jean-Pierre Perreault » sur Google produit une fiche d’information qui résulte de la reconnaissance d’entités nommées dans des pages web. L’ambiguïté résultant d’une homonymie entre le chorégraphe et un professeur n’a pas été résolue pour la recherche d’images.

Résultat d'une recherche sur "jean-pierre perreault", avec Google.
Résultat d’une recherche sur « Jean-Pierre Perreault », avec Google.

Par contre, la recherche « qui est Jean-Pierre Perreault » fait appel à l’analyse du texte contenu dans les pages web qui ont été indexées par le moteur de recherche. Le résultat est enrichi, c’est-à-dire qu’il s’agit d’une réponse fournie directement à partir d’un texte extrait d’un site web dont la structure et le contenu réunissent les conditions d’autorité, expertise et fiabilité.

Résultat de la recherche "qui est Jean-Pierre Perreault", sur Google.
Résultat de la recherche « qui est Jean-Pierre Perreault », sur Google.

Base de connaissances pour la reconnaissance d’entités

Voici un autre raccourci (page 16) qui peut laisser croire que verser des données dans Wikidata est une solution au manque de visibilité des contenus culturels québécois sur le Web. Ceci peut avoir pour conséquence l’appauvrissement graduel de la valeur informationnelle des sites web, alors qu’il faudrait plutôt guider et soutenir l’adoption de meilleures pratiques pour leur conception.

Comme il a été mentionné précédemment, en saisissant vos données dans Wikidata, vous vous assurez que les moteurs de recherche peuvent les trouver//

Pour un moteur comme Google, une base de connaissances externe comme Wikidata a pour fonction de faciliter la reconnaissance d’entités nommées (personnes, lieux, œuvres, événements, etc.) et d’aider le moteur de recherche à réduire toute ambiguïté. Le rôle d’une telle base de connaissances est illustré dans le schéma ci-dessous (numéro 200). Il s’agit d’une illustration fournie dans une demande de brevet déposée par Google en 2012. Ce document, ainsi que d’autres brevets, sont très bien commentés par l’expert Bill Slawski. La compagnie développait alors sa propre base d’entités nommées (numéro 150) qui, selon les observateurs, était probablement issue de Freebase dont l’acquisition a été complétée par Google en 2014.

Utilisation de bases de connaisances par Google pour réduire l'ambiguïté entre entités nommées.
Utilisation de bases de connaissances par Google pour réduire l’ambiguïté entre entités nommées. Illustration tirée d’une demande de brevet déposée par Google, en 2012. Explications et commentaires dans ce billet de l’expert Bill Slawski.

Projets wiki: contribuer pour de bonnes raisons

Ces précisions n’ont pas pour objet de réduire l’enthousiasme des acteurs culturels et des autres citoyens pour les projets de la Fondation Wikimedia.  Bien au contraire. Elles visent d’abord, à faire connaître un peu mieux ces systèmes auxquels sont souvent attribués des fonctionnements qui ne sont pas démontrés… mais porteurs de tant d’espérances. Leur objectif principal est d’encourager des usages et des initiatives moins orientés vers le marketing et la promotion, mais qui correspondent davantage à la mission et aux valeurs de Wikimedia et à un Web universel, libre de droit, ouvert et décentralisé.

Découvrabilité: comment aiguiller des initiatives numériques vers la bonne voie

Aiguillage pour projets de données numériques
Aiguillage pour projets de données numériques – (SunsetTracksCrop), Arne Hückelheim, [CC BY-SA 3.0], Wikimedia Commons
Il est temps d’apporter un peu de clarté dans le méli-mélo de concepts qui ne sont pas très bien maîtrisés. Voici une petite mise au point qui pourrait être bénéfique pour les promoteurs d’initiatives numériques, ainsi que les organisations qui les financent.

Quel est le but?

Il arrive qu’un projet n’ait pas de but précisément déterminé: on ne sait pas quel problème il résoudra ou quels seront les résultats tangibles. Par exemple, « authentifier une œuvre » est un moyen et non, une finalité.

Il importe de définir un but précis et tangible pour mobiliser des membres et des partenaires. Ceci est aussi essentiel pour déterminer l’espace numérique concerné par le projet et, ainsi, identifier les technologies et structures sémantiques appropriées.

Quel type d’espace numérique?

Il arrive également qu’un projet de données numériques rassemble des concepts et technologies qui appartiennent à des espaces numériques différents. Ces espaces sont:

  1. Web des moteurs de recherche

Le Web que nous connaissons est ce qu’on peut appeler le « Web des documents » parce que des pages sont reliées par des réseaux de liens hypertextes.  Dans cet espace, le texte contenu dans chaque  page est indexé et exploité par des moteurs de recherche.

Wikipédia, tout comme Wikidata, est une des bases de connaissances utilisées par Google pour valider une entité qui a été reconnue sur un site web. Rédiger un article sur Wikipédia est une excellente façon d’enrichir l’encyclopédie avec des éléments historiques et culturels québécois. On peut également s’inspirer de la structure d’un article pour améliorer le contenu d’une page web et ainsi, le rendre utile pour les moteurs de recherche.

Google exploite les balises Schema.org uniquement pour certains types de contenus afin de produire des résultats enrichis, sans toutefois en garantir l’utilisation. Les consignes d’intégration des balises démontrent l’intérêt du moteur de recherche pour le développement d’ententes commerciales (données) avec certains opérateurs et intermédiaires :

  • Musique: Google ne recommande pas de modèle; des ententes ont été conclues avec les plateformes musicales.
  • Livre: le moteur précise que son modèle cible uniquement les « distributeurs à gros volume ».
  • Événement: les balises ne sont pas nécessaires si un site tiers (ex: billetterie, Facebook, Eventbrite) est utilisé.

Attention: les balises sont sans effet si le contenu de la page ne répond pas aux exigences de qualité de Google. Il est donc plus efficace d’améliorer la valeur informative des sites web d’acteurs culturels dans un domaine ou territoire donné que d’insérer des balises.

2. Web des données

Le Web sémantique, appelé aussi « Web des données », est une extension du Web des documents. Des entités ou des ressources sont représentées par des triplets de données (entité – relation – entité). Pour les moteurs de recherche, il n’y a pas de pages à indexer, ni de contenu à exploiter dans cet espace. C’est là que la conception ou, préférablement, l’adaptation d’ontologies de domaine peut être pertinente.

Verser des données dans Wikidata permet d’enrichir une base de connaissances mondiales. Il est alors possible de lier des données de différentes sources sans avoir à investir dans le développement d’infrastructures et de modèles conceptuels pour profiter des avantages du web sémantique.

Mais ceci ne rend pas une offre culturelle plus visible. Les moteurs de recherche indexent le contenu de sites web et peuvent utiliser des ressources comme Wikidata pour valider la reconnaissance d’entités.

3. Plateforme web « privée »

Des plateformes web, qui offrent des contenus et les réseaux sociaux, forment des espaces numériques privés: elles ont leurs langages et règles de représentation et d’utilisation de l’information. Les moteurs de recherche ne peuvent en indexer le contenu, d’autant que plusieurs ne sont accessibles que sur abonnement.

4. Base de données classique

Un autre type d’espace numérique très important est constitué des bases de données. Elles peuvent être interrogées à partir de sites web et également, alimenter le contenu de catalogue en ligne. Mais n’étant pas conçues avec les technologies et standards du Web, celle-ci ne sont pas accessibles aux moteurs de recherche.

5. Et les données ouvertes?

Les données ouvertes ne rendent pas ce qu’elles décrivent plus visible ou repérable pour les moteurs de recherche. Libérer des données permet à ceux qui les utilisent, de créer de la valeur sous forme de services, produits ou nouvelles connaissances. Des données ouvertes sont également nécessaires pour des initiatives de données ouvertes et liées avec les technologies du web sémantique.

Les données ou le contenu?

Les données et le contenu jouent des rôles différent pour la découverte et la repérabilité des offres culturelles selon l’espace numérique visé.

L’amélioration de la repérabilité d’offres culturelles sur le web, pour les moteurs de recherche, repose principalement sur la lisibilité de la structure d’un site web et de son contenu. L’analyse du langage qui permet la reconnaissance d’entités et l’interprétation d’un texte ne se fait pas sur des données, mais du contenu.

Il est donc important de rappeler que les moteurs de recherche indexent du texte. Le contenu leur fournit le contexte et la diversité de termes et de liens nécessaires pour alimenter leurs modèles d’organisation des connaissances. Ceux-ci sont appelés  des graphes de connaissances. Google n’utilise pas d’autre modèle que le sien.

Identifiants:  dans quels espaces?

Les données sont exploitées par une grande variété de systèmes de gestion de bases de données et, également, sous forme de données liées (ouvertes ou non), dans le web sémantique. C’est dans ces types d’espaces numériques que des identifiants uniques sous forme de données sont les plus utiles. Bien que ces derniers puissent enrichir la biographie d’une artiste ou la fiche technique d’une œuvre, sur un site web, ils ne peuvent être interprétés par les moteurs de recherche.

Découvrabilité: ça commence sur un site web

Votre site web devrait être la source d’information numérique  la plus complète et la plus fiable à votre sujet. Pour différencier une offre culturelle, il faut miser sur une description plus riche que de simples informations factuelles. En utilisant des hyperliens pour fournir plus d’information, vous signalez des entités importantes qui aident les moteurs à contextualiser votre offre. En prime: un contenu bien structuré vous permettra de mieux interpréter les statistiques d’usage de votre site.

Les moteurs de recherche améliorent sans cesse leur capacité à interpréter le contenu afin de l’utiliser pour répondre à des questions.  Nous devons réinvestir le domaine du langage sur ces espaces numériques privilégiés que sont nos sites web.

Nouveaux milieux documentaires en manque de spécialistes des sciences de l’information

Carte de la science de l'information.
Diversité des disciplines et thèmes abordés par la science de l’information. Zythème, [CC BY-SA 3.0], Wikimedia Commons
En culture comme en commerce, les initiatives de mise en commun de données numériques, constituent de nouveaux « milieux documentaires ». Au Québec, pourtant, les compétences et méthodes du domaine des sciences de l’information sont rarement sollicitées. Les institutions d’enseignement et les associations professionnelles concernées devraient pourtant reconnaître, dans ces projets, les notions et enjeux entourant les systèmes documentaires classiques.

Voici quelques lectures récentes illustrant des défis que pourraient relever les spécialistes intéressés par ces nouveaux milieux documentaires.

Taxonomie pour des contenus en mutation

▣ Dominic Tardif. « Ces livres qui se dérobent aux étiquettes ». Le Devoir, 9 janvier 2021.

Cet article introduit certains défis actuels de l’élaboration d’un modèle de métadonnées qui permette de faire des liens entre les ressources de bases de données différentes.

Tout choix est subjectif; il n’y a donc pas de donnée neutre. Un modèle de classement ou de catégorisation peut être porteur d’exclusion, notamment de ce qui peut apparaître inclassable (personne non genrée, pratiques artistiques hybrides…) car il impose le choix d’un descriptif parmi un nombre limité d’options.

Que faire des œuvres qui n’ont pas été pensées et créées dans le cadre d’une pratique déjà bien étiquetée? Et surtout, comment documenter l’intention?

Ça devient un problème à partir du moment où des livres ne reçoivent pas la reconnaissance qu’ils devraient avoir parce qu’on les juge à partir de critères qui n’ont rien à voir avec leur projet littéraire.
Clara Dupuis-Morency, autrice et enseignante en littérature.

Comment, alors, respecter la création, anticiper les biais et éviter que la perspective d’une culture dominante n’occulte celles d’autres cultures?

Un catalogage qui se satisferait de distinguer les textes de fiction des textes entretenant un rapport plus immédiat au réel serait donc inefficace.
ibid.

Algorithmes de recommandation personnalisée

The NYT Open Team. « We Recommend Articles With a Little Help From Our Friends (Machine Learning and Reader Input) ». NYT Open, 14 janvier 2021.

Ce billet publié par l’équipe des produits numériques du New York Times met en lumière le travail d’indexation et de catalogage requis par le développement d’un algorithme de recommandation. Il souligne l’importance d’intégrer la pensée humaine aux processus automatisés de traitement documentaire.

Le nettoyage des données et l’amélioration de la qualité descriptive des métadonnées sont des opérations essentielles à l’exploitation d’une base de données. Elles le sont également dans le cas d’un programme d’apprentissage automatique ayant pour objectif l’entraînement ou le bon fonctionnement d’un algorithme de recommandation.

When we took a deeper look at a few of the incorrect labels, we could often understand why the model assigned the label, but saw that correcting the mistake requires human judgement. It takes knowledge of history and society, as well as the ability to recognize context to intuit that some articles are better suited for some interest categories than others.
The NYT Open Team

(…)

Readers trust The Times to curate content that is relevant to them, and we take this trust seriously. This algorithm, like many other AI-based decision-making systems, should not make the final call without human oversight.
ibid.

De taxonomie à ontologie: un défi de taille!

▣ Heather Hedden. « Hierarchies in Taxonomies, Thesauri, Ontologies, and Beyond ». The Accidental Taxonomist, 20 janvier 2021.

À lire avant de convertir une taxonomie (ou tout autre vocabulaire contrôlé) en ontologie. Il s’agit bien de référentiels ayant des rôles différents et la problématique réside principalement dans les caractéristiques spécifiques de ces différents modes d’organisation des connaissances. Par exemple: l’adaptation de la structure hiérarchique d’une taxonomie à la structure en graphe d’une ontologie de domaine.

The problem is that the definitions and rules for hierarchies vary depending on the kind of knowledge organization system, so you cannot assume that a hierarchy in one system converts to a hierarchy in another system.

(…)

“Hierarchy” can have various types and uses. Not all kinds of hierarchies are reflected in even in taxonomies, which tend to be quite flexible. The rules are stricter when it comes to thesauri. Finally, in ontologies, there is only one kind of hierarchy.
Heather Hedden, taxonomiste, ontologiste, autrice et formatrice.

Culture de l’information et méthodes de travail

▣ Mike Tung. « From Knowledge Graphs to Knowledge Workflows ». Diffbot, 19 janvier 2021.

Le concept de « graphe de connaissance » (knowledge graph), a été popularisé par Google, bien que des structures de données en graphes existaient auparavant dans différents domaines. Ce type de structure est souvent perçu comme une solution qui permette d’imposer un modèle descriptif assurant la visibilité et/ou l’interopérabilité de ressources informationnelles.

L’adoption d’un modèle descriptif unique entraîne cependant une uniformisation des perspectives qui conduit à l’aplatissement des connaissances. C’est également la source de problèmes rarement anticipés. Par exemple: l’adoption d’un vocabulaire commun dans toute l’organisation va-t-elle «pérenniser» vos données ou entraîner des réunions sans fin pour débattre de ses mises à jour des vocabulaires et des ontologies sont discutées?

If we instead listen to the problems information workers have, spend a day shadowing them in their jobs, and design solutions that integrate knowledge-tech in a lightweight way to automate tedium, then we have a shot at solving a larger set of problems, to benefit more of society.
Mike Tung, CEO Diffbot.

Au-delà du solutionnisme technologique, il faut explorer les bénéfices issus du développement d’une véritable culture de l’information au sein des organisations. Cela signifie que la gestion et la qualité de l’information sont des responsabilités devant être partagées dans une organisation et non plus limitées au service des technologies de l’information.

Découvrabilité hors du Web des moteurs de recherche

Greta Bahnemann, Michael Carroll, Paul Clough, Mario Einaudi, Chatham Ewing, Jeff Mixter, Jason Roy, Holly Tomren, Bruce Washburn, Elliot Williams. « Transforming Metadata into Linked Data to Improve Digital Collection Discoverability: A CONTENTdm Pilot Project. OCLC, 2021.

OCLC, un organisme sans but lucratif au service des bibliothèques, rend compte d’un projet pilote sur la transformation des métadonnées de collections en données liées. Il nous rappelle que la découvrabilité recherchée n’est pas celle qui se mesure à l’aulne des résultats de Google ou des cotes de popularité des plateformes de contenus.

Les bases de données en graphe – il faut le répéter – ne sont pas indexées par les moteurs de recherche. Il existe d’autres espaces numériques où l’accès à la culture pourrait fournir des expériences de recherche et découverte pertinentes et efficaces. Exemple: naviguer à travers des collections qui proposent des connexions que des bases de données classiques n’arrivent pas à révéler.

Representing what is locally unique yet making local information legible to outsiders and creating a mechanism where differences can be understood, bridged, and linked is an important part of what public libraries using newer descriptive systems can surface.

À l’image des initiatives de la BnF et d’Europeana, le projet d’OCLC a permis à des institutions de se familiariser avec des méthodes et outils du web sémantique :

The Linked Data project demonstrated the amount of work involved in the transition to linked data, but also that the tools exist and that the workflows can be developed.

Pour une vision systémique du numérique

Les initiatives et projets qui visent à structurer l’information pour le numérique constituent de nouveaux milieux documentaires, hors des lieux habituels que sont les bibliothèques, centres de documentation et fonds d’archives. Les professionnels des sciences de l’information sont formés pour relever les défis inhérents aux « espaces» numériques que sont les sites web, les plateformes commerciales, le Web des données et, même, les jeux de données ouvertes. Il serait temps que la rencontre entre tous ces acteurs se réalise. La réussite de nos initiatives en dépend.

Faire parler les images: repérabilité et interopérabilité des métadonnées

Indexation participative d'une photographie.
Indexation participative d’une photographie. Photogestion [CC BY-SA 4.0], Wikimedia Commons
Je mentionnais dans un précédent billet sur le rayonnement des offres  culturelles  que « des images qui parlent et font du lien » facilitent le travail des moteurs de recherche.

Les images sont des éléments d’information et des données. Elles améliorent le repérage d’entités (personnes, organisations, œuvres, lieux, événements) dans des pages web. Elles contribuent au développement de nouveaux parcours de découverte. À titre d’exemple, nous pouvons mentionner le moteur de recherche Google Images (créé en juillet 2001) et Wikimedia Commons où sont déposées un nombre grandissant d’images, dont celles de galeries d’art, pour en favoriser la réutilisation.

Voici deux annonces récentes qui devraient sensibiliser les éditeurs de sites web et professionnels du numérique à l’importance de documenter les images et/ou d’adopter de meilleurs pratiques.

IIIF (International Image Interoperability Framework)

D’abord, le mois dernier, IIIF annonçait que l’annotation des images s’étend désormais aux images des contenus audio et images en mouvement (vidéo, film). De plus, lIIF rend son modèle compatible avec l’écosystème des données liées en passant du modèle Open Annotation aux standards du Web (W3C Web Annotations) et en facilitant l’usage du langage JSON-LD pour exprimer les données. IIIF est un format de transmission de données: il ne permet pas de gérer des collections.

A critical element of this release is the ability to move beyond static digital images to present and annotate audio and moving images. This is done by adding duration to the existing IIIF canvas model, which also features x and y coordinates as means of selecting and annotating regions. Now, images and video can be juxtaposed using open source software viewers — allowing the public to view time-based media in open source media players, and allowing researchers to use open assets to create new tools and works including critical editions, annotated oral histories, musical works with thematic markup, and more.

IIIF Announces Final Release of 3.0 Specifications

Google Images

Cette semaine, Google dévoilait une nouvelle fonctionnalité qui permet de spécifier les informations relatives à la licence d’utilisation d’une image: licence payante, Creative Commons. Cette fonctionnalité permet d’utiliser le langage de balisage Schema.org (appelé « données structurées » par la plateforme) ou les métadonnées IPTC qui sont incrustées dans les fichiers des photos numériques.

L’un des moyens permettant d’indiquer à Google qu’une image peut être concédée sous licence consiste à ajouter des champs de données structurées. Ces données structurées représentent un format normalisé permettant de fournir des informations sur une page et de classer son contenu.

Licence d’image dans Google Images (BÊTA)

 

Comment rendre votre information repérable, accessible et interopérable

Ce billet s’inscrit dans la ligne du précédent, qui appelait à remplacer le terme fourre-tout de découvrabilité par les objectifs, beaucoup plus concrets, de repérabilité, accessibilité et interopérabilité.

Diagramme illustrant la recherche augmentée dans un brevet déposé par Google en 2013
Diagramme illustrant la recherche augmentée, brevet déposé par Google en 2013.
Source de la référence: ce billet de Bill Slawski.

Nos sites web sont des ensembles d’informations structurées pouvant être repérées, consultées, utilisées et interconnectées sur la grande plateforme ouverte qu’est le Web. C’est pour cette raison que les nôtres sont au cœur de la découverte de contenus et d’offres diverses. Nous devrions consacrer prioritairement nos efforts à les moderniser. Parce qu’aujourd’hui, tout part de là.

Objectif: aider les moteurs à repérer et lier des entités

Les moteurs de recherche indexent le contenu des pages web. Grâce au développement de bases de connaissances structurées (Knowledge Graph), ceux-ci peuvent repérer dans chaque page des choses ayant une signification spécifique, comme des personnes, des lieux, des événements ou des œuvres. Ces choses sont appelées « entités nommées ». Les entités nommées qui sont repérées sont catégorisées et associées selon le modèle d’organisation propre à chacune des bases de connaissances des moteurs de recherche.

Nos sites web, lorsqu’ils sont bien conçus, alimentent ces bases de connaissances. C’est pour cette raison qu’il faut prioriser l’amélioration de la repérabilité des contenus sur nos sites avant de verser des données dans Wikidata. Cette base de connaissances, tout comme d’autres, sert à réduire l’ambiguïté entre des entités (homonymes) et à valider les liens entre elles. Elle ne remplace cependant pas les sources d’information interconnectées, classifiées et référencées que sont les sites web.

Stratégie: quoi, pour qui, avec quels objectifs?

L’amélioration des conditions de repérabilité de l’information ne produit pas de résultat immédiat, contrairement aux tactiques de référencement organique de pages. Elle s’inscrit dans la durée et doit s’appuyer sur des notions précises plutôt que sur des mythes.

La réflexion stratégique permet de déterminer les objectifs à atteindre, les questions auxquelles les données doivent répondre, les publics cibles et les caractéristiques des offres à mettre de l’avant. Les objectifs vérifiables et mesurables de la « découvrabilité » sont les indicateurs de succès qui ont été déterminés en amont dans la stratégie numérique.

Responsabilités: qui fait quoi?

Comme je l’ai déjà mentionné dans un autre billet, nous ne devons plus concevoir des sites web comme des documents, mais comme des plateformes de données. Il faut nous affranchir d’un modèle de conception hérité du document imprimé afin de concevoir le site en commençant par les modèles de données plutôt que par les modèles de pages. Viennent ensuite la définition des structures représentant le ou les domaine de connaissance, puis la représentation des types d’entités sous forme de nœuds et de liens pour former, finalement, des graphes. Tout ceci nous oblige à revoir la méthodologie de conception de sites et à faire appel à des compétences qui sont rarement sollicitées pour des projets web.

Il ne s’agit pas uniquement de savoir comment intégrer ce processus dans les activités d’un projet, mais aussi de savoir ce qui doit être fait à l’interne et ce qui doit, par contre, être confié à des spécialistes.

Il n’existe pas de recette toute faite, ni d’application, pour améliorer ainsi l’organisation de l’information. L’élaboration d’un modèle de données représentant différentes entités et les relations qui les définissent est un travail de spécialiste. De plus, la spécificité des offres, objectifs stratégiques, publics cibles et environnements technologiques soulèvent des questions auxquelles une présentation de 3 heures ne permet pas de fournir de réponses solides.

Trois étapes essentielles pour structurer l’information

J’utilise des outils simples pour accompagner des équipes dans leurs démarches d’amélioration de sites web et de description de contenus avec des données structurées. Cependant, les projets n’avanceraient pas si ces équipes étaient livrées à elles-même, sans ressources pour répondre aux nombreuses questions que la démarche permet de soulever.

1. Organiser le site web autour des entités

L’organisation du site et la structure de l’information concernent les pages web lisibles par des humains et indexables par des machines (voir Structurer l’information autour d’entités repérables) et le code informatique de ces pages qui est interprétable par des machines (lire Schema.org n’est pas le moteur de recherche).

Vous pouvez évaluer en quelques points si la structure et le contenu des pages de votre site fournissent aux éléments d’information (entités nommées, métadonnées, mots clés) les meilleures conditions d’exploitation, pour des visiteurs et pour des moteurs de recherche.

  • Arborescence (accès aux offres et contenus).
  • Nomenclature (alignement de la taxonomie sur les publics cibles).
  • URL unique et lisible pour chaque offre et contenu.
  • Images (nomenclature de fichier, texte alternatif, résolutions).
  • Description (caractéristiques, attributs distinctifs, expérience).
  • Information à valeur ajoutée (liens vers d’autres sources d’information complémentaire).

2. Faire « du lien »

Comment évaluer le potentiel de rayonnement de vos contenus dans le numérique?

  • En cartographiant l’écosystème composé de points et de liens qui jouent un rôle central dans leur visibilité et découverte.
  • En identifiant les points (site web, réseaux sociaux, sites de partenaires) permettant d’établir des connexions pertinentes vers vos offres.

Vous reporterez ensuite, dans une grille, les points ainsi identifiés, puis dresser l’inventaire détaillé de l’information diffusée, de la fréquence des publications, des rôles et responsabilités de chacun. Vous serez alors en mesure de:

  • Déterminer les points permettant de rejoindre différents publics (en d’autres termes, associer les bons canaux et contenus aux bons publics).
  • Identifier les liens à créer ou à solidifier ainsi que les partenariats à développer.

3. Décrire les entités

Cette grille permettra d’identifier les métadonnées qui rendent vos offres et contenus uniques et plus faciles à trouver. Vous pouvez à la fois:

  • Trouver les mots pour différencier votre offre auprès de vos publics cibles.
  • Fournir des métadonnées permettant aux moteurs de recherche de fournir des réponses personnalisées.

Ces activités devraient être réalisées en groupe, au sein d’une organisation ou, lorsqu’il s’agit d’une initiative collective, avec les représentants de différentes organisations.

Découvrabilité = Repérabilité + Accessibilité + Interopérabilité

Standards W3C: repérabilité, accessibilité, interopérabilité

Traditionnellement, des réponses sont retrouvées à partir d’une collection de documents ou d’un graphe de connaissances.
(«Traditionally, answers have been retrieved from a collection of documents or a knowledge graph», Google AI Blog)

Traditionnellement ?

Cet adverbe est ici associé à «graphe de connaissances»: une technologie et des pratiques documentaires que nous ne maîtrisons pas.

Cette association, signale l’ampleur de l’écart entre notre conception des systèmes d’information, qui a peu évolué depuis l’invention des bases de données (pré Web), et le développement de graphes de données interconnectables (entité-relation) permettant, depuis plusieurs années déjà, de raisonner sur des connaissances.

Découvrabilité

Je préfère ne plus employer le terme « découvrabilité » car il porte l’illusion de pouvoir pousser des contenus sur les écrans des utilisateurs, comme à l’époque d’avant Internet. Cet espoir, qui façonne la plupart de nos projets connectés, est probablement la source de leur plus grande faiblesse.

Afin de faire évoluer nos usages du Web, il faut que nos initiatives numériques aient d’autres objectifs, plus concrets et vérifiables, que la découvrabilité. Ce mot trahit notre incapacité à faire évoluer notre compréhension du Web face à des entreprises qui se sont constituées en misant sur ses possibilités ultimes.

S’agit-il d’une caractéristique de l’information ou d’une activité de promotion? « Découvrabilité » est un néologisme dont nous n’arrivons pas à rapporter le sens à un savoir commun. Et pour cause: chaque spécialiste ou consultant l’adapte à ses compétences et à sa capacité d’intervention. L’absence de définition commune et précise ne facilite donc pas la convergence des initiatives numériques.

Je crois que nous aurions intérêt à remplacer ce concept flou par trois objectifs concrets pour lesquels il existe des connaissances formalisées et des outils pratiques: repérabilité, accessibilité et interopérabilité.

Repérabilité

Information documentée de façon à pouvoir être identifiée et localisée le plus aisément possible (architecture du site web, taxonomie, métadonnées). Synonyme: trouvabilité.

Accessibilité

L’information se trouve dans le Web et est accessible tant aux humains (contenu ouvert) qu’aux machines et algorithmes (indexation par les moteurs de recherche). L’accessibilité du web, qui vise initialement à permettre aux personnes handicapées d’accéder aux contenus et services web, est l’une des composantes de l’accessibilité numérique.

Interopérabilité

L’information est exprimée selon les standards universels, libres et ouverts d’accessibilité et de lisibilité pour les humains et les machines (protocole de communication HTTP, adressage URL, langage HTML). Voir ses enjeux, principes et typologies présentés dans Wikipedia.

***

Le Web est la seule plateforme permettant de publier de l’information de façon repérable, accessible et interopérable par qui ou quoi que ce soit. C’est pour cette raison que l’amélioration de la découverte d’offres et de contenus, dans un monde numérique, dépend de la structure de l’information publiée sur les sites web.

Dans le prochain billet, nous verrons pourquoi il faut revoir la façon dont nous concevons nos sites web et ce que tous devraient savoir pour adopter de nouvelles bonnes pratiques.

Découvertes culturelles: au-delà du marketing et du techno-solutionnisme

Wikipedia as a marketing tool, livre sur Google Books
Les utilisateurs préfèreraient-ils une encyclopédie ou un répertoire commercial?

Notre focalisation sur le marketing et les solutions technologiques est-elle un risque pour la diversité culturelle ? L’absence de vision partagée et la course aux résultats  peuvent-elles faire perdre aux acteurs de la culture la maîtrise stratégique des choix en matière de diffusion et d’accès ?

Nous espérons des solutions mécanistes qui accroîtront la consommation en imposant des offres culturelles à la façon des vieux modèles publicitaires. La mise en données de contenus culturels ne doit pas nous faire oublier qu’il appartient à chacun de réaliser la partie la plus stratégique d’un projet numérique : décider de la façon dont une chose (une œuvre, par exemple) doit être documentée et déterminer ce qui la relie à d’autres informations dans le web des données.

L’emploi du mot « initiative », de préférence à « projet », souligne l’importance de la démarche et des apprentissages, par rapport à la livraison d’un outil ou la modernisation d’un système. Voici comment nos initiatives pourraient être plus marquantes.

Miser sur l’éducation et l’accès à la culture

Le marketing peut entraîner la consommation de produits et services culturels, mais ce sont l’éducation et l’accès à la culture qui peuvent faire découvrir et apprécier la culture.  Or, il faudrait une plus grande porosité entre les politiques et projets éducatifs et culturels pour miser sur l’environnement familial et social pour faire connaître la culture.

Il faudrait également donner un rôle plus actif, dans nos plans et initiatives numériques, aux médiateurs de proximité que sont les professionnels des bibliothèques publiques et scolaires.

Privilégier les initiatives qui favorisent la diversité

Nous cherchons, par tous les moyens,  à ce que la culture locale soit vue et consommée, de préférence à d’autres offres.  Nos propositions techniques partagent cependant les défauts des plateformes dominantes. Qu’il s’agisse de baliser des contenus pour les moteurs de recherche ou de créer de nouvelles bases de données interrogeables, la façon dont sont conçues ces  « solutions » technologiques nuit à la diversité des offres culturelles.

  • La centralisation des décisions et du traitement de l’information renforce l’uniformisation.
  • La popularité comme principal critère de sélection défavorise les contenus de niche, les cultures et langues en situation minoritaire dans un répertoire, sur un territoire ou par rapport au reste du monde.
  • L’uniformisation du traitement documentaire, par l’imposition d’une méthode de classification, de vocabulaires et de référentiels spécifiques, appauvrit la qualité de l’information. Par conséquent, elle en diminue l’intérêt et la valeur pour différents publics.  Les initiatives de  décolonisation des modèles descriptifs tentent de réparer les ravages du rouleau compresseur de l’uniformisation sur la citoyenneté culturelle des peuples autochtones.
  • Les systèmes de recommandations et de personnalisation des offres  culturelles reposent sur la similarité des produits et services ou sur la similarité des profils des utilisateurs.

Ne pas céder des choix stratégiques

À l’arrivée de l’informatique, nous avons confié l’organisation de l’information à des systèmes de bases de données, selon les termes d’entreprises. Il est temps de remettre, selon nos propres termes, cette intelligence dans nos sites web et, plus spécifiquement, dans nos catalogues, collections, répertoires,  fonds et archives. Nous ne devrions pas abandonner la création de sens et de liens à des opérateurs de plateformes et à des fournisseurs de services.

Être trouvé ou découvert et laisser des traces numériques sont les fruits d’un travail de documentation. Celui-ci est trop souvent escamoté par la recherche d’une solution technologique. De plus, les façons de décrire des productions ou des offres culturelles offrent peu de possibilité de mettre celles-ci en relation avec des intérêts et des passions.

Par exemple, les catalogues et répertoires en ligne pourraient grandement améliorer l’expérience des utilisateurs en devenant des bases de connaissances interactives et interconnectées. Il serait ainsi possible d’intégrer de nouvelles informations et des liens vers d’autres ressources grâce aux contributions de chercheurs et d’amateurs.

Documenter: laisser des traces, créer du lien et faire sa marque

Documenter la culture et rendre cette information pertinente, attrayante et utile pour divers publics et usages sont la responsabilité de tous les acteurs du milieu culturel. Il manque une méthode de travail et des outils faciles à utiliser pour réaliser, en équipe ou avec des partenaires, l’évaluation de l’information publiée sur le web et le choix des métadonnées qui feront des liens entre les offres culturelles et les publics cibles.

C’est dans cette perspective qu’a été conçu un guide destiné aux artistes et aux organisations du milieu de la danse. Cette approche, en trois étapes (stratégie, information, technologie) repousse les choix technologiques à la toute dernière étape afin de remettre la documentation de la danse à ceux et celles qui la font.

Extraits du lancement du guide Bien documenter pour favoriser la découverte en ligne, réalisé pour la Fondation Jean-Pierre Perreault, dans le cadre de l’initiative La danse dans le web des données.

À quelles questions répondent vos (méta)données ?

Question: Meaning of life, the universe and everything, Douglas Adams
Capture d’écran « gVIM with 42 help », Wikimedia Commons

Mise à jour 2019-09-07: ajout, à la fin du billet, d’information concernant les cas d’usage, suite à un commentaire exprimé sur Facebook.

Produire et réutiliser des données descriptives, ce n’est pas travailler sur une solution, mais sur des questions.

Quelle est la finalité du projet ?

Comment savoir si les données d’une organisation ou d’un collectif ont un fort potentiel informationnel ? Comment ces données peuvent-elles répondre à des questions qui demandent de faire des liens entre des entités et d’interpréter des relations ?  Si ces données ne sont pas suffisamment riches en information, comment les lier avec celles provenant d’autres sources, ouvertes et privées, pour les valoriser ?

La finalité de projets de données est de générer l’information la plus riche afin de répondre à des questions à la satisfaction des publics cibles. Toute initiative devrait donc débuter par un diagnostic de la disponibilité et de la qualité des données.  Cependant, comment effectuer un tel exercice sans savoir à quels besoins répondront-elles ou, plus exactement, à quelles questions devront-elles répondre ?

Trouver les bonnes questions: la dimension cognitive des projets

La dimension cognitive des projets numériques se rapporte à la sélection, l’organisation et le traitement de l’information. Ces activités doivent réunir des perspectives et compétences diversifiées: de la connaissance du domaine et des publics à la modélisation de l’information.  Il s’agit d’un travail collaboratif qui doit être réalisé en amont de la conception technique. Cette étape est rarement bien planifiée et réalisée, faute de budget, ressources ou méthode de travail. Pourtant, elle constitue le coeur du projet.  C’est, de plus, un processus qui permet d’améliorer la littératie numérique et développer des pratiques collaboratives au sein d’une organisation et d’un partenariat.

Interroger les données: repenser les vieilles interfaces 

Les vieux modèles d’interfaces de recherche influencent notre conception des questions que nous posons aux ensembles de données.  Elles forcent les utilisateurs à formuler leurs questions en fonction de critères limités. Ces interfaces pré web qui sont encore utilisées pour donner accès au contenu de catalogues en ligne  sont nettement déclassées par la recherche en langage naturel.

Cocher des critères comme la date, l’auteur, le sujet ou le titre ont assez peu à voir avec les comportements et besoins des utilisateurs.  L’indexation des  contenus et le paramétrage du moteur de recherche des sites sont généralement peu élaborés.  Par exemple, explorer les archives du journal Le Devoir est plus intéressant à partir de l’interface de Google. Il suffit de limiter la recherche au site et d’ajouter des expressions ou, même, des questions , comme ceci: « site:https://www.ledevoir.com/  causes du changement climatique ».  On peut alors explorer les textes, images et vidéos.  Les traces de nos usages ne serviront cependant pas les intérêts du média, mais le  modèle économique du moteur de recherche.

Remplacer les cas d’usage par une approche narrative

Avant de développer de nouvelles plateformes, il y aurait place à amélioration pour répondre aux  besoins d’information spécifiques des publics et accompagner le développement de services à valeur ajoutée.

Mais trouver les bonnes questions à poser requiert une  connaissance des publics cibles et, pourquoi pas, leur participation. Pour cela, il convient de remplacer l’approche technologique (cas d’utilisation) par une approche narrative, plus concrète et plus proche du phénomène informationnel (lier des données pour raconter une histoire).

When we frame information about an object we focus attention on certain aspects of that object or its history. It’s just like choosing a new frame for a painting, which then highlights different qualities of the artwork. Framing is less about the information we feature in a label and more about how we present that information.

Le sujet de cet article dépasse le domaine muséal: What makes a great museum label?

Exploiter des données plus riches de sens

Notre relation aux contenus culturels est de l’ordre du ressenti, du goût et des intérêts. Cependant, nos bases de données et catalogues fournissent une information factuelle, organisée de façon uniforme et anodine, bien loin de la diversité des cultures et expériences humaines.  D’autres métadonnées pourraient jouer un rôle aussi important que les métadonnées classiques de type catégorie-titre-auteur, pour la personnalisation des services et pour l’analyse des données d’usage.

Sous la direction d’Yvon Lemay et Anne Klein, de l’École de bibliothéconomie et des sciences de l’information, Archives et création: nouvelles perspectives en archivistique regroupe des publications de recherche sur l’exploitation des archives dans le domaine culturel (arts visuels, littérature, cinéma, musique, arts de la scène, arts textiles et Web). Cette publication devrait être lue par quiconque souhaite réfléchir sur la mise en réseaux des données sur la culture.

Indexation – Émotions – Archives, la recherche menée par Laure Guitard, se rapporte plus spécifiquement à l’enrichissement des modèles de données par la représentation de la charge émotionnelle des contenus et objets (page 151).

l’indexation – professionnelle et collaborative – pourrait permettre d’inclure l’émotion dans la description des archives afin que cette dernière soit reconnue comme une clé d’accès aux documents

Je souligne, avec cette référence, l’importance de la recherche académique et des regards croisés entre domaines d’étude pour apporter de la profondeur à des idées. Les monocultures sectorielle,  disciplinaire et technologique nuisent à nos ambitions numériques.

Renforcer le volet cognitif des projets

Il faut revoir des modèles d’indexation de contenu, ou de production de métadonnées. Disposer de données plus riches permet d’analyser la relation de l’utilisateur au contenu, de mieux connaître les publics,  de développer des algorithmes de recommandation et, finalement, d’imaginer d’autres façons de valoriser des catalogues, fonds et répertoires.

Nous ne devons pas nous laisser démonter par la complexité des projets ou, pire: brûler de précieuses ressources en « coupant les coins ronds». Nous pouvons y faire face en mettant en commun des ressources et des expertises diversifiées et en élaborant d’autres méthodes de travail. Donnons-nous du temps, mais commençons dès maintenant.

Ajout d’information concernant les cas d’usage et l’approche narrative, à la suite d’une très bonne question posée par Frédéric Julien, sur Facebook.

Extrait du commentaire de Frédéric : 

Je ne suis par contre pas certain de comprendre ce que tu entends par « remplacer les cas d’usage par une approche narrative ». Au cours de la dernière année, j’ai eu la précieuse occasion de participer à quelques exercices de consultation auprès de créateurs et usagers de données dans le cas du projet 3R. Ce que j’y entendu a énormément contribué à ma réflexion sur les cas d’usage dans le cadre de l’initiative ANL [Un avenir numérique lié]. Ces deux méthodologies ne me semblent pas du en contradiction l’une avec l’autre (ni avec ce que tu décris dans ton billet… à moins que certains détails ne m’échappent).

Réponse:

/…/ une approche narrative permet de réaliser des cas d’usage en les mettant en contexte (le « comment »). J’emploie un terme fort, « remplacer »,  pour attirer l’attention sur une étape du projet sur laquelle se fondent beaucoup d’objectifs (et d’espoirs). C’est une étape cruciale pour la mise en relation de l’information avec des utilisateurs. Elle est trop souvent escamotée ou sert uniquement à construire des exemples de requêtes.
Suivre une approche narrative ne signifie pas raconter une histoire, mais analyser des comportements, des usages, des interfaces et des structures de données pour produire des exemples qui vont démontrer l’utilité ou la valeur ajoutée du système.
Cependant, les cas d’usage réalisés de façon habituelle (comme en informatique), portent sur le « quoi » (les données, les étiquettes à mettre) alors que les éléments de la recherche et de la découverte ne sont plus les mêmes:

  • Interrogation de données liées conçue comme des requêtes sur des BD tabulaires (où est le potentiel du liage de données?)
  • Travail de terrain très rarement réalisé avec des utilisateurs finaux, dont des non-usagers (ex: non-visiteurs de musées) et des non-amateurs de certains type d’offres (ex: films québécois).
  • Confusion entre parcours de recherche et de découverte (qu’est-ce que chercher? découvrir? comment cela se produit-il dans des contextes spécifiques, avec certains supports et chez certains types d’utilisateurs ?)

 

Découvrabilité: mythes et réalité

Mise à jour 2019-05-24: ajout d’une question et sa référence, en conclusion.

La recherche du Graal de la découvrabilité, ce moyen qui accroîtra la «consommation» de nos produits culturels, peut-elle nous faire tomber dans le piège de la solution technologique qui nous fait oublier le problème ?

Solution simple et problématique complexe

Appelé « solutionnisme »  par l’historien des sciences Evgeny Morozov, c’est la proposition d’une solution technologique à un problème d’origine complexe. Ceci a pour effet d’escamoter les débats qui sont essentiels à la recherche de solutions pour le bien commun.

Moins de quatre ans se sont écoulés depuis le sommet qui a propulsé le terme « découvrabilité » jusque dans les hautes sphères décisionnelles, en culture. Depuis lors, des événements et programmes de financement de la culture ont intégré cette thématique ou certains de ces éléments les plus emblématiques, comme les métadonnées.

Je réalise, depuis quelques années, des ateliers sur la découvrabilité et les métadonnées, avec les Fonds Bell et Fonds indépendant de production. Une collaboration avec Marie-Ève Berlinger apporte à ma démarche exploratoire la dimension stratégique de la promotion numérique. C’est dans ce contexte que nous avions échangé sur les mythes de la découvrabilité, au cours du Forum avantage numérique.

Voici quelques constats qui se rapportent aux mythes qui sont spécifiques à la production de métadonnées pour les moteurs de recherche.

La découvrabilité n’est pas une finalité

La finalité d’un plan de découvrabilité est le fruit d’une réflexion stratégique. Celui-ci fournit les questions, le contexte et le cadre sans lesquels la découvrabilité n’aurait pas d’autre objectif que de fournir des données à un moteur de recherche. Ce sont les activités de marketing et de promotion qui produisent des résultats mesurables.

L’exploitation des métadonnées par les moteurs de recherche n’est qu’un des piliers de la découvrabilité. Cette approche a été illustrée dansle cadre d’un projet auquel je collabore, avec Véronique Marino et Andrée Harvey (La Cogency).

Illustration des 4 piliers de la découvrabilité, par LaCogency
Illustration tirée d’un projet de découvrabilité numérique de LaCogency.

Il est surprenant de constater que la stratégie et les moyens techniques ne sont pas intimement intégrés dans des projets numériques. Il y a une importante mise à jour des connaissances conceptuelles et techniques à opérer au sein des agences qui conseillent et accompagnent les organismes et entreprises.

La réponse n’est pas une page web

La fiche d’information qui constitue la réponse du moteur de recherche (à la droite de la liste de résultats) n’a pas pour objectif de diriger l’utilisateur vers une page web spécifique. Elle rassemble différents éléments d’information afin de fournir la réponse la plus précise possible. Il faut donc sortir de la logique de la liste de résultats et ne pas penser l’usage des métadonnées en fonction d’une destination.

Les liens entre les éléments d’information qui composent la fiche de réponse construisent des parcours qui orientent la recherche de l’utilisateur, sans nécessairement aboutir sur un site web. Par exemple, chercher une oeuvre de VanGogh, comme la Nuit étoilée, permet de mesurer la distance et les clics qui nous séparent du site web du Museum of Modern Art.

Ceci accroît la collecte des données d’usage qui permettent d’analyser l’intention, le comportement et la consommation de l’utilisateur. Plus les fonctions et choix offerts sont utiles, plus l’utilisateur demeure dans l’interface du moteur de recherche. Les agrégateurs d’information, qui font face à la désintermédiation de leur services, constateront probablement une diminution progressive du volume de données qui sont collectées sur leurs pages.

L’effet des métadonnées est dans la durée

Les résultats de l’utilisation de métadonnées pour décrire des contenus ne sont pas mesurables, au sens strict.

La qualité de l’encodage des métadonnées peut être validée, mais l’outil de test ne peut juger la logique de la description (interprétation des balises uniquement). Une validation que peu de producteurs de métadonnées semblent se donner la peine de faire. Il est également possible d’attribuer un indice de découvrabilité à  une information en fonction de critères spécifiques.

L’effet des métadonnées peut être observé sur un temps long. L’enrichissement progressif de la fiche de réponse illustre le potentiel qu’a une offre d’être liée par le moteur de recherche à d’autres informations. Il n’est pas possible de fournir des résulats immédiats et quantifiables, de façon similaire aux stratégies de référencement organique et payant de pages web.

Schema.org n’est pas le moteur de recherche

Schema est un vocabulaire commun de métadonnées qui a été développé pour les moteurs de recherche. Google recommande l’intégration des métadonnées sous forme de balises dans le code HTML d’une page afin de décrire l’offre qui y est présente. Cependant, les règles de l’algorithme évoluent au fil des expérimentations du moteur de recherche. Les métadonnées Schema qui étaient recommandées pour décrire des offres de type Movie, TVSeries et Music existent toujours. Cependant, Google n’en recommande plus l’usage et invite les entreprises concernées à faire une demande pour devenir des partenaires médias. Jusqu’où, alors, faut-il investir pour indexer une offre si le fonctionnement de l’algorithme et l’évolution du moteur de recherche nous sont inconnus ?

Une réflexion stratégique est nécessaire pour répondre à cette question. Deux avenues s’ouvrent:

1. Rendre des offres interprétables pour les moteurs de recherche (indexation) et appuyer la stratégie de référencement du site

  • Fournir uniquement les métadonnées Schema qui sont obligatoirement requises par le moteur de recherche. Ceci fait partie des bonnes pratiques du développement de sites web.
  • Tout comme pour le référencement, il est important d’assurer une veille sur l’évolution des fonctions analytiques et techniques des moteurs de recherche.

2. Valoriser les éléments d’un catalogue ou d’une collection en produisant un graphe de données liées

  • Fournir des métadonnées très riches selon le vocabulaire Schema.
  • Prévoir un important travail de modélisation (de préférence, par une personne compétente) afin de mettre en valeur des attributs et des liens, en travaillant sur les propriétés et les niveaux hiérarchiques.

Enjeux d’importance pour une stratégie numérique:

  • Aucun résultat garanti sur le traitement des métadonnées par le moteur de recherche. Ceci ne doit donc pas être l’unique objectif d’un tel projet.
  • Vocabulaire et modèle de représentation uniques: uniformisation de la représentation répondant aux objectifs d’affaires des moteurs de recherche.

Précision 2019-05-25: ce billet concerne uniquement le langage de balisage pour moteurs de recherche (métadonnées Schema) et non la représentation des connaissances avec les standards du web sémantique.

Pas de solution, mais quelques questions

L’uniformisation des modèles descriptifs est-elle un risque pour la diversité culturelle ?

La problématique de la «consommation culturelle» ne devrait-elle pas être abordée dans les deux sens ? En orientant nos projets sur la promotion,  nous oublions la relation au public et l’analyse de ce qui rend une oeuvre de création attractive. Ce rapport sur les pratiques culturelles numériques et plateformes participatives, piloté par la chercheuse Nathalie Casemajor, contient des pistes de réflexion à ne pas négliger, dont cellec-ci:

Les efforts de découvrabilité ne suffisent pas à eux seuls à créer l’appétence culturelle, et l’analyse des données consommatoires et comportementales n’est pas la panacée pour agir sur le développement des goûts et des dispositions culturelles en amont.

Nous devrions nous donner des moyens pour définir les modalités et conditions de la découvrabilité que nous souhaitons. Celles-ce se trouvent quelque part, entre le monde vu par une entreprise et celui que nous voyons au travers du prisme de nos cultures et sensibilités, d’une part,  et, d’autre part, entre lier des données pour un objectif de marketing et faire du lien social autour d’objectifs communs.

Moteur de recherche et désintermédiation

Il est possible de passer quelques heures, sur le web, à écouter de la musique et à croiser des artistes, connus et inconnus, en suivant des liens tissés par un algorithme. Et cela, sans quitter l’interface du moteur de recherche.

Désintermédiation des services d’information

Le moteur de rechercher devient une interface qui impose aux utilisateurs sa vision du monde, son algorithme, son modèle de classification et son régime de vérité: la popularité. Une uniformisation de la structure de l’information et des fonctions proposées qui efface la diversité des modèles et des expressions.

Service et application Google Voyages

Avec l’intégration de Google Voyages, grâce aux données collectées auprès des utilisateurs, il connaîtra les intérêts et comportements des voyageurs beaucoup mieux que les organisations touristiques locales et deviendra un partenaire priviliégé des entreprises touristiques. Celles-ci fournissent déjà, par le biais de Google Mon entreprise, les métadonnées qui permettent de lier et classifier les données, en mode hyperlocal. Face à une très probable désintermédiation, les associations touristiques devront mettre l’accent sur une organisation de l’information et des expériences que le moteur ne propose pas.

Nul doute que  cette nouveauté accroîtra l’intérêt pour les technologies de liage de données, tel que cette conférence sur les graphes de données, dans le domaine du tourisme.