Archives par mot-clé : sémantique

Découvertes culturelles: au-delà du marketing et du techno-solutionnisme

Wikipedia as a marketing tool, livre sur Google Books
Les utilisateurs préfèreraient-ils une encyclopédie ou un répertoire commercial?

Notre focalisation sur le marketing et les solutions technologiques est-elle un risque pour la diversité culturelle ? L’absence de vision partagée et la course aux résultats  peuvent-elles faire perdre aux acteurs de la culture la maîtrise stratégique des choix en matière de diffusion et d’accès ?

Nous espérons des solutions mécanistes qui accroîtront la consommation en imposant des offres culturelles à la façon des vieux modèles publicitaires. La mise en données de contenus culturels ne doit pas nous faire oublier qu’il appartient à chacun de réaliser la partie la plus stratégique d’un projet numérique : décider de la façon dont une chose (une œuvre, par exemple) doit être documentée et déterminer ce qui la relie à d’autres informations dans le web des données.

L’emploi du mot « initiative », de préférence à « projet », souligne l’importance de la démarche et des apprentissages, par rapport à la livraison d’un outil ou la modernisation d’un système. Voici comment nos initiatives pourraient être plus marquantes.

Miser sur l’éducation et l’accès à la culture

Le marketing peut entraîner la consommation de produits et services culturels, mais ce sont l’éducation et l’accès à la culture qui peuvent faire découvrir et apprécier la culture.  Or, il faudrait une plus grande porosité entre les politiques et projets éducatifs et culturels pour miser sur l’environnement familial et social pour faire connaître la culture.

Il faudrait également donner un rôle plus actif, dans nos plans et initiatives numériques, aux médiateurs de proximité que sont les professionnels des bibliothèques publiques et scolaires.

Privilégier les initiatives qui favorisent la diversité

Nous cherchons, par tous les moyens,  à ce que la culture locale soit vue et consommée, de préférence à d’autres offres.  Nos propositions techniques partagent cependant les défauts des plateformes dominantes. Qu’il s’agisse de baliser des contenus pour les moteurs de recherche ou de créer de nouvelles bases de données interrogeables, la façon dont sont conçues ces  « solutions » technologiques nuit à la diversité des offres culturelles.

  • La centralisation des décisions et du traitement de l’information renforce l’uniformisation.
  • La popularité comme principal critère de sélection défavorise les contenus de niche, les cultures et langues en situation minoritaire dans un répertoire, sur un territoire ou par rapport au reste du monde.
  • L’uniformisation du traitement documentaire, par l’imposition d’une méthode de classification, de vocabulaires et de référentiels spécifiques, appauvrit la qualité de l’information. Par conséquent, elle en diminue l’intérêt et la valeur pour différents publics.  Les initiatives de  décolonisation des modèles descriptifs tentent de réparer les ravages du rouleau compresseur de l’uniformisation sur la citoyenneté culturelle des peuples autochtones.
  • Les systèmes de recommandations et de personnalisation des offres  culturelles reposent sur la similarité des produits et services ou sur la similarité des profils des utilisateurs.

Ne pas céder des choix stratégiques

À l’arrivée de l’informatique, nous avons confié l’organisation de l’information à des systèmes de bases de données, selon les termes d’entreprises. Il est temps de remettre, selon nos propres termes, cette intelligence dans nos sites web et, plus spécifiquement, dans nos catalogues, collections, répertoires,  fonds et archives. Nous ne devrions pas abandonner la création de sens et de liens à des opérateurs de plateformes et à des fournisseurs de services.

Être trouvé ou découvert et laisser des traces numériques sont les fruits d’un travail de documentation. Celui-ci est trop souvent escamoté par la recherche d’une solution technologique. De plus, les façons de décrire des productions ou des offres culturelles offrent peu de possibilité de mettre celles-ci en relation avec des intérêts et des passions.

Par exemple, les catalogues et répertoires en ligne pourraient grandement améliorer l’expérience des utilisateurs en devenant des bases de connaissances interactives et interconnectées. Il serait ainsi possible d’intégrer de nouvelles informations et des liens vers d’autres ressources grâce aux contributions de chercheurs et d’amateurs.

Documenter: laisser des traces, créer du lien et faire sa marque

Documenter la culture et rendre cette information pertinente, attrayante et utile pour divers publics et usages sont la responsabilité de tous les acteurs du milieu culturel. Il manque une méthode de travail et des outils faciles à utiliser pour réaliser, en équipe ou avec des partenaires, l’évaluation de l’information publiée sur le web et le choix des métadonnées qui feront des liens entre les offres culturelles et les publics cibles.

C’est dans cette perspective qu’a été conçu un guide destiné aux artistes et aux organisations du milieu de la danse. Cette approche, en trois étapes (stratégie, information, technologie) repousse les choix technologiques à la toute dernière étape afin de remettre la documentation de la danse à ceux et celles qui la font.

Extraits du lancement du guide Bien documenter pour favoriser la découverte en ligne, réalisé pour la Fondation Jean-Pierre Perreault, dans le cadre de l’initiative La danse dans le web des données.

Tendance zéro clic: leçons à tirer pour des initiatives plus marquantes

Wikidata - Cartographie des films et des lieux où se déroule l'action.
Wikidata, exemple de requête : cartographie des films et des lieux où se déroule l’action.

Mise à jour 2019-10-02: ajout d’un exemple récent d’initiative à fort potentiel transformateur.

La tendance zéro clic se confirme. Les moteurs de recherche fournissent dans leurs propres interfaces, des réponses, à partir de données collectées sur des sites web.  Ils sont ainsi les principaux bénéficiaires de l’information que nous structurons afin de rendre nos offres plus visibles.

Partenariat inéquitable

De plus, en développant des interfaces d’information spécialisées (voyage, musique,  musées, entre autres), ils se substituent aux agrégateurs et portails traditionnels. Cette désintermédiation est particulièrement dommageable pour les structures locales qui produisent de l’information. Celles-ci sont privées de données d’usage qui leur permettraient de mieux connaître leur marché et de s’ajuster à leurs publics.

Effacement de la diversité culturelle

Donc, lorsque nous décrivons nos offres à l’aide de données structurées, sur le modèle Schema.org, et de services comme Google Mon entreprise, nous travaillons pour des moteurs de recherche. De plus, nous nous conformons à un vocabulaire de description, une classification et une vision du monde uniques.  Ce constat est un problème pour la diversité culturelle, surtout pour les groupes ethniques et linguistiques en situation minoritaire.

Que faire ? Fournir un service minimum

Cependant, ne pas décrire  nos offres avec des balises sémantiques équivaut à refuser de faire indexer nos pages web par les robots des moteurs et, par conséquent, à rendre nos offres et nos contenus invisibles et incompréhensibles pour Google, Bing, Yahoo! et Yandex (moteur de recherche russe).

Alors, que faire pour ne pas demeurer des fournisseurs de contenus et de données (voir l’exemple des musées virtuels sur Google Arts & Culture) ?

Tout d’abord, il faudrait donner un « service minimum » aux moteurs de recherche en fournissant uniquement l’information qui est exigée pour certaines offres.  Google publie des instructions concernant les balises à renseigner, ainsi que les éléments de contenu à publier pour divers types d’offres.

Attention, Schema.org n’est qu’un vocabulaire. Ce n’est pas Google. Les moteurs de recherche exploitent les balises selon leurs propres règles. Celles-ci évoluent fréquemment, notamment, pour certains types de contenus.  Par exemple, Google annonce clairement ses préférences, dans le domaine du livre, en réservant son attention aux distributeurs qui utilisent les balises selon ses instructions.

Que faire  d’autre ? Aller vers le web des données

Nous mettons les moteurs de recherche et plateformes commerciales au centre de nos projets. Cependant, nous n’en maîtrisons pas le fonctionnement et nous n’avons aucun moyen de contrôle sur leur développement. Nous y investissons beaucoup d’efforts afin de positionner nos offres dans l’espoir d’accroître la consommation.

Et si nous élargissions notre définition de la découverte plutôt que de la centrer sur des activités de promotion? Ne pas nous limiter à la finalité économique de l’utilisation des données nous permettrait d’en embrasser le plein potentiel pour le développement de la culture et de l’éducation. Si nous choisissions de développer des initiatives en dehors des systèmes contrôlés par les acteurs dominants de l’économie numérique, nous pourrions être plus ingénieux et, finalement, créer plus de valeur pour nos propres écosystèmes.

Apprendre à jouer collectif

Il y a 25 ans, ce 1er octobre,  Tim Berners-Lee fondait le World Wide Web Consortium pour permettre à une communauté mondiale de développeurs et spécialistes divers de collaborer afin de définir des standards pour maintenir un web ouvert, accessible et interopérable pour tous.

Accroître le potentiel de la découverte passe par la décentralisation de la gestion de l’information, le partage de connaissance sous forme de données ouvertes et liées, selon les standards du web et par une redistribution plus équitable du pouvoir décisionnel. Wikipédia, Wikicommons et Wikidata, qui sont des projets de la Wikimedia Foundation, exemplifient ce modèle contributif qui donne à chacun la possibilité de participer au contenu et à la gouvernance.

Inventer d’autres formes de découverte

Tous les acteurs du domaine culturel n’ont pas les compétences et les ressources requises pour évaluer, modéliser et connecter des données avec les technologies du web sémantique. Wikidata constitue une option plus accessible: le référentiel, le mode de gouvernance et l’infrastructure n’ont pas à être développés. Ceci a pour principal avantage d’expérimenter rapidement la production et l’utilisation de données liées.

Les requêtes préconstruites qui permettent d’interroger les données de Wikidata offrent un aperçu du potentiel d’un projet contributif pour la valorisation de l’information. Par exemple, la requête 6.16 qui permet de cartographier tous les films en fonction du lieu où se déroule l’action. Lancez la requête en cliquant sur le pictogramme (flèche blanche sur fond bleu) à la gauche de l’écran. Les données des films localisés au Québec ne sont pas exhaustives et sont souvent imprécises (information incomplète, lieu fictif).

Si d’autres sources d’information étaient disponibles sous forme de données liées, on pourrait imaginer une interface où se croiseraient des images des lieux, des biographies d’acteurs et actrices ou des titres de chansons.

*** Mise à jour 2019-10-02

Voici un autre exemple d’initiative qui prend sa source hors des règles imposées par les moteurs de recherche et plateformes. Il s’agit de projets réalisés avec Wikipédia par le Musée national des beaux-arts du Québec.  Cette initiative est à la fois, une contribution du musée à la connaissance mondiale, tout en permettant à l’institution d’explorer le potentiel du liage de données, de rejoindre des publics qui ne fréquentent pas de musées et de donner prise à une culture du réseau dans l’organisation. Nathalie Thibault, archiviste au MNBAQ, en mentionne les effets marquants:

Un des impacts positifs de ce chantier a été de bonifier la présence d’œuvres dans des collections d’autres musées au Québec et au Canada dans les articles bonifiés et non pas juste le MNBAQ. Nous souhaitons collaborer avec les autres musées du Québec, car les articles améliorés sur les artistes du Québec serviront certainement à d’autres institutions muséales.

***

En conclusion, il est souhaitable que nous ayons une alternative aux grandes plateformes pour développer nos compétences et mettre en valeur nos collections, catalogues, fonds et portfolios. Il faut cependant favoriser les initiatives qui ciblent des résultats marquants et transmissibles tels que la décentralisation des prises de décision, l’abolition des silos organisationnels et la mise en commun de données.

À quelles questions répondent vos (méta)données ?

Question: Meaning of life, the universe and everything, Douglas Adams
Capture d’écran « gVIM with 42 help », Wikimedia Commons

Mise à jour 2019-09-07: ajout, à la fin du billet, d’information concernant les cas d’usage, suite à un commentaire exprimé sur Facebook.

Produire et réutiliser des données descriptives, ce n’est pas travailler sur une solution, mais sur des questions.

Quelle est la finalité du projet ?

Comment savoir si les données d’une organisation ou d’un collectif ont un fort potentiel informationnel ? Comment ces données peuvent-elles répondre à des questions qui demandent de faire des liens entre des entités et d’interpréter des relations ?  Si ces données ne sont pas suffisamment riches en information, comment les lier avec celles provenant d’autres sources, ouvertes et privées, pour les valoriser ?

La finalité de projets de données est de générer l’information la plus riche afin de répondre à des questions à la satisfaction des publics cibles. Toute initiative devrait donc débuter par un diagnostic de la disponibilité et de la qualité des données.  Cependant, comment effectuer un tel exercice sans savoir à quels besoins répondront-elles ou, plus exactement, à quelles questions devront-elles répondre ?

Trouver les bonnes questions: la dimension cognitive des projets

La dimension cognitive des projets numériques se rapporte à la sélection, l’organisation et le traitement de l’information. Ces activités doivent réunir des perspectives et compétences diversifiées: de la connaissance du domaine et des publics à la modélisation de l’information.  Il s’agit d’un travail collaboratif qui doit être réalisé en amont de la conception technique. Cette étape est rarement bien planifiée et réalisée, faute de budget, ressources ou méthode de travail. Pourtant, elle constitue le coeur du projet.  C’est, de plus, un processus qui permet d’améliorer la littératie numérique et développer des pratiques collaboratives au sein d’une organisation et d’un partenariat.

Interroger les données: repenser les vieilles interfaces 

Les vieux modèles d’interfaces de recherche influencent notre conception des questions que nous posons aux ensembles de données.  Elles forcent les utilisateurs à formuler leurs questions en fonction de critères limités. Ces interfaces pré web qui sont encore utilisées pour donner accès au contenu de catalogues en ligne  sont nettement déclassées par la recherche en langage naturel.

Cocher des critères comme la date, l’auteur, le sujet ou le titre ont assez peu à voir avec les comportements et besoins des utilisateurs.  L’indexation des  contenus et le paramétrage du moteur de recherche des sites sont généralement peu élaborés.  Par exemple, explorer les archives du journal Le Devoir est plus intéressant à partir de l’interface de Google. Il suffit de limiter la recherche au site et d’ajouter des expressions ou, même, des questions , comme ceci: « site:https://www.ledevoir.com/  causes du changement climatique ».  On peut alors explorer les textes, images et vidéos.  Les traces de nos usages ne serviront cependant pas les intérêts du média, mais le  modèle économique du moteur de recherche.

Remplacer les cas d’usage par une approche narrative

Avant de développer de nouvelles plateformes, il y aurait place à amélioration pour répondre aux  besoins d’information spécifiques des publics et accompagner le développement de services à valeur ajoutée.

Mais trouver les bonnes questions à poser requiert une  connaissance des publics cibles et, pourquoi pas, leur participation. Pour cela, il convient de remplacer l’approche technologique (cas d’utilisation) par une approche narrative, plus concrète et plus proche du phénomène informationnel (lier des données pour raconter une histoire).

When we frame information about an object we focus attention on certain aspects of that object or its history. It’s just like choosing a new frame for a painting, which then highlights different qualities of the artwork. Framing is less about the information we feature in a label and more about how we present that information.

Le sujet de cet article dépasse le domaine muséal: What makes a great museum label?

Exploiter des données plus riches de sens

Notre relation aux contenus culturels est de l’ordre du ressenti, du goût et des intérêts. Cependant, nos bases de données et catalogues fournissent une information factuelle, organisée de façon uniforme et anodine, bien loin de la diversité des cultures et expériences humaines.  D’autres métadonnées pourraient jouer un rôle aussi important que les métadonnées classiques de type catégorie-titre-auteur, pour la personnalisation des services et pour l’analyse des données d’usage.

Sous la direction d’Yvon Lemay et Anne Klein, de l’École de bibliothéconomie et des sciences de l’information, Archives et création: nouvelles perspectives en archivistique regroupe des publications de recherche sur l’exploitation des archives dans le domaine culturel (arts visuels, littérature, cinéma, musique, arts de la scène, arts textiles et Web). Cette publication devrait être lue par quiconque souhaite réfléchir sur la mise en réseaux des données sur la culture.

Indexation – Émotions – Archives, la recherche menée par Laure Guitard, se rapporte plus spécifiquement à l’enrichissement des modèles de données par la représentation de la charge émotionnelle des contenus et objets (page 151).

l’indexation – professionnelle et collaborative – pourrait permettre d’inclure l’émotion dans la description des archives afin que cette dernière soit reconnue comme une clé d’accès aux documents

Je souligne, avec cette référence, l’importance de la recherche académique et des regards croisés entre domaines d’étude pour apporter de la profondeur à des idées. Les monocultures sectorielle,  disciplinaire et technologique nuisent à nos ambitions numériques.

Renforcer le volet cognitif des projets

Il faut revoir des modèles d’indexation de contenu, ou de production de métadonnées. Disposer de données plus riches permet d’analyser la relation de l’utilisateur au contenu, de mieux connaître les publics,  de développer des algorithmes de recommandation et, finalement, d’imaginer d’autres façons de valoriser des catalogues, fonds et répertoires.

Nous ne devons pas nous laisser démonter par la complexité des projets ou, pire: brûler de précieuses ressources en « coupant les coins ronds». Nous pouvons y faire face en mettant en commun des ressources et des expertises diversifiées et en élaborant d’autres méthodes de travail. Donnons-nous du temps, mais commençons dès maintenant.

Ajout d’information concernant les cas d’usage et l’approche narrative, à la suite d’une très bonne question posée par Frédéric Julien, sur Facebook.

Extrait du commentaire de Frédéric : 

Je ne suis par contre pas certain de comprendre ce que tu entends par « remplacer les cas d’usage par une approche narrative ». Au cours de la dernière année, j’ai eu la précieuse occasion de participer à quelques exercices de consultation auprès de créateurs et usagers de données dans le cas du projet 3R. Ce que j’y entendu a énormément contribué à ma réflexion sur les cas d’usage dans le cadre de l’initiative ANL [Un avenir numérique lié]. Ces deux méthodologies ne me semblent pas du en contradiction l’une avec l’autre (ni avec ce que tu décris dans ton billet… à moins que certains détails ne m’échappent).

Réponse:

/…/ une approche narrative permet de réaliser des cas d’usage en les mettant en contexte (le « comment »). J’emploie un terme fort, « remplacer »,  pour attirer l’attention sur une étape du projet sur laquelle se fondent beaucoup d’objectifs (et d’espoirs). C’est une étape cruciale pour la mise en relation de l’information avec des utilisateurs. Elle est trop souvent escamotée ou sert uniquement à construire des exemples de requêtes.
Suivre une approche narrative ne signifie pas raconter une histoire, mais analyser des comportements, des usages, des interfaces et des structures de données pour produire des exemples qui vont démontrer l’utilité ou la valeur ajoutée du système.
Cependant, les cas d’usage réalisés de façon habituelle (comme en informatique), portent sur le « quoi » (les données, les étiquettes à mettre) alors que les éléments de la recherche et de la découverte ne sont plus les mêmes:

  • Interrogation de données liées conçue comme des requêtes sur des BD tabulaires (où est le potentiel du liage de données?)
  • Travail de terrain très rarement réalisé avec des utilisateurs finaux, dont des non-usagers (ex: non-visiteurs de musées) et des non-amateurs de certains type d’offres (ex: films québécois).
  • Confusion entre parcours de recherche et de découverte (qu’est-ce que chercher? découvrir? comment cela se produit-il dans des contextes spécifiques, avec certains supports et chez certains types d’utilisateurs ?)

 

Produire des données : entre outils de marketing et bases de connaissances

La découverte optimisée pour les moteurs de recherche est-elle la  seule solution pour accroître la consommation de contenus culturels locaux ?  Sommes-nous à la recherche de nouveaux outils de marketing ou souhaitons-nous développer des bases de connaissances communes ?  Les résultats attendus à court terme, par nos programmes et partenaires  sectoriels, pèsent sur les choix qui orientent nos actions.

Google, je cherche un bon film à regarder

 

La découverte optimisée pour les moteurs de recheche

Google poursuit son évolution pour devenir notre principale interface d’accès à la connaissance. La tendance zéro clic est une  forme de désintermédiation des répertoires qui est similaire à celle que connaissent les sites des médias. Il y a quelques années que les réseaux de veille prédisent la transition des moteurs de recherche vers des moteurs de réponse.

Alors, est-il stratégique de baliser nos pages web avec des métadonnées (aussi appelées données structurées) pour que des machines comprennent et utilisent nos contenus dans leurs fiches de réponse ?

Améliorer le potentiel d’une information d’être repérée et interprétée par un agent automatisé est une bonne pratique à intégrer dans toute conception web, au même titre que le référencement de site web. Mais se contenter de baliser des pages  pour les seules fins de marketing et de visibilité n’est pas stratégique. Voici pourquoi:

  • Architecture de l’information conçue pour servir des intérêts économiques et culturels spécifiques.
  • Aucun contrôle sur le développement de la base de connaissances.
  • Uniformité de la présentation de l’information, quel que soit le pays ou la culture.
  • Modèle et vocabulaire descriptifs simples, mais adaptés à des offres commerciales (une bibliothèque publique est une entreprise locale).
  • Le moteur de recherche n’utilise que certains éléments du vocabulaire Schema.org et modifie son traitement des balises au gré de ses objectifs commerciaux (voir ce billet sur les mythes et réalité de la découvrabilité).

Des données pour générer de la connaissance

Les plans de marketing et de promotion ont des effets à court terme, mais ponctuels, sur la découverte. Cependant, nous devons parallèlement développer les expertises nécessaires pour concevoir de nouveaux systèmes de mise en valeur des offres culturelles et de recommandation qui répondent à nos propres objectifs. Ne pas également prioriser cette avenue, c’est accumuler une dette numérique et  accroître notre dépendance envers les plateformes et tout promoteur de solution.

Comme je l’ai souligné en conclusion d’un billet rédigé lors de recherches sur la découvrabilité et la « knowledge card » de Google, « , apprendre à documenter des contenus sous  forme de données est  une étape  vers le dévelopement de « nos propres outils de découverte, de recommandation et de reconnaissance de ceux qui ont contribué à la création et à la production d’œuvres. »

Pour cela, il faut élaborer collectivement nos propres stratégies pour faire connaître le contenu de répertoires et  rejoindre de nouveaux publics. Nous serions, alors, en mesure de concevoir des moyens  non intrusifs pour collecter l’information qui permet de comprendre la consommation culturelle.

Adopter une méthode de travail pour une réflexion stratégique

Concevoir et réaliser des projets autour de données liées (ouvertes ou non) demande un long temps de réflexion et d’échanges de connaissances entre des acteurs qui ont des perspectives différentes. L’initiative de la Cinémathèque québécoise peut être citée comme un excellent exemple de transformation organisationnelle par l’adoption d’une nouvelle méthode de travail.  Marina Gallet pilote ce projet qui vise à formaliser les savoirs communs du cinéma en données ouvertes et liées.  Elle a gracieusement partagé cette expérience lors de la dernière édition du Colloque sur le web sémantique.

Représentation de la diversité culturelle et linguistique

Il existe de nombreuses façons de décrire les oeuvres d’un album de musique ou un spectacle de danse. Pour représenter ces descriptions sous forme de données, il existe des modèles et vocabulaires pour différentes missions et utilisateurs.  Une part grandissante de ces vocabulaires est en données ouvertes et liées. Ces descriptions ne sont pas toujours structurées ou conformes aux standards du web, mais leur diversité est essentielle à la richesse de l’information. Il est vital que les vocabulaires utilisés pour décrire des offres et des contenus soient en français pour que la francophonie soit présente dans le web des données et qu’elle soit prise en compte par les systèmes intelligents.

Le Réseau canadien d’information sur le patrimoine annonçait ce printemps, la réalisation de la version française de référentiels en données ouvertes et liées. Philippe Michon, analyse pour le RCIP, explique comment ces référentiels essentiels au patrimoine culturel seront rendus disponibles en données ouvertes et liées.

Recherche augmentée: découverte selon les goût et l’expérience recherchée

Il faut cesser de reproduire des  interfaces et modes d’accès aux répertoires qui sont dépassés. On ne peut cependant améliorer la découverte sans investir le temps et les efforts nécessaires pour sortir de nos vieilles habitudes de conception.

Nos interfaces de recherche sont devenues obsolètes dès l’arrivée du champ unique des premiers moteurs de recherche. Nos stratégies de marketing de contenu pour le référencement de pages web  aident les moteurs de recherche à répondre à des questions, mais  effacent les spécificités en uniformisant l’architecture de l’information.

L’information qui décrit nos productions culturelles et artistiques est trop souvent limitée à des données factuelles. Il faut annoter des descriptions avec des attributs et caractéristiques riches et orientés vers divers publics et usages. Des outils d’analyse et de recommandation peuvent ainsi fournir de l’information ayant une plus grande valeur. Il ne faudrait pas espérer refiler ce travail à des intelligences artificielles: l’indexation automatique ne produira pas nécessairement des métadonnées utiles et pertinentes pour une stratégie de valorisation. De plus, il ne faut pas sous estimer la valeur que l’expérience humaine (éditorialisation, sélection, critique, mise en contexte) apporte à des services qui jouent un rôle prescripteur.

Soutenir le dévelopement de bases de données en graphes

La mise en valeur de répertoires et collections, ainsi que des actifs informationnels (textes, images, sons) d’organisations ne devrait plus reposer sur des bases de données classiques.  Les bases de données en graphes permettent de raisonner sur des données et de générer de la connaissance , en faisant des liens, à l’image de la pensée humaine:

Quelle est le parfum de glace préféré des personnes [qui] dégustent régulièrement des expresso, mais [qui] détestent les choux de Bruxelles ? Une base de donnée Graph peut vous le dire. Comment ? Avec des données de qualité, les bases de données Graph permettent de modéliser les données et de les stocker de la manière dont nous pensons et raisonnons dans le monde réel.

Ceci est tiré d’un bon article de vulgarisation sur les bases de données en graphe.

Choisir des méthodes de travail adaptées aux projets collectifs

Pour qu’un écosystème diversifié de connaissances (multidisciplinaire, multi acteurs) soit durable, il doit reposer sur la distribution des fonctions de production et de réutilisation des données entre des partenaires.  Il faut aussi réunir des initiatives collectives dans une démarche où le développement de connaissances et l’expérimentation ne sont pas relégués au second plan par des intérêts individuels ou commerciaux. Enfin, il faut élaborer et adopter de nouvelles méthodes de travail pour des projets collectifs.

Je reviendrai bientôt sur les éléments nécessaire pour la gestion participative d’une base de connaissances commune.

Architectures et bases de connaissances

Définir les finalités et les modalités des projets de liage de données est un long cheminement qui demande des apprentissages, des efforts concertés et du temps. Nos programmes devraient  être revus.  Mettre en place les conditions de réussite d’un projet collectif est un projet en soi. Il faut tenir compte d’un cadre de formation, d’une nouvelle méthode de travail et d’une progression dans la durée. Exiger des résultats à court terme oriente les projets vers des « solutions » et laisse peu de place à la remise en question des habitudes.

Nos initiatives doivent être conjuguées pour élaborer une architecture commune  de la connaissance.  Parce qu’elle sort du cadre de nos actions habituelles, c’est une avenue qui offre plus de potentiel, à plusieurs titres, que des stratégies de visibilité et de marketing.

Découvrabilité: mythes et réalité

Mise à jour 2019-05-24: ajout d’une question et sa référence, en conclusion.

La recherche du Graal de la découvrabilité, ce moyen qui accroîtra la «consommation» de nos produits culturels, peut-elle nous faire tomber dans le piège de la solution technologique qui nous fait oublier le problème ?

Solution simple et problématique complexe

Appelé « solutionnisme »  par l’historien des sciences Evgeny Morozov, c’est la proposition d’une solution technologique à un problème d’origine complexe. Ceci a pour effet d’escamoter les débats qui sont essentiels à la recherche de solutions pour le bien commun.

Moins de quatre ans se sont écoulés depuis le sommet qui a propulsé le terme « découvrabilité » jusque dans les hautes sphères décisionnelles, en culture. Depuis lors, des événements et programmes de financement de la culture ont intégré cette thématique ou certains de ces éléments les plus emblématiques, comme les métadonnées.

Je réalise, depuis quelques années, des ateliers sur la découvrabilité et les métadonnées, avec les Fonds Bell et Fonds indépendant de production. Une collaboration avec Marie-Ève Berlinger apporte à ma démarche exploratoire la dimension stratégique de la promotion numérique. C’est dans ce contexte que nous avions échangé sur les mythes de la découvrabilité, au cours du Forum avantage numérique.

Voici quelques constats qui se rapportent aux mythes qui sont spécifiques à la production de métadonnées pour les moteurs de recherche.

La découvrabilité n’est pas une finalité

La finalité d’un plan de découvrabilité est le fruit d’une réflexion stratégique. Celui-ci fournit les questions, le contexte et le cadre sans lesquels la découvrabilité n’aurait pas d’autre objectif que de fournir des données à un moteur de recherche. Ce sont les activités de marketing et de promotion qui produisent des résultats mesurables.

L’exploitation des métadonnées par les moteurs de recherche n’est qu’un des piliers de la découvrabilité. Cette approche a été illustrée dansle cadre d’un projet auquel je collabore, avec Véronique Marino et Andrée Harvey (La Cogency).

Illustration des 4 piliers de la découvrabilité, par LaCogency
Illustration tirée d’un projet de découvrabilité numérique de LaCogency.

Il est surprenant de constater que la stratégie et les moyens techniques ne sont pas intimement intégrés dans des projets numériques. Il y a une importante mise à jour des connaissances conceptuelles et techniques à opérer au sein des agences qui conseillent et accompagnent les organismes et entreprises.

La réponse n’est pas une page web

La fiche d’information qui constitue la réponse du moteur de recherche (à la droite de la liste de résultats) n’a pas pour objectif de diriger l’utilisateur vers une page web spécifique. Elle rassemble différents éléments d’information afin de fournir la réponse la plus précise possible. Il faut donc sortir de la logique de la liste de résultats et ne pas penser l’usage des métadonnées en fonction d’une destination.

Les liens entre les éléments d’information qui composent la fiche de réponse construisent des parcours qui orientent la recherche de l’utilisateur, sans nécessairement aboutir sur un site web. Par exemple, chercher une oeuvre de VanGogh, comme la Nuit étoilée, permet de mesurer la distance et les clics qui nous séparent du site web du Museum of Modern Art.

Ceci accroît la collecte des données d’usage qui permettent d’analyser l’intention, le comportement et la consommation de l’utilisateur. Plus les fonctions et choix offerts sont utiles, plus l’utilisateur demeure dans l’interface du moteur de recherche. Les agrégateurs d’information, qui font face à la désintermédiation de leur services, constateront probablement une diminution progressive du volume de données qui sont collectées sur leurs pages.

L’effet des métadonnées est dans la durée

Les résultats de l’utilisation de métadonnées pour décrire des contenus ne sont pas mesurables, au sens strict.

La qualité de l’encodage des métadonnées peut être validée, mais l’outil de test ne peut juger la logique de la description (interprétation des balises uniquement). Une validation que peu de producteurs de métadonnées semblent se donner la peine de faire. Il est également possible d’attribuer un indice de découvrabilité à  une information en fonction de critères spécifiques.

L’effet des métadonnées peut être observé sur un temps long. L’enrichissement progressif de la fiche de réponse illustre le potentiel qu’a une offre d’être liée par le moteur de recherche à d’autres informations. Il n’est pas possible de fournir des résulats immédiats et quantifiables, de façon similaire aux stratégies de référencement organique et payant de pages web.

Schema.org n’est pas le moteur de recherche

Schema est un vocabulaire commun de métadonnées qui a été développé pour les moteurs de recherche. Google recommande l’intégration des métadonnées sous forme de balises dans le code HTML d’une page afin de décrire l’offre qui y est présente. Cependant, les règles de l’algorithme évoluent au fil des expérimentations du moteur de recherche. Les métadonnées Schema qui étaient recommandées pour décrire des offres de type Movie, TVSeries et Music existent toujours. Cependant, Google n’en recommande plus l’usage et invite les entreprises concernées à faire une demande pour devenir des partenaires médias. Jusqu’où, alors, faut-il investir pour indexer une offre si le fonctionnement de l’algorithme et l’évolution du moteur de recherche nous sont inconnus ?

Une réflexion stratégique est nécessaire pour répondre à cette question. Deux avenues s’ouvrent:

1. Rendre des offres interprétables pour les moteurs de recherche (indexation) et appuyer la stratégie de référencement du site

  • Fournir uniquement les métadonnées Schema qui sont obligatoirement requises par le moteur de recherche. Ceci fait partie des bonnes pratiques du développement de sites web.
  • Tout comme pour le référencement, il est important d’assurer une veille sur l’évolution des fonctions analytiques et techniques des moteurs de recherche.

2. Valoriser les éléments d’un catalogue ou d’une collection en produisant un graphe de données liées

  • Fournir des métadonnées très riches selon le vocabulaire Schema.
  • Prévoir un important travail de modélisation (de préférence, par une personne compétente) afin de mettre en valeur des attributs et des liens, en travaillant sur les propriétés et les niveaux hiérarchiques.

Enjeux d’importance pour une stratégie numérique:

  • Aucun résultat garanti sur le traitement des métadonnées par le moteur de recherche. Ceci ne doit donc pas être l’unique objectif d’un tel projet.
  • Vocabulaire et modèle de représentation uniques: uniformisation de la représentation répondant aux objectifs d’affaires des moteurs de recherche.

Précision 2019-05-25: ce billet concerne uniquement le langage de balisage pour moteurs de recherche (métadonnées Schema) et non la représentation des connaissances avec les standards du web sémantique.

Pas de solution, mais quelques questions

L’uniformisation des modèles descriptifs est-elle un risque pour la diversité culturelle ?

La problématique de la «consommation culturelle» ne devrait-elle pas être abordée dans les deux sens ? En orientant nos projets sur la promotion,  nous oublions la relation au public et l’analyse de ce qui rend une oeuvre de création attractive. Ce rapport sur les pratiques culturelles numériques et plateformes participatives, piloté par la chercheuse Nathalie Casemajor, contient des pistes de réflexion à ne pas négliger, dont cellec-ci:

Les efforts de découvrabilité ne suffisent pas à eux seuls à créer l’appétence culturelle, et l’analyse des données consommatoires et comportementales n’est pas la panacée pour agir sur le développement des goûts et des dispositions culturelles en amont.

Nous devrions nous donner des moyens pour définir les modalités et conditions de la découvrabilité que nous souhaitons. Celles-ce se trouvent quelque part, entre le monde vu par une entreprise et celui que nous voyons au travers du prisme de nos cultures et sensibilités, d’une part,  et, d’autre part, entre lier des données pour un objectif de marketing et faire du lien social autour d’objectifs communs.

Moteur de recherche et désintermédiation

Il est possible de passer quelques heures, sur le web, à écouter de la musique et à croiser des artistes, connus et inconnus, en suivant des liens tissés par un algorithme. Et cela, sans quitter l’interface du moteur de recherche.

Désintermédiation des services d’information

Le moteur de rechercher devient une interface qui impose aux utilisateurs sa vision du monde, son algorithme, son modèle de classification et son régime de vérité: la popularité. Une uniformisation de la structure de l’information et des fonctions proposées qui efface la diversité des modèles et des expressions.

Service et application Google Voyages

Avec l’intégration de Google Voyages, grâce aux données collectées auprès des utilisateurs, il connaîtra les intérêts et comportements des voyageurs beaucoup mieux que les organisations touristiques locales et deviendra un partenaire priviliégé des entreprises touristiques. Celles-ci fournissent déjà, par le biais de Google Mon entreprise, les métadonnées qui permettent de lier et classifier les données, en mode hyperlocal. Face à une très probable désintermédiation, les associations touristiques devront mettre l’accent sur une organisation de l’information et des expériences que le moteur ne propose pas.

Nul doute que  cette nouveauté accroîtra l’intérêt pour les technologies de liage de données, tel que cette conférence sur les graphes de données, dans le domaine du tourisme.

Web sémantique: de choc culturel à transformation numérique

 

Transformation numérique: de réseau centralisé à décentralisé, puis distribué.
Par Aleixmateuc [CC BY-SA 4.0 (https://creativecommons.org/licenses/by-sa/4.0)], de Wikimedia Commons
On ne passe pas des silos de bases de données classiques aux graphes de données liées sans remettre en question des méthodes de travail et des habitudes. Par les changements qu’il entraîne, un premier projet web sémantique constitue un choc culturel, un environnement d’apprentissage et, au final, une véritable transformation numérique pour toute forme d’organisation.

C’est que nous avons pu constater au fil des présentations de la troisième édition du Colloque sur le web sémantique au Québec. Quelle que soit la nature de la problématique, du projet et du secteur d’activité considéré, tous les conférenciers ont fait état de changements nécessaires pour profiter des avantages du web de données.

Ces changements se manifestent à plusieurs niveaux: technologique, organisationnel, culturel, professionnel et structurel.

De fragmentation à intégration

Changement technologique – Le web sémantique permet de fournir des solutions aux problèmes d’interopérabilité des systèmes en affranchissant les données des environnements matériels et logiciels ne favorisant pas les interconnexions. Il devient donc essentiel, pour les professionnels de l’informatique, de se familiariser avec les graphes de données liées et d’adopter des standards ouverts qui permettent de sortir les données des silos des bases de données classiques. Ces nouvelles connaissances sont nécessaires à l’accompagnement des autres secteurs métiers et à ce que le service informatique contribue à l’élaboration d’une définition partagée des normes, règles et processus pour la qualité des données.

▷ Pour aller plus loin: démonstration très accessible des limites de  la base de données classique et des possibilités qu’offre le graphe de données liées pour le traitement des connaissances, par Gautier Poupeau, architecte de données à l’Institut national de l’audiovisuel (INA), France.

De centralisation à distribution

Changement organisationnel – Un projet de données liées (ou ouvertes et liées) est une démarche interdisciplinaire et collaborative. À l’image du Web, qui ne se développe pas de façon centralisée mais distribuée, la qualité des données devrait être une responsabilité partagée par toutes les fonctions d’une organisation.

Pour avoir des données et métadonnées utiles, il faut améliorer les compétences des personnes qui les produisent par l’apprentissage des bonnes pratiques — comme l’usage de référentiels communs pour catégoriser des documents et l’utilisation d’outils qui favorisent l’accessibilité et le partage de données. Ceci implique également, une maîtrise du cycle de vie des données (création/collecte, traitement, analyse, conservation, accès, réutilisation) par tous les services.

Dans cette même perspective, la résilience et les bons résultats d’un projet de données liées se fondent sur de nouvelles méthodes de travail qui visent la décentralisation des décisions relatives à l’identification des problématiques, à la priorisation des projets et à la proposition de solutions. C’est une étape clé vers l’adoption de systèmes distribués et de modes de direction et d’action plus agiles et plus propices à l’innovation que les structures hiérarchiques.

▷ Pour aller plus loin: conférence de Diane Mercier, docteure en sciences de l’information, sur le web sémantique et la maturité informationnelle de l’organisation (2016). Après une véritable transformation numérique, la prise en charge de la qualité des données n’est plus uniquement du ressort de l’informatique, mais de tous les métiers et la gouvernance des données n’est plus fragmentée, mais globale.

D’uniformisation à harmonisation

Changement culturel – Lorsque différents acteurs internes et externes sont appelés à contribuer à la production de données liées, il n’est pas rare d’assister à une confrontation des savoirs, des perspectives et des vocabulaires utilisés. Pourtant, dans un projet de données liées, plusieurs modèles, standards et vocabulaires peuvent cohabiter dans un même système pour autant que ceux-ci soient conformes aux normes techniques du web sémantique. Il ne s’agit pas d’uniformiser les façons de décrire des ressources, mais de normaliser les référentiels pour les rendre interopérables, la diversité des perspectives venant alors enrichir la connaissance que nous avons de ces ressources.

Il est d’autant plus important d’accueillir cette diversité des pratiques descriptives que, dans divers domaines allant de la muséologie aux administrations publiques, nous sommes amenés à prendre conscience des biais culturels véhiculés par les différents modèles de représentation et de classification en usage au sein des organisations.

▷ Pour aller plus loin: exemple d’ONOMA, un projet du Ministère de la Culture et de la Communication (France) visant à lier les différents référentiels qui décrivent des auteurs, créateurs, producteurs et personnalités intervenant dans le cycle de vie d’un bien culturel. Une démarche d’harmonisation similaire peut être mise en œuvre dans bien d’autres domaines.

De technocentrisme à interdisciplinarité

Changement professionnel – Comment des spécialistes des TI et des sciences de la donnée peuvent-ils travailler sur le traitement de la connaissance d’un domaine hors de leur champ de compétences? Un projet web sémantique comporte des défis de nature technique et conceptuelle pour lesquelles il est impératif de rassembler une diversité de perspectives et d’expertises. Notamment, en ce qui a trait à l’organisation et au traitement de l’information, comme l’indexation de documents, la modélisation des connaissances ou la linguistique.

▷ Pour aller plus loin: billet de Fred Cavazza, spécialiste des transformations numériques, sur le rôle central des experts métiers dans des projets de traitement de données, dont des systèmes d’intelligence artificielle.

Du court terme au long terme

Changement structurel – Les programmes qui soutiennent organismes et secteurs d’activité sont généralement orientés vers l’atteinte de résultats à court terme. Or, il ne faut pas attendre de résultats immédiats de projet de données liées. Il y a donc peu d’incitatifs, pour les organisations, à réaliser des projets leur permettant d’entrer dans l’économie de la connaissance. Pour ce faire, il faut adapter les politiques et programmes afin d’encourager les investissements à moyen et long termes. Ceux-ci donneront lieu à des initiatives telles que des preuves de concept ou des prototypes, préalables nécessaires de projets plus ambitieux.

▷ En résumé – Le web sémantique ne constitue pas uniquement une évolution technologique mais avant tout une transformation profonde des modes de gestion de l’information et de gouvernance des données. Il nécessite la mise en place de nouvelles façons de travailler, tant pour la décentralisation des prises de décision que pour l’abolition des silos informationnels et la mise en commun de l’information.

Transformation pour un monde numérique

Le web sémantique nous amène à envisager le numérique comme un écosystème d’acteurs métiers et de moyens technologiques interdépendants. Contrairement aux projets informatiques « traditionnels », il nécessite l’aménagement d’un environnement d’apprentissage collaboratif et de conversations transversales dans l’organisation. Sa finalité est de faire émerger l’intelligence collective permettant de produire de la connaissance et non de développer des systèmes.

Données ouvertes et liées: le web comme base de données

Les données ouvertes et liées (linked open data) sont au cœur des grands projets numériques en culture et leur potentiel va bien au-delà de l’amélioration de la découvrabilité de contenus.

Un web plus intelligent

En 2001,  une décennie après avoir inventé une façon de partager des documents en réseau  (World Wide Web), Tim Berners-Lee propose de renforcer cet espace de collaboration en rendant des données plus facilement utilisables et interprétables par des machines.  Il décrit, dans un article, les objectifs et éléments du web sémantique.  Selon cette extension du web, des données qui sont structurées (par exemple, les métadonnées d’un catalogue de films) peuvent être partagées et réutilisées, indépendamment des enjeux d’interopérabilité technologiques, systémiques et même linguistiques.  D’abord, une mise en contexte sur cette évolution du web qui est également appelée « web de données ».

De stockage centralisé à diffusion décentralisée

La base de données n’est pas conçue pour être interopérable avec toutes les autres bases de données. C’est un mode de gestion centralisée qui date d’avant le web, ses standards et la décentralisation de l’information.  Chaque base de données a une structure et des identifiants qui lui sont spécifiques. De plus, les relations entre les données sont induites, c’est à dire qu’elles ne sont pas exprimées sous forme de données mais par la structure de la base.  Emmagasinées dans une base de données, elle sont donc inaccessibles et difficilement interprétables par des logiciels.  C’est pourquoi, pour que ces données puissent être réutilisées et reliées entre elles, il faut qu’elles soient ouvertes et liées.

Données ouvertes  pour être accessibles

La plupart des données ouvertes qui sont à notre disposition, au Québec et au Canada,  sont disponibles selon des licences qui spécifient les conditions de leur réutilisation. Cependant, celles-ci se trouvent dans des silos qui freinent leur exploitation. Il n’y a pas de structure, de métadonnées et de formats communs entre les jeux de données. Il est donc impossible, pour un agent automatisé, comme une application de recherche, de trouver, parmi les fichiers, les données qui fournissent l’information recherchée.  Il convient alors de les publier « dans le web » sous forme de données liées pour ne pas laisser d’autres sources d’information ou d’autres contenus culturels répondre aux intentions des internautes.

Données ouvertes et liées pour être référencées dans le web

Des données liées sont des données qui sont intelligibles dans un format compréhensible par des machines.  De manière similaire à une page web, on publie une donnée dans le web en lui donnant une adresse ou URI (Uniform Resource Identifier) selon le même protocole de transmission (HTTP). Grâce aux URI qui les identifient, les données ouvertes sont référencées sur le web.  À l’aide des ressources qui sont décrites par les URI, le web sémantique « met en place deux notions très importantes, soit (1) référer à des concepts (et non pas du texte) et (2) faire des liens entre ces concepts. »  Cette distinction entre les recherches navigationnelle (mots clés) et informationnelle (concepts) se trouve dans une très éclairante initiation au web sémantique rédigée par Caroline Barrière, chercheuse en traitement automatique des langues.

C’est en faisant des liens vers ces ressources , à partir de nos propres données, qui sont elles-mêmes sous forme d’URI, que nous créons des réseaux de données. Ces réseaux permettent à notre culture d’être référencée, trouvée et réutilisée.  En voici un exemple:

Croiser Robert Lepage, François Dompierre et Dominique Michel à la Bibliothèque nationale de France

La mise « dans le web » des données de la Bibliothèque nationale de France a débuté en 2011. C’est un des projets de données ouvertes et liées qui sont soutenus par l’État français, conformément à la Feuille de route stratégique sur les métadonnées culturelles.

Auteurs liées à Laurie Anderson dans data.bnf.fr, les données ouvertes et liées des collections de la Bibliothèque nationale de France.
Auteurs liées à Laurie Anderson dans data.bnf.fr, les données ouvertes et liées des collections de la Bibliothèque nationale de France.

La version web sémantique de la Bibliothèque nationale de France fournit de l’information beaucoup plus utile qu’une liste de documents correspondant aux mots recherchés: un nouveau mode d’accès à la connaissance. Grâce à ses données ouvertes et liées, la BnF rend visible les relations entre des ressources, des personnes et des activités.

C’est ainsi  qu’une recherche sur la compositrice et plasticienne Laurie Anderson nous fait naviguer de la musique au cinéma, en passant par les arts de la scène. En suivant les liens des contributions communes avec d’autres auteurs, on croise Yves Jacques et Robert Lepage (La face cachée de la lune). Et chez Robert Lepage, on peut voir les liens pointant vers les oeuvres qui ont influencé sa création, croiser Denys Arcand et jeter un coup sur une partie de sa filmographie pour découvrir les oeuvres du compositeur François Dompierre et une partie de la carrière de l’actrice Dominique Michel.

Dommage qu’il y ait si peu d’images libres de droits pour mieux représenter les personnes et les créations qui font notre culture. Il faudrait prendre l’habitude de contribuer à Wikimedia Commons, la base de données multimédia à laquelle s’alimentent des projets comme celui de BnF.

Connaissance augmentée et distribuée

Nous pouvons accroître la découvrabilité de notre culture de façon pérenne et innovante. Il est également possible d’étendre la connaissance que nous avons de nos propres ressources en liant nos données entre elles. Nous pourrions alors l’enrichir par des liens vers d’autres sources de données ouvertes et liées qui contiennent de l’information à propos de notre culture et de notre patrimoine, comme BnF, Digital Public Library of  America, MusicBrainz ou VIAF.

Ce ne sont pas les moyens qui manquent pour commencer à expérimenter de nouvelles manières de valoriser des données culturelles.  Un de ces moyens est, par exemple,  le téléversement des données dans Wikidata.

Mais, face à la complexité des enjeux techniques des métadonnées (pour preuve: cette typologie des métadonnées pour le patrimoine culturel), il manque une vision d’ensemble des parcours possibles.  Pour cela, il faut rassembler les compétences informationnelles et technologiques nécessaires pour aider des organismes ou des initiatives collectives à faire des choix afin de démarrer des projets rapidement.

Pourrait-on rêver d’un regroupement interdisciplinaire sur les données ouvertes et liées pour accompagner les démarches et projets dans le secteur culturel ?

Données liées et recommandation

I want AI-driven products to come with questions, suggestions or answers I wouldn’t have thought of.

Design Principles for AI-driven UX, Joël Van Bodegraven

Vers le métaweb. Matrice du niveau de connectivité sociale et informationnelle de Nova Spivack

Le web sémantique est cette évolution du web dont une des formes est l’utilisation d’un modèles de données structurées par des moteurs de recherche comme Google. Faire des relations sémantiques entre des données, à l’aide de métadonnées, facilite le raisonnement automatisé sur des inférences. Le web sémantique favorise la découvrabilité, mais permet surtout de repousser les limites que sont nos modèles de pensée et nos systèmes actuels.

Il est essentiel d’améliorer nos systèmes d’information et nos processus et d’adopter les meilleures pratiques du web des données  (diapos à visionner absolument) pour produire des données facilement exploitables.

Données structurées, données ouvertes et liées: est-ce la même chose ?

Données structurées et données ouvertes et liées sont des expressions dont l’usage indifférencié peut nuire à la prise de décisions qui ont une grande importance pour la réussite d’un projet dans le domaine culturel. Par données structurées , on fait ici référence à la technique d’indexation préconisée par Google (structured data). Ces expressions désignent deux manières différentes de travailler dans le web des données. Ce billet concerne les modèles de données et outils proposés afin de documenter des ressources pour les moteurs de recherche.

Un autre billet abordera les avantages spécifiques des données ouvertes et liées.

Guide des données structurées de Google pour documenter des livres.
Guide des données structurées de Google pour documenter des livres.

Google et le web sémantique

En 2013, Google effectue un des plus importants changements sur son algorithme de recherche en plus d’une décennie.

Baptisée Hummingbird , la nouvelle mouture s’appuie sur le sens et le contexte plutôt que sur la pondération de mots clés. Elle fait également appel à un savoir encyclopédique qui est organisé comme un graphe de connaissances et qui est constitué en grande partie à partir de Freebase, une base de données structurées collaborative, acquise par Google. Cette masse de données, appelée Knowledge Graph, permet de à l’algorithme de classer l’information et, de ce fait, de savoir à quelles autres informations elle est liée. C’est une logique similaire à celle de Wikipédia, où chaque article comporte plusieurs liens internes et externes.

La nouvelle version de l’algorithme peut donc effectuer des recherches en mode « conversationnel » (Où faire réparer mon téléphone?) et, surtout, améliorer les résultats de recherche grâce aux concepts du web sémantique: des métadonnées qui donnent le sens des données et qui permettent de faire des liens qui produisent de l’information. En comprenant le sens et le contexte de la demande, il devient possible, pour le moteur de recherche, de mieux interpréter l’intention de l’individu qui la transmet.

De la liste de pages web aux résultats enrichis

Depuis, la recherche de (méta)données qui font du sens prend progressivement le pas sur la recherche de mots clés. C’est une transition que l’on peut très facilement constater sur nos écrans mobiles. Nous passons donc d’une liste de pages qui comportent les mots clés recherchés à une agrégation d’informations qui résulte de liens entre des données structurées.

Il y a toujours une recherche de pages, mais ce sont les données qui décrivent des « ressources » (personnes, choses, concepts) qui sont désormais importantes. Au web documentaire, celui où l’information est présentée métaphoriquement en pages, s’ajoute le web des données, celui où toute connaissance est de la donnée qui peut être collectée et traitée par des machines. Celles des moteurs de recherche et celles de toute entité qui souhaite s’en servir pour développer un service ou un produit qui aurait de la valeur.

Schema: représentation pour moteurs de recherche

Les données structurées sont exprimées selon un modèle de métadonnées qui a été conçu par un regroupement de moteurs de recherche (Google, Bing, Yahoo! et le russe, Yandex). Ces données sont publiées dans le code HTML des pages où sont présentées les ressources qu’elles décrivent. Ces données sont publiques, mais pas ouvertes. Mais ce sont cependant des données liées puisque le modèle Schema permet de produire des triplets (symphonie pour un homme seul (sujet) – est de type (prédicat)- électroacoustique (objet)). Quelques exemples sont présentés dans un billet précédent l’usage de données structurées par Google. Le rôle des données structurées et des liens vers Wikipédia est expliqué plus en détail dans un guide sur la documentation des contenus produit pour le Fonds indépendant de production, avec la collaboration de TV5.ca et l’appui de la SODEC.

Apprendre à documenter: une étape nécessaire

Alors, documenter une ressource à l’aide de données structurées, en intégrant celles-ci dans la page web de la ressource, est-ce « travailler pour Google » ?

Oui, bien sûr. Mais, ce n’est qu’un premier pas dans l’apprentissage pratique du rôle clé des données dans une économie numérique. Mais s’en tenir à cette étape, c’est conformer notre représentation de la culture à un modèle de représentation et à des impératifs d’affaires qui sont hors de notre contrôle et qui ne répondent à des impératifs économiques qui avantagent la plateforme.

Ne pas dépendre d’entreprises qui se placent au-dessus des lois et des États est un des enjeux qui motivent des gouvernements et des institutions à soutenir, par des politiques et des programmes de financement, des projets basés sur les principes et les technologies du web sémantique qu’ils peuvent contrôler. Nous verrons, dans un prochain billet, les opportunités qu’offrent ces technologies pour l’innovation et la promotion de la culture.