Archives par mot-clé : une

Données ouvertes et liées: le web comme base de données

Les données ouvertes et liées (linked open data) sont au cœur des grands projets numériques en culture et leur potentiel va bien au-delà de l’amélioration de la découvrabilité de contenus.

Un web plus intelligent

En 2001,  une décennie après avoir inventé une façon de partager des documents en réseau  (World Wide Web), Tim Berners-Lee propose de renforcer cet espace de collaboration en rendant des données plus facilement utilisables et interprétables par des machines.  Il décrit, dans un article, les objectifs et éléments du web sémantique.  Selon cette extension du web, des données qui sont structurées (par exemple, les métadonnées d’un catalogue de films) peuvent être partagées et réutilisées, indépendamment des enjeux d’interopérabilité technologiques, systémiques et même linguistiques.  D’abord, une mise en contexte sur cette évolution du web qui est également appelée « web de données ».

De stockage centralisé à diffusion décentralisée

La base de données n’est pas conçue pour être interopérable avec toutes les autres bases de données. C’est un mode de gestion centralisée qui date d’avant le web, ses standards et la décentralisation de l’information.  Chaque base de données a une structure et des identifiants qui lui sont spécifiques. De plus, les relations entre les données sont induites, c’est à dire qu’elles ne sont pas exprimées sous forme de données mais par la structure de la base.  Emmagasinées dans une base de données, elle sont donc inaccessibles et difficilement interprétables par des logiciels.  C’est pourquoi, pour que ces données puissent être réutilisées et reliées entre elles, il faut qu’elles soient ouvertes et liées.

Données ouvertes  pour être accessibles

La plupart des données ouvertes qui sont à notre disposition, au Québec et au Canada,  sont disponibles selon des licences qui spécifient les conditions de leur réutilisation. Cependant, celles-ci se trouvent dans des silos qui freinent leur exploitation. Il n’y a pas de structure, de métadonnées et de formats communs entre les jeux de données. Il est donc impossible, pour un agent automatisé, comme une application de recherche, de trouver, parmi les fichiers, les données qui fournissent l’information recherchée.  Il convient alors de les publier « dans le web » sous forme de données liées pour ne pas laisser d’autres sources d’information ou d’autres contenus culturels répondre aux intentions des internautes.

Données ouvertes et liées pour être référencées dans le web

Des données liées sont des données qui sont intelligibles dans un format compréhensible par des machines.  De manière similaire à une page web, on publie une donnée dans le web en lui donnant une adresse ou URI (Uniform Resource Identifier) selon le même protocole de transmission (HTTP). Grâce aux URI qui les identifient, les données ouvertes sont référencées sur le web.  À l’aide des ressources qui sont décrites par les URI, le web sémantique « met en place deux notions très importantes, soit (1) référer à des concepts (et non pas du texte) et (2) faire des liens entre ces concepts. »  Cette distinction entre les recherches navigationnelle (mots clés) et informationnelle (concepts) se trouve dans une très éclairante initiation au web sémantique rédigée par Caroline Barrière, chercheuse en traitement automatique des langues.

C’est en faisant des liens vers ces ressources , à partir de nos propres données, qui sont-elles-mêmes sous forme d’URI, que nous créons des réseaux de données. Ces réseaux permettent à notre culture d’être référencée, trouvée et réutilisée.  En voici un exemple:

Croiser Robert Lepage, François Dompierre et Dominique Michel à la Bibliothèque nationale de France

La mise « dans le web » des données de la Bibliothèque nationale de France a débuté en 2011. C’est un des projets de données ouvertes et liées qui sont soutenus par l’État français, conformément à la Feuille de route stratégique sur les métadonnées culturelles.

Auteurs liées à Laurie Anderson dans data.bnf.fr, les données ouvertes et liées des collections de la Bibliothèque nationale de France.
Auteurs liées à Laurie Anderson dans data.bnf.fr, les données ouvertes et liées des collections de la Bibliothèque nationale de France.

La version web sémantique de la Bibliothèque nationale de France fournit de l’information beaucoup plus utile qu’une liste de documents correspondant aux mots recherchés: un nouveau mode d’accès à la connaissance. Grâce à ses données ouvertes et liées, la BnF rend visible les relations entre des ressources, des personnes et des activités.

C’est ainsi  qu’une recherche sur la compositrice et plasticienne Laurie Anderson nous fait naviguer de la musique au cinéma, en passant par les arts de la scène. En suivant les liens des contributions communes avec d’autres auteurs, on croise Yves Jacques et Robert Lepage (La face cachée de la lune). Et chez Robert Lepage, on peut voir les liens pointant vers les oeuvres qui ont influencé sa création, croiser Denys Arcand et jeter un coup sur une partie de sa filmographie pour découvrir les oeuvres du compositeur François Dompierre et une partie de la carrière de l’actrice Dominique Michel.

Dommage qu’il y ait si peu d’images libres de droits pour mieux représenter les personnes et les créations qui font notre culture. Il faudrait prendre l’habitude de contribuer à Wikimedia Commons, la base de données multimédia à laquelle s’alimentent des projets comme celui de BnF.

Connaissance augmentée et distribuée

Nous pouvons accroître la découvrabilité de notre culture de façon pérenne et innovante. Il est également possible d’étendre la connaissance que nous avons de nos propres ressources en liant nos données entre elles. Nous pourrions alors l’enrichir par des liens vers d’autres sources de données ouvertes et liées qui contiennent de l’information à propos de notre culture et de notre patrimoine, comme BnF, Digital Public Library of  America, MusicBrainz ou VIAF.

Ce ne sont pas les moyens qui manquent pour commencer à expérimenter de nouvelles manières de valoriser des données culturelles.  Un de ces moyens est, par exemple,  le téléversement des données dans Wikidata.

Mais, face à la complexité des enjeux techniques des métadonnées (pour preuve: cette typologie des métadonnées pour le patrimoine culturel), il manque une vision d’ensemble des parcours possibles.  Pour cela, il faut rassembler les compétences informationnelles et technologiques nécessaires pour aider des organismes ou des initiatives collectives à faire des choix afin de démarrer des projets rapidement.

Pourrait-on rêver d’un regroupement interdisciplinaire sur les données ouvertes et liées pour accompagner les démarches et projets dans le secteur culturel ?

Données structurées, données ouvertes et liées: est-ce la même chose ?

Données structurées et données ouvertes et liées sont des expressions dont l’usage indifférencié peut nuire à la prise de décisions qui ont une grande importance pour la réussite d’un projet dans le domaine culturel. Par données structurées , on fait ici référence à la technique d’indexation préconisée par Google (structured data). Ces expressions désignent deux manières différentes de travailler dans le web des données. Ce billet concerne les modèles de données et outils proposés afin de documenter des ressources pour les moteurs de recherche.

Un autre billet abordera les avantages spécifiques des données ouvertes et liées.

Guide des données structurées de Google pour documenter des livres.
Guide des données structurées de Google pour documenter des livres.

Google et le web sémantique

En 2013, Google effectue un des plus importants changements sur son algorithme de recherche en plus d’une décennie.

Baptisée Hummingbird , la nouvelle mouture s’appuie sur le sens et le contexte plutôt que sur la pondération de mots clés. Elle fait également appel à un savoir encyclopédique qui est organisé comme un graphe de connaissances et qui est constitué en grande partie à partir de Freebase, une base de données structurées collaborative, acquise par Google. Cette masse de données, appelée Knowledge Graph, permet de à l’algorithme de classer l’information et, de ce fait, de savoir à quelles autres informations elle est liée. C’est une logique similaire à celle de Wikipédia, où chaque article comporte plusieurs liens internes et externes.

La nouvelle version de l’algorithme peut donc effectuer des recherches en mode « conversationnel » (Où faire réparer mon téléphone?) et, surtout, améliorer les résultats de recherche grâce aux concepts du web sémantique: des métadonnées qui donnent le sens des données et qui permettent de faire des liens qui produisent de l’information. En comprenant le sens et le contexte de la demande, il devient possible, pour le moteur de recherche, de mieux interpréter l’intention de l’individu qui la transmet.

De la liste de pages web aux résultats enrichis

Depuis, la recherche de (méta)données qui font du sens prend progressivement le pas sur la recherche de mots clés. C’est une transition que l’on peut très facilement constater sur nos écrans mobiles. Nous passons donc d’une liste de pages qui comportent les mots clés recherchés à une agrégation d’informations qui résulte de liens entre des données structurées.

Il y a toujours une recherche de pages, mais ce sont les données qui décrivent des « ressources » (personnes, choses, concepts) qui sont désormais importantes. Au web documentaire, celui où l’information est présentée métaphoriquement en pages, s’ajoute le web des données, celui où toute connaissance est de la donnée qui peut être collectée et traitée par des machines. Celles des moteurs de recherche et celles de toute entité qui souhaite s’en servir pour développer un service ou un produit qui aurait de la valeur.

Schema: représentation pour moteurs de recherche

Les données structurées sont exprimées selon un modèle de métadonnées qui a été conçu par un regroupement de moteurs de recherche (Google, Bing, Yahoo! et le russe, Yandex). Ces données sont publiées dans le code HTML des pages où sont présentées les ressources qu’elles décrivent. Ces données sont publiques, mais pas ouvertes. Mais ce sont cependant des données liées puisque le modèle Schema permet de produire des triplets (symphonie pour un homme seul (sujet) – est de type (prédicat)- électroacoustique (objet)). Quelques exemples sont présentés dans un billet précédent l’usage de données structurées par Google. Le rôle des données structurées et des liens vers Wikipédia est expliqué plus en détail dans un guide sur la documentation des contenus produit pour le Fonds indépendant de production, avec la collaboration de TV5.ca et l’appui de la SODEC.

Apprendre à documenter: une étape nécessaire

Alors, documenter une ressource à l’aide de données structurées, en intégrant celles-ci dans la page web de la ressource, est-ce « travailler pour Google » ?

Oui, bien sûr. Mais, ce n’est qu’un premier pas dans l’apprentissage pratique du rôle clé des données dans une économie numérique. Mais s’en tenir à cette étape, c’est conformer notre représentation de la culture à un modèle de représentation et à des impératifs d’affaires qui sont hors de notre contrôle et qui ne répondent à des impératifs économiques qui avantagent la plateforme.

Ne pas dépendre d’entreprises qui se placent au-dessus des lois et des États est un des enjeux qui motivent des gouvernements et des institutions à soutenir, par des politiques et des programmes de financement, des projets basés sur les principes et les technologies du web sémantique qu’ils peuvent contrôler. Nous verrons, dans un prochain billet, les opportunités qu’offrent ces technologies pour l’innovation et la promotion de la culture.

Découvrabilité : quand les écrans ne sont plus nécessaires 

Présentation donnée lors de la clinique d’information du Fonds Bell, le 17 octobre 2017, à la Cinémathèque (Montréal).

Mise à jour (16 février 2018):  Cette présentation accompagnait le lancement du guide Êtes-vous repérables ? Guide pratique pour documenter vos contenus , réalisé pour le Fonds indépendant de production, avec la collaboration de TV5.ca et l’appui de la SODEC .

La découvrabilité qui devrait intéresser plus particulièrement tout créateur et producteur de contenus résulte de la présence, dans le web, de données descriptives qui sont intelligibles et manipulables par des machines. Il ne s’agit pas de campagnes de promotion, ni de référencement de pages web, mais de la documentation de  contenus (textes, images, vidéo, enregistrements sonores et toutes autres types de ressources).  Ces trois types d’activité visent des objectifs spécifiques et complémentaires.

Les changements qui affectent la visibilité et la découvrabilité

La plus grande proportion du trafic sur le web est portée par les petits écrans mobiles.
Graphique: le trafic web est porté par les écrans mobiles

Liens utiles:
Smartphones are driving all growth in web traffic
Search engine market share – Mobile – Canada
Cahier de Tendances N°11 : au delà du mobile, France Télévisions

Les moteurs de recherche s’adaptent aux petits écrans.
Lorsque l’information qui décrit un contenu est disponible dans un format que les moteurs peuvent traiter, la liste des résultats de recherche passe au second plan.

Face à la surabondance d’information et de contenus, la pertinence de la recommandation devient un facteur important de fidélisation.

Google - Résultat de recherche sur téléphone

Recherche vocale et assistants virtuels: l’information sans écran.
Plus de 30 millions d’assistants vocaux dans les foyers, aux États-Unis, d’ici la fin de l’année

Assistants virtuels ou assistants vocaux

Liens utiles:
More than 30 million ‘voice-first’ devices in US homes by year end [Report]
Report: 57% of smart speaker owners have bought something with their voice
Gartner Predicts 30% Of Searches Without A Screen In 4 Years

Ces nouvelles interfaces du web n’ont pas d’écran et ne peuvent dont nous répondre en nous fournissant une liste de résultats.
« Enfin et c’est cela qui pose à mon sens le plus gros problème dès que l’on sort de la seule sphère « commerciale », il y a … « le choix d’Alexa », c’est à dire l’idée que bien sûr Amazon / Alexa ne va pas nous « lire » une série de réponses suite à notre requête mais nous en proposer une seule, mettant naturellement en évidence des produits vendus par la marque hôte.» (La voix et l’ordre, billet d’Olivier Ertzscheid).

Moteurs de réponses et de suggestions
Lorsque les données qui décrivent un contenu sont accessibles, intelligibles et manipulables par des applications, elles peuvent être triées par des algorithmes et liées à d’autres données qui décrivent un même auteur, lieu, création, objet, producteur, etc.  Un contenu peut se trouver sur la parcours d’un internaute des décennies après sa création.

Liens utiles:
Les sites web sont-ils en voie de disparition ?
#DIVERTISSEMENT Les algorithmes vont-ils mettre fin à la tyrannie du choix ?
How Netflix will someday know exactly what you want to watch as soon as you turn your TV on

Les moteurs de recherche comprennent-ils nos contenus?

Les pages web sont faites pour être lues par des humains. Les machines ne comprennent pas le contenu de la page, mais elles peuvent manipuler des données qui s’y trouvent  lorsque celles-ci sont mises en contexte grâce à des métadonnées et sont dans un format qu’elles reconnaissent.

Pour savoir si un moteur de recherche peut faire des liens entre votre websérie et d’autres informations disponibles dans le web, il suffit de chercher celle-ci afin de voir si une fiche d’information est produite.

Validation des données structurées: recherche de la série Carmilla.

Chez Google, la fiche d’information, appelée Knowledge card, est générée grâce à  la mise en contexte des données qui décrivent le contenu avec son modèle de classification des connaissances (Knowledge graph). Ces mêmes données descriptives sont mises en relation avec celles d’autres plateformes comme Wikidata (les données structurées de Wikipédia) et, selon le contexte, avec les données de plateformes spécialisées.

Dans le domaine du cinéma, de la vidéo et de la télévision, nous pouvons retrouver les données issues des agrégateurs IMDb (Internet Movie Database,  propriété d’Amazon), AlloCiné et Rotten Tomatoes. Notez que le contenu de ces plateformes n’est pas produit par une seule organisation, mais par des utilisateurs et/ou des producteurs de contenus.

Ce sont des données structurées qui, chez les moteurs de recherche comme Google et Bing , permettent de faire des liens sémantiques qui fournissent une description succincte ou détaillée  d’un contenu dans une fiche d’information. C’est cette fiche qui tend à occuper un espace de plus en plus important sur nos écrans.

De la même manière qu’il a fourni aux développeurs des instructions pour faciliter le référencement de sites web, Google fournit désormais des instructions et des outils pour encourager la production de données structurées. L’outil de test des données structurées détecte la présence de ces données dans une page web et, le cas échéant,  signale les erreurs à corriger et les améliorations possibles.

Google: validation des données structurées: page d'accueil de Louis-Jean Cormier.

Il est également possible de produire des métadonnées pour décrire un contenu qui est présent dans une page web sans connaître le modèle de métadonnées Schema et sans programmation. L’outil d’aide au balisage des données structurées qui est proposé par Google permet de copier les données qui sont encodées en JSON-LD, un format pour les données liées, et de les coller dans le code HTML de la page web où se trouve le contenu.

Google: outil de balisage de données structurées, page web de Vincent Vallières

Cet outil présente un intérêt supplémentaire: il indique les informations qui devraient apparaître dans la page de présentation d’un contenu. De trop nombreuses pages web où sont présentés des films, spectacles, livres, pièces musicales ou œuvres d’art ne contiennent pas le minimum d’information qui permettrait aux moteurs de recherche de les lier à d’autres informations dans le web.

Plus l’information qui décrit le contenu est détaillée et riche, plus grand est le potentiel de celui-ci d’être lié à d’autres contenus et donc, d’être découvert.

Documenter nos contenus, n’est-ce pas travailler pour Google et cie?

Documenter (ou indexer) un contenu, tout comme faire du référencement de pages web, c’est normaliser et organiser la  représentation de celui-ci.  C’est, effectivement, contribuer à l’amélioration continue des applications et des algorithmes des moteurs de recherche.

Mais c’est également une étape nécessaire pour apprendre à nous servir de nos données et, par la suite, développer nos propres outils de découverte, de recommandation et de reconnaissance de ceux qui ont contribué à la création et à la production  d’œuvres.