Archives par mot-clé : culture

Produire des données : entre outils de marketing et bases de connaissances

La découverte optimisée pour les moteurs de recherche est-elle la  seule solution pour accroître la consommation de contenus culturels locaux ?  Sommes-nous à la recherche de nouveaux outils de marketing ou souhaitons-nous développer des bases de connaissances communes ?  Les résultats attendus à court terme, par nos programmes et partenaires  sectoriels, pèsent sur les choix qui orientent nos actions.

Google, je cherche un bon film à regarder

 

La découverte optimisée pour les moteurs de recherche

Google poursuit son évolution pour devenir notre principale interface d’accès à la connaissance. La tendance zéro clic est une  forme de désintermédiation des répertoires qui est similaire à celle que connaissent les sites des médias. Il y a quelques années que les réseaux de veille prédisent la transition des moteurs de recherche vers des moteurs de réponse.

Alors, est-il stratégique de baliser nos pages web avec des métadonnées (aussi appelées données structurées) pour que des machines comprennent et utilisent nos contenus dans leurs fiches de réponse ?

Améliorer le potentiel d’une information d’être repérée et interprétée par un agent automatisé est une bonne pratique à intégrer dans toute conception web, au même titre que le référencement de site web. Mais se contenter de baliser des pages  pour les seules fins de marketing et de visibilité n’est pas stratégique. Voici pourquoi:

  • Architecture de l’information conçue pour servir des intérêts économiques et culturels spécifiques.
  • Aucun contrôle sur le développement de la base de connaissances.
  • Uniformité de la présentation de l’information, quel que soit le pays ou la culture.
  • Modèle et vocabulaire descriptifs simples, mais adaptés à des offres commerciales (une bibliothèque publique est une entreprise locale).
  • Le moteur de recherche n’utilise que certains éléments du vocabulaire Schema.org et modifie son traitement des balises au gré de ses objectifs commerciaux (voir ce billet sur les mythes et réalité de la découvrabilité).

Des données pour générer de la connaissance

Les plans de marketing et de promotion ont des effets à court terme, mais ponctuels, sur la découverte. Cependant, nous devons parallèlement développer les expertises nécessaires pour concevoir de nouveaux systèmes de mise en valeur des offres culturelles et de recommandation qui répondent à nos propres objectifs. Ne pas également prioriser cette avenue, c’est accumuler une dette numérique et  accroître notre dépendance envers les plateformes et tout promoteur de solution.

Comme je l’ai souligné en conclusion d’un billet rédigé lors de recherches sur la découvrabilité et la « knowledge card » de Google, « , apprendre à documenter des contenus sous  forme de données est  une étape  vers le dévelopement de « nos propres outils de découverte, de recommandation et de reconnaissance de ceux qui ont contribué à la création et à la production d’œuvres. »

Pour cela, il faut élaborer collectivement nos propres stratégies pour faire connaître le contenu de répertoires et  rejoindre de nouveaux publics. Nous serions, alors, en mesure de concevoir des moyens  non intrusifs pour collecter l’information qui permet de comprendre la consommation culturelle.

Adopter une méthode de travail pour une réflexion stratégique

Concevoir et réaliser des projets autour de données liées (ouvertes ou non) demande un long temps de réflexion et d’échanges de connaissances entre des acteurs qui ont des perspectives différentes. L’initiative de la Cinémathèque québécoise peut être citée comme un excellent exemple de transformation organisationnelle par l’adoption d’une nouvelle méthode de travail.  Marina Gallet pilote ce projet qui vise à formaliser les savoirs communs du cinéma en données ouvertes et liées.  Elle a gracieusement partagé cette expérience lors de la dernière édition du Colloque sur le web sémantique.

Représentation de la diversité culturelle et linguistique

Il existe de nombreuses façons de décrire les oeuvres d’un album de musique ou un spectacle de danse. Pour représenter ces descriptions sous forme de données, il existe des modèles et vocabulaires pour différentes missions et utilisateurs.  Une part grandissante de ces vocabulaires est en données ouvertes et liées. Ces descriptions ne sont pas toujours structurées ou conformes aux standards du web, mais leur diversité est essentielle à la richesse de l’information. Il est vital que les vocabulaires utilisés pour décrire des offres et des contenus soient en français pour que la francophonie soit présente dans le web des données et qu’elle soit prise en compte par les systèmes intelligents.

Le Réseau canadien d’information sur le patrimoine annonçait ce printemps, la réalisation de la version française de référentiels en données ouvertes et liées. Philippe Michon, analyse pour le RCIP, explique comment ces référentiels essentiels au patrimoine culturel seront rendus disponibles en données ouvertes et liées.

Recherche augmentée: découverte selon les goût et l’expérience recherchée

Il faut cesser de reproduire des  interfaces et modes d’accès aux répertoires qui sont dépassés. On ne peut cependant améliorer la découverte sans investir le temps et les efforts nécessaires pour sortir de nos vieilles habitudes de conception.

Nos interfaces de recherche sont devenues obsolètes dès l’arrivée du champ unique des premiers moteurs de recherche. Nos stratégies de marketing de contenu pour le référencement de pages web  aident les moteurs de recherche à répondre à des questions, mais  effacent les spécificités en uniformisant l’architecture de l’information.

L’information qui décrit nos productions culturelles et artistiques est trop souvent limitée à des données factuelles. Il faut annoter des descriptions avec des attributs et caractéristiques riches et orientés vers divers publics et usages. Des outils d’analyse et de recommandation peuvent ainsi fournir de l’information ayant une plus grande valeur. Il ne faudrait pas espérer refiler ce travail à des intelligences artificielles: l’indexation automatique ne produira pas nécessairement des métadonnées utiles et pertinentes pour une stratégie de valorisation. De plus, il ne faut pas sous estimer la valeur que l’expérience humaine (éditorialisation, sélection, critique, mise en contexte) apporte à des services qui jouent un rôle prescripteur.

Soutenir le dévelopement de bases de données en graphes

La mise en valeur de répertoires et collections, ainsi que des actifs informationnels (textes, images, sons) d’organisations ne devrait plus reposer sur des bases de données classiques.  Les bases de données en graphes permettent de raisonner sur des données et de générer de la connaissance , en faisant des liens, à l’image de la pensée humaine:

Quelle est le parfum de glace préféré des personnes [qui] dégustent régulièrement des expresso, mais [qui] détestent les choux de Bruxelles ? Une base de donnée Graph peut vous le dire. Comment ? Avec des données de qualité, les bases de données Graph permettent de modéliser les données et de les stocker de la manière dont nous pensons et raisonnons dans le monde réel.

Ceci est tiré d’un bon article de vulgarisation sur les bases de données en graphe.

Choisir des méthodes de travail adaptées aux projets collectifs

Pour qu’un écosystème diversifié de connaissances (multidisciplinaire, multi acteurs) soit durable, il doit reposer sur la distribution des fonctions de production et de réutilisation des données entre des partenaires.  Il faut aussi réunir des initiatives collectives dans une démarche où le développement de connaissances et l’expérimentation ne sont pas relégués au second plan par des intérêts individuels ou commerciaux. Enfin, il faut élaborer et adopter de nouvelles méthodes de travail pour des projets collectifs.

Je reviendrai bientôt sur les éléments nécessaire pour la gestion participative d’une base de connaissances commune.

Architectures et bases de connaissances

Définir les finalités et les modalités des projets de liage de données est un long cheminement qui demande des apprentissages, des efforts concertés et du temps. Nos programmes devraient  être revus.  Mettre en place les conditions de réussite d’un projet collectif est un projet en soi. Il faut tenir compte d’un cadre de formation, d’une nouvelle méthode de travail et d’une progression dans la durée. Exiger des résultats à court terme oriente les projets vers des « solutions » et laisse peu de place à la remise en question des habitudes.

Nos initiatives doivent être conjuguées pour élaborer une architecture commune  de la connaissance.  Parce qu’elle sort du cadre de nos actions habituelles, c’est une avenue qui offre plus de potentiel, à plusieurs titres, que des stratégies de visibilité et de marketing.

Solution technologique pour problématiques complexes

Lego Color Bricks par Alan Chia
Alan Chia [CC BY-SA 2.0], Wikimedia Commons
Imiter des géants de l’économie numérique en développant une plateforme peut-il apporter des solutions aux problématiques complexes de la diffusion de contenus francophones dans une industrie traversée par de profonds changements ?

Tout récemment, une solution simple à une problématique complexe a refait surface dans le milieu culturel canadien.

Ottawa investi 14,6 millions dans une nouvelle plateforme de diffusion de contenus francophones, Le Devoir, 7 août 2019.

Mettre en avant une « solution » technologique permet trop souvent d’éviter d’épineux questionnements. Cependant, alors que les règles du jeu et les usages changent, nous ne devrions pas nous soustraire à un examen des conditions de création et de production qui sont soutenues par nos législations et programmes. Nous finissons par maintenir, tant bien que mal, des modèles qui fonctionnent de moins en moins.

Ce ne sont pas des plateformes numériques qui ont permis à Netflix et compagnie de bouleverser l’industrie. C’est d’avoir compris le potentiel du Web et pensé autrement l’accès, la distribution et la production de contenus audiovisuels, en osant remettre en question les modèles établis. Revoir des modèles et des programmes qui demeurent encore très « télévision » demande évidemment beaucoup d’ouverture, de courage et de vision, mais il faut espérer que ce soit encore possible.

Une proposition de plateforme de diffusion de contenus culturels québécois, avait émergée, en 2017.  En évitant de remettre en question les façons de faire, ce type de projet ne fait que reporter les nécessaires adaptations qu’une industrie doit entreprendre pour durer et prospérer.

Il semble que nous ayons encore beaucoup de difficulté à appréhender les problématiques de la production et de la consommation de contenus culturels dans un monde numérique. Ne serait-il pas temps d’adopter, pour les analyser,  d’autres méthodes que celles qui nous font tomber le piège des solutions simplistes ?

Données d’usage et usage des données: une étude et un souhait

Comment encadrer l’exploitation des données des internautes canadiens sur les plateformes de diffusion de contenus culturels alors que nous peinons à comprendre leur fonctionnement ?

Comprendre ce qu’il se passe

À titre d’exemple,  contrairement à une idée reçue, ce ne sont pas nos données qui ont le plus de valeur, c’est ce qu’en font les plateformes. L’analyse des données issues de nos interactions sociales et de notre utilisation des contenus leur permet de faire du ciblage comportemental et tout en développant une meilleure compréhension des produits et services à concevoir. Plus les données qui décrivent des contenus sont riches et détaillées, plus il devient alors possible d’identifier des caractéristiques susceptibles d’expliquer la relation entre l’utilisateur et le contenu. Pour cette raison, le croisement des données personnelles d’acheteurs de billets de spectacle avec une description d’offre limitée à un titre et une catégorie apportera peu d’éclairage sur les goûts, la motivation ou l’expérience recherchée.

Croisement de données descriptives et données d'usage.

C’est donc en pensant au besoin, pour les différents acteurs concernés, de développer une compréhension commune des enjeux que Destiny Tchehouali et moi avons rédigé une étude, commanditée par la Coalition pour la culture et les médias (CCM). Professeur et chercheur en communication internationale, à l’UQAM, Destiny est président du conseil d’administration d’ISOC Québec, organisme dont je fais également partie à titre d’administratrice.

Intitulée « Données d’usage et usage des données à l’ère des plateformes », cette étude à été réalisée dans le contexte de l’examen du cadre législatif de la radiodiffusion et des télécommunications canadiennes. Elle dresse un état des lieux des principaux enjeux et défis liés à l’accès, à l’utilisation et à la gouvernance des données d’usages des plateformes de diffusion culturelle. Pour conclure, nous avons dégagé des pistes de recommandations pour un meilleur encadrement de l’utilisation des données:

  • Souveraineté numérique et responsabilité en matière d’accès et de collecte des données d’intérêt public
  • Concurrence, innovation et accès aux services
  • Neutralité d’Internet
  • Découvrabilité du contenu canadien et promotion de la diversité des expressions culturelles

Mieux apprendre un sujet complexe

Participer à cette étude m’a permis de constater, une fois de plus, la nécessité,  pour tous les acteurs du domaine culturel et tous ceux qui participent à l’élaboration de politiques publiques, de maîtriser des connaissances qui sont fondamentales pour rattraper notre retard numérique. Je ne fais pas référence à des outils et usages qui peuvent être enseignés au cours de sessions d’information. Je fais plutôt le souhait d’un programme avec une approche intégrée des volets stratégiques, technologiques, cognitifs et organisationnels  de l’information dans un monde numérique.

Projets de données: quel impact sur la transition numérique en culture ?

Salle de réunion

Dans la foulée des programmes de financement en culture, rares sont les propositions qui ne s’appuient pas sur la production ou l’exploitation de données. Nous devrions nous réjouir de la multiplication de telles initiatives car elles témoignent de la transformation progressive des modèles de pensée et des usages.

Cependant, deux constats témoignent d’une méconnaissance des conditions techniques et méthodologiques de cette transformation : de nouveaux concepts ne sont pas maîtrisés et la persistance de vieux modèles de gestion bloque la  transformation des organisations.

Voici des types de propositions, autour des données qui, sous certaines conditions, sont les plus susceptibles de favoriser la transition numérique des acteurs et des organismes culturels.

Schema.org: se représenter sous forme de métadonnées

Voici un exemple d’usage de ce que Google appelle « données structurées« . Il s’agit, en  fait, des métadonnées utilisées pour décrire des offres afin qu’elles soient interprétées par des systèmes automatisés. Le site de Patrick Watson,  musicien montréalais, contient les métadonnées décrivant les lieux , dates et salles où il se produit en concert.  Google proposera ses représentations lors de recherches sur l’artiste ou d’une simple question posée au moteur de recherche. Cette semaine, les utilisateurs géolocalisés près de certaines villes européennes se feront proposer des spectacles de M. Watson. Les offres apparaîtront en décembre pour les utilisateurs  du Québec et de l’Ontario.

Cette technique qui vise à améliorer la découvrabilité des offres est, à présent, incontournable. Rater le test des données structurées , pour un événement ou un produit culturel, c’est dépendre uniquement d’activités de promotion pour être proposé à un public. Et c’est également ne pas rentabiliser un investissement dans un site Internet.  Cependant, si celui-ci n’est plus une destination principale pour les internautes, il est un point de référence essentiel pour la validation de l’identité numérique.

Impact: culture de la donnée et identité numérique

Apprendre à indexer une offre (la représenter à l’aide de métadonnées) permet à chacun de développer sa littératie numérique ainsi qu’une culture de la donnée. Une bonne initiative viserait à former et à équiper les acteurs culturels afin qu’ils définissent eux-mêmes les données qui les concernent et qu’ils intègrent cette pratique à leurs processus et stratégies. Confier à d’autres le soin de décider de la façon de se représenter n’est ni formateur et ni stratégique.

Une description d’offres personnalisée et éloquente requiert cependant une bonne connaissance des principes d’indexation et de la structure logique du modèle Schema.org. Ce sont des compétences que des bibliothécaires et spécialistes de la documentation pourraient aider à développer auprès des acteurs du milieu culturel et artistique et des agences web.

Données ouvertes: développer une vision sur les données et leurs usages

Les données ouvertes ne constituent pas une technologie mais un moyen de mise à disposition de données selon des licences d’utilisation spécifiques. Libérer des données est, en soi, un projet auquel on doit accorder les ressources et le temps nécessaires pour produire un jeu de données répondant à des besoins. Les fichiers de données ouvertes peuvent être décrits à l’aide de métadonnées Schema. Ceci ne rend cependant pas  les données qui y sont contenues, accessibles et interprétables par des moteurs de recherche.

Impact: interdisciplinarité et orientation utilisateurs

La libération de données facilite la réutilisation des données de collections, catalogues ou fonds documentaires dans le cadre de la stratégie de visibilité et diffusion d’un organisme culturel. C’est un projet qui peut transformer des pratiques et des processus de façon durable, à la condition d’adopter une nouvelle méthode de travail collaboratif et de gouvernance de données. NordOuvert, un organisme a conçu une trousse d’outils maison pour données ouvertes pour le gouvernement canadien.

Données ouvertes et liées :  capitaliser sur des actifs numériques

Un musée pourrait décrire ses événements pour des moteurs de recherche, avec des métadonnées Schema.org. Mais serait-il pertinent de documenter ainsi tous les éléments d’une collection ? Cette question peut faire débat pour diverses raisons. Le modèle descriptif des moteurs de recherche répond à leurs propres objectifs stratégiques. Le risque encouru est l’effacement de la diversité des perspectives au profit d’un modèle uniforme et d’une certaine vision du monde. Il est également souhaitable, pour un état, de minimiser sa  dépendance à l’un des plus puissants acteurs du numérique pour l’organisation des données de la culture et du patrimoine. C’est pour ces raisons que plusieurs initiatives de données ouvertes et liées ont émergé depuis plusieurs années, à travers le monde.

Le terme « données ouvertes et liées » désigne des données qui sont ouvertes et qui peuvent être  interprétées et liées entre elles par des humains et des machines si elles sont exprimées et publiées selon les standards du web. Faire un projet de données liées est très exigeant, en ressources,  en expertises et, surtout, en temps. Ce sont des activités qui peuvent se dérouler sur plusieurs années afin de s’assurer de la cohérence des modèles de données et des liens.

Impact: responsabilisation et pouvoir d’agir sur les données

Malgré sa complexité, une véritable initiative de données ouvertes et liées peut amener une organisation à passer d’une gestion de projet centralisée à une véritable démarche collaborative, à l’interne et avec des partenaires. La transition numérique repose sur une profonde transformation des modes de gestion de l’information. Une solution issue d’un travail collaboratif a plus de chances de produire des résultats satisfaisants et durables pour tous qu’un projet classique. La production de données devient alors une responsabilité distribuée au sein d’une organisation et, par extension, au sein de son écosystème.

On ne saurait parler de production de données sans mentionner le nombre croissant d’initiatives s’appuyant sur l’infrastructure de Wikidata pour exposer des données ouvertes et liées.  Art Institute of Chicago est une des institutions ayant récemment ajouté les données de ses collections et plus de 52 000 images d’oeuvres en licence Creative Commons 0 (domaine public). Cette institution, comme tant d’autres, sort du périmètre habituel de sa stratégie de développement de publics pour expérimenter d’autres formes de circulation de l’information.

Transition: de projets à initiatives

Une initiative de données structurées, ouvertes ou liées constitue une opportunité pour une véritable transition numérique. Comme l’affirme un chercheur du MIT Media Lab dans un billet sur la nécessité de développer une littératie de la donnée: «You don’t need a data scientist, you need a data culture » :

  • Leadership: priorise et investit dans la collecte, la gestion et l’analyse de données / la production de connaissances.
  • Leadership: priorise une littératie de la donnée créative pour l’ensemble de l’entreprise, et pas seulement pour les technologies de l’information et la statistique.
  • Membres du personnel: encouragés et aidés à accéder aux données de l’organisation, à les combiner et à en tirer des conclusions.
  • Membres du personnel: savent reconnaître les données. Ils proposent des façons créatives pour utiliser les données de l’organisation afin de résoudre des problèmes, prendre des décisions et élaborer des narratifs. (traduction libre)

Ce ne sont donc ni une mise à niveau technologique, ni l’acquisition de nouveaux usages qui opéreront cette transformation.  C’est plutôt l’adoption de nouveaux modes de gestion de l’information: la décentralisation des prises de décision, l’abolition des silos organisationnels et la mise en commun de données. Pour demeurer pertinents dans un contexte numérique, nous ne pouvons faire autrement que d’expérimenter des méthodes collaboratives. Nous pouvons réussir à plusieurs ce qu’il est trop périlleux d’entreprendre individuellement. Soutenir des initiatives de données sans s’engager dans cette voie limiterait considérablement l’impact des investissements en culture.

Données ouvertes et liées: le web comme base de données

Les données ouvertes et liées (linked open data) sont au cœur des grands projets numériques en culture et leur potentiel va bien au-delà de l’amélioration de la découvrabilité de contenus.

Un web plus intelligent

En 2001,  une décennie après avoir inventé une façon de partager des documents en réseau  (World Wide Web), Tim Berners-Lee propose de renforcer cet espace de collaboration en rendant des données plus facilement utilisables et interprétables par des machines.  Il décrit, dans un article, les objectifs et éléments du web sémantique.  Selon cette extension du web, des données qui sont structurées (par exemple, les métadonnées d’un catalogue de films) peuvent être partagées et réutilisées, indépendamment des enjeux d’interopérabilité technologiques, systémiques et même linguistiques.  D’abord, une mise en contexte sur cette évolution du web qui est également appelée « web de données ».

De stockage centralisé à diffusion décentralisée

La base de données n’est pas conçue pour être interopérable avec toutes les autres bases de données. C’est un mode de gestion centralisée qui date d’avant le web, ses standards et la décentralisation de l’information.  Chaque base de données a une structure et des identifiants qui lui sont spécifiques. De plus, les relations entre les données sont induites, c’est à dire qu’elles ne sont pas exprimées sous forme de données mais par la structure de la base.  Emmagasinées dans une base de données, elle sont donc inaccessibles et difficilement interprétables par des logiciels.  C’est pourquoi, pour que ces données puissent être réutilisées et reliées entre elles, il faut qu’elles soient ouvertes et liées.

Données ouvertes  pour être accessibles

La plupart des données ouvertes qui sont à notre disposition, au Québec et au Canada,  sont disponibles selon des licences qui spécifient les conditions de leur réutilisation. Cependant, celles-ci se trouvent dans des silos qui freinent leur exploitation. Il n’y a pas de structure, de métadonnées et de formats communs entre les jeux de données. Il est donc impossible, pour un agent automatisé, comme une application de recherche, de trouver, parmi les fichiers, les données qui fournissent l’information recherchée.  Il convient alors de les publier « dans le web » sous forme de données liées pour ne pas laisser d’autres sources d’information ou d’autres contenus culturels répondre aux intentions des internautes.

Données ouvertes et liées pour être référencées dans le web

Des données liées sont des données qui sont intelligibles dans un format compréhensible par des machines.  De manière similaire à une page web, on publie une donnée dans le web en lui donnant une adresse ou URI (Uniform Resource Identifier) selon le même protocole de transmission (HTTP). Grâce aux URI qui les identifient, les données ouvertes sont référencées sur le web.  À l’aide des ressources qui sont décrites par les URI, le web sémantique « met en place deux notions très importantes, soit (1) référer à des concepts (et non pas du texte) et (2) faire des liens entre ces concepts. »  Cette distinction entre les recherches navigationnelle (mots clés) et informationnelle (concepts) se trouve dans une très éclairante initiation au web sémantique rédigée par Caroline Barrière, chercheuse en traitement automatique des langues.

C’est en faisant des liens vers ces ressources , à partir de nos propres données, qui sont elles-mêmes sous forme d’URI, que nous créons des réseaux de données. Ces réseaux permettent à notre culture d’être référencée, trouvée et réutilisée.  En voici un exemple:

Croiser Robert Lepage, François Dompierre et Dominique Michel à la Bibliothèque nationale de France

La mise « dans le web » des données de la Bibliothèque nationale de France a débuté en 2011. C’est un des projets de données ouvertes et liées qui sont soutenus par l’État français, conformément à la Feuille de route stratégique sur les métadonnées culturelles.

Auteurs liées à Laurie Anderson dans data.bnf.fr, les données ouvertes et liées des collections de la Bibliothèque nationale de France.
Auteurs liées à Laurie Anderson dans data.bnf.fr, les données ouvertes et liées des collections de la Bibliothèque nationale de France.

La version web sémantique de la Bibliothèque nationale de France fournit de l’information beaucoup plus utile qu’une liste de documents correspondant aux mots recherchés: un nouveau mode d’accès à la connaissance. Grâce à ses données ouvertes et liées, la BnF rend visible les relations entre des ressources, des personnes et des activités.

C’est ainsi  qu’une recherche sur la compositrice et plasticienne Laurie Anderson nous fait naviguer de la musique au cinéma, en passant par les arts de la scène. En suivant les liens des contributions communes avec d’autres auteurs, on croise Yves Jacques et Robert Lepage (La face cachée de la lune). Et chez Robert Lepage, on peut voir les liens pointant vers les oeuvres qui ont influencé sa création, croiser Denys Arcand et jeter un coup sur une partie de sa filmographie pour découvrir les oeuvres du compositeur François Dompierre et une partie de la carrière de l’actrice Dominique Michel.

Dommage qu’il y ait si peu d’images libres de droits pour mieux représenter les personnes et les créations qui font notre culture. Il faudrait prendre l’habitude de contribuer à Wikimedia Commons, la base de données multimédia à laquelle s’alimentent des projets comme celui de BnF.

Connaissance augmentée et distribuée

Nous pouvons accroître la découvrabilité de notre culture de façon pérenne et innovante. Il est également possible d’étendre la connaissance que nous avons de nos propres ressources en liant nos données entre elles. Nous pourrions alors l’enrichir par des liens vers d’autres sources de données ouvertes et liées qui contiennent de l’information à propos de notre culture et de notre patrimoine, comme BnF, Digital Public Library of  America, MusicBrainz ou VIAF.

Ce ne sont pas les moyens qui manquent pour commencer à expérimenter de nouvelles manières de valoriser des données culturelles.  Un de ces moyens est, par exemple,  le téléversement des données dans Wikidata.

Mais, face à la complexité des enjeux techniques des métadonnées (pour preuve: cette typologie des métadonnées pour le patrimoine culturel), il manque une vision d’ensemble des parcours possibles.  Pour cela, il faut rassembler les compétences informationnelles et technologiques nécessaires pour aider des organismes ou des initiatives collectives à faire des choix afin de démarrer des projets rapidement.

Pourrait-on rêver d’un regroupement interdisciplinaire sur les données ouvertes et liées pour accompagner les démarches et projets dans le secteur culturel ?

Données structurées, données ouvertes et liées: est-ce la même chose ?

Données structurées et données ouvertes et liées sont des expressions dont l’usage indifférencié peut nuire à la prise de décisions qui ont une grande importance pour la réussite d’un projet dans le domaine culturel. Par données structurées , on fait ici référence à la technique d’indexation préconisée par Google (structured data). Ces expressions désignent deux manières différentes de travailler dans le web des données. Ce billet concerne les modèles de données et outils proposés afin de documenter des ressources pour les moteurs de recherche.

Un autre billet abordera les avantages spécifiques des données ouvertes et liées.

Guide des données structurées de Google pour documenter des livres.
Guide des données structurées de Google pour documenter des livres.

Google et le web sémantique

En 2013, Google effectue un des plus importants changements sur son algorithme de recherche en plus d’une décennie.

Baptisée Hummingbird , la nouvelle mouture s’appuie sur le sens et le contexte plutôt que sur la pondération de mots clés. Elle fait également appel à un savoir encyclopédique qui est organisé comme un graphe de connaissances et qui est constitué en grande partie à partir de Freebase, une base de données structurées collaborative, acquise par Google. Cette masse de données, appelée Knowledge Graph, permet de à l’algorithme de classer l’information et, de ce fait, de savoir à quelles autres informations elle est liée. C’est une logique similaire à celle de Wikipédia, où chaque article comporte plusieurs liens internes et externes.

La nouvelle version de l’algorithme peut donc effectuer des recherches en mode « conversationnel » (Où faire réparer mon téléphone?) et, surtout, améliorer les résultats de recherche grâce aux concepts du web sémantique: des métadonnées qui donnent le sens des données et qui permettent de faire des liens qui produisent de l’information. En comprenant le sens et le contexte de la demande, il devient possible, pour le moteur de recherche, de mieux interpréter l’intention de l’individu qui la transmet.

De la liste de pages web aux résultats enrichis

Depuis, la recherche de (méta)données qui font du sens prend progressivement le pas sur la recherche de mots clés. C’est une transition que l’on peut très facilement constater sur nos écrans mobiles. Nous passons donc d’une liste de pages qui comportent les mots clés recherchés à une agrégation d’informations qui résulte de liens entre des données structurées.

Il y a toujours une recherche de pages, mais ce sont les données qui décrivent des « ressources » (personnes, choses, concepts) qui sont désormais importantes. Au web documentaire, celui où l’information est présentée métaphoriquement en pages, s’ajoute le web des données, celui où toute connaissance est de la donnée qui peut être collectée et traitée par des machines. Celles des moteurs de recherche et celles de toute entité qui souhaite s’en servir pour développer un service ou un produit qui aurait de la valeur.

Schema: représentation pour moteurs de recherche

Les données structurées sont exprimées selon un modèle de métadonnées qui a été conçu par un regroupement de moteurs de recherche (Google, Bing, Yahoo! et le russe, Yandex). Ces données sont publiées dans le code HTML des pages où sont présentées les ressources qu’elles décrivent. Ces données sont publiques, mais pas ouvertes. Mais ce sont cependant des données liées puisque le modèle Schema permet de produire des triplets (symphonie pour un homme seul (sujet) – est de type (prédicat)- électroacoustique (objet)). Quelques exemples sont présentés dans un billet précédent l’usage de données structurées par Google. Le rôle des données structurées et des liens vers Wikipédia est expliqué plus en détail dans un guide sur la documentation des contenus produit pour le Fonds indépendant de production, avec la collaboration de TV5.ca et l’appui de la SODEC.

Apprendre à documenter: une étape nécessaire

Alors, documenter une ressource à l’aide de données structurées, en intégrant celles-ci dans la page web de la ressource, est-ce « travailler pour Google » ?

Oui, bien sûr. Mais, ce n’est qu’un premier pas dans l’apprentissage pratique du rôle clé des données dans une économie numérique. Mais s’en tenir à cette étape, c’est conformer notre représentation de la culture à un modèle de représentation et à des impératifs d’affaires qui sont hors de notre contrôle et qui ne répondent à des impératifs économiques qui avantagent la plateforme.

Ne pas dépendre d’entreprises qui se placent au-dessus des lois et des États est un des enjeux qui motivent des gouvernements et des institutions à soutenir, par des politiques et des programmes de financement, des projets basés sur les principes et les technologies du web sémantique qu’ils peuvent contrôler. Nous verrons, dans un prochain billet, les opportunités qu’offrent ces technologies pour l’innovation et la promotion de la culture.

Trois enjeux communs pour les métadonnées en culture

Les métadonnées, en culture, servent à décrire des choses pour les rendre repérables et à faire des liens d’association entre des éléments d’information pour générer de nouvelles connaissances. Voici trois enjeux pour la création de métadonnées culturelles qui devraient être abordés de façon prioritaire, au sein des organismes, institutions, entreprises et regroupements associatifs.

Feuille de route pour la création de métadonnées culturelles, représentée par une carte avec itinéraire.

1. Mise à niveau de nos systèmes d’information

La problématique des métadonnées en culture origine de la conception des systèmes d’information. La source de la plupart des problème se situe en amont des processus de gestion de l’information, soit lors de la saisie des données dans un un système ou un logiciel qui n’a pas été conçu pour générer des métadonnées interopérables. Il est également plus facile  de convaincre des gestionnaires d’investir dans  un nouveau site web que dans un modèle de métadonnées  normalisées et interopérables pour lequel il est difficile de fixer des indicateurs de rendement.

Qualité des données

Plus de 60% du temps de travail des experts  des données est consacré au nettoyage  et à l’organisation des données. Il est possible de produire des données qui soient exploitables, plus facilement et à moindre coût, en  mettant en application des principes de qualité inspirés, par exemple, de ceux qui guident la production de données ouvertes et liées pour l’Union européenne.

De la base de données au web de données

Au web des documents, s’est ajouté celui des données. Nous nous éveillons lentement à des modes de représentation et d’exploitation de l’information qui ne font plus référence à des pages, mais à des connaissances et à des ressources.

Dans le web, un contenu c’est de la donnée. Si les pages web s’adressant à des humains demeurent toujours utiles, ce sont les données décrivant des ressources (modèle Schema ou triplets du web sémantique) qui permettent à certaines technologies de classer et de relier l’information obtenue afin de nous fournir des réponses et, surtout, des suggestions.

Indexation de contenu et normalisation de données

Bien que des termes comme « métadonnées » et, même « web sémantique », se retrouvent désormais au programme de nombreux événements professionnels, au Québec et au Canada, trop rares sont les initiatives et projets où il est fait appel à  des équipes pluridisciplinaires comme cela se fait au sein de gouvernements, d’institutions ou d’initiatives collectives, en Europe et aux États-Unis.

Est-il possible de réaliser des projets d’une complexité et d’une envergure que l’on peine à mesurer en dehors du cadre habituel d’un projet de développement technologique ?  On peut en douter. Nous manquons de compétences en ce qui concerne la représentation de l’information sous  forme de données liées, ainsi que sur les principes et méthodes de la documentation de ressources.  Comment pourrions-nous, alors, atteindre des objectifs qui permettraient de tirer tous les avantages possibles des données qui décrivent nos contenus culturels ?

Plus concrètement, comment pourrions-nous entreprendre les démarches nécessaires à la réalisation  d’objectifs similaires à ceux du projet DOREMUS  qui  réunit Radio France, Philharmonie de Paris et Bibliothèque nationale de France ?

«Permettre aux institutions culturelles, aux éditeurs
et distributeurs, aux communautés de passionnés
de disposer :

  • de modèles de connaissance communs (ontologies)
  • de référentiels partagés et multilingues
  • de méthodes pour publier, partager, connecter, contextualiser, enrichir les catalogues d’œuvres et d’événements musicaux dans le web de données

Construire et valider les outils pédagogiques qui permettront le déploiement des standards, référentiels et technologies dans les institutions culturelles

Construire un outil d’assistance à la sélection d’œuvres
musicales.»

Il serait temps de moderniser les programmes  de formation  universitaire en bibliothéconomie et sciences de l’information et en technologies de l’information et d’encourager des intersections. Sans quoi, nous ne disposerons pas suffisamment de ressources compétentes pour passer du web des documents au web des données.

2. Décentralisation de la production de métadonnées

La centralisation de la production de métadonnées est contraire à la culture numérique car elle favorise généralement les perspectives et besoins d’une entité ou d’acteurs majoritaires. Les initiatives qui présentent le plus grand potentiel pour le développement de compétences  en matière de  production et réutilisation de données sont celles où les organismes sont appelés à participer activement à l’élaboration de leurs modèles de données, aux décisions en ce qui a trait à l’utilisation des données et à la conception de produits ou services. C’est par la pratique que les gestionnaires et entrepreneurs sont sensibilisés à l’utilité et à la valeur des données qu’ils produisent et qu’ils collectent.

Comme le signale Fred Cavazza, dans un récent billet, il nous faut réduire la dette numérique avant d’entreprendre une véritable  transformation:

«Nommer un CDO, créer un incubateur, organiser un hackathon ou nouer un partenariat avec Google ou IBM ne vous aidera pas à vous transformer, au contraire, cela ne fera que reporter l’échéance. Il est donc essentiel de réduire la distance au numérique pour chaque collaborateur, et pas seulement les plus jeunes ou ceux qui sont directement impliqués dans un projet.»

À ce titre, externaliser l’indexation des ressources culturelles (production de métadonnées) ne saurait être considéré comme un choix stratégique dans une économie numérique puisqu’il éloigne les acteurs du traitement des données et les confine à des rôles de clients ou d’utilisateurs, sans opportunités d’apprentissage pratique. En effet, se pencher  sur l’amélioration  et la valorisation de données descriptives et de données d’usage est le meilleur moyen de développer une culture de la donnée et d’acquérir les connaissances qui permettent de transformer des pratiques et de se réinventer. En plus de responsabiliser les organismes et entreprises et d’assurer la découvrabilité numérique de leurs ressources,  la décentralisation de la production de métadonnées renforce la résilience de l’écosystème; chacun des acteurs devenant un foyer potentiel de partage de connaissances et d’expérience.

3. Reconnaissance de la diversité des modèles de représentation

La centralisation de la production de métadonnées ne favorise pas la diversité des modèles de représentation et, plus spécifiquement, une réflexion post-colonialiste sur la description de productions culturelles et œuvres d’art, comme le lieu de fabrication ou la nationalité ou l’ethnie.  Une démarche centralisée conduit à adopter un  seul modèle de représentation des ressources, au détriment de la diversité des missions, des cultures,  et des pratiques. Dans le domaine du patrimoine culturel, par exemple, il existe près d’une centaine de modèles de description différents. Tous ne conviennent pas à la production de données ouvertes et liées, mais il demeure que cette diversité des modèles est essentielle car elle répond à des besoins et contextes d’utilisation spécifiques.

C’est dans le même esprit, qui a permis au web de devenir ce qu’il est (voir « small pieces loosely joined » de David Weinberger, un des penseurs du web), qu’il faut s’entendre sur des principes  et des éléments permettant de faire des relations entre différents modèles de métadonnées.  Cette démarche comporte des enjeux de nature conceptuelle, technologique, voire même économiques et de politiques publiques. Face à un tel niveau de complexité,  nous ne devrions pas tarder à rassembler, autour de ces enjeux, des spécialistes  du développement d’ontologies et des questions d’interopérabilité des métadonnées.

*

Ce ne sont pas de nouveaux portails, plateformes et applications qui nous permettront de ne pas dépendre totalement d’entreprises se plaçant au-dessus des états eux-mêmes. Une « solution technologique » aussi extraordinaire soit-t-elle, ne remplace pas une vision et des stratégies. Surtout lorsque les modèles économiques, dont nous tentons d’imiter les interfaces sans en maîtriser le fonctionnement, reposent sur l’exploitation de données par des algorithmes et des technologies d’intelligence artificielle.

Découvrabilité et métadonnées: nous sommes nuls en documentation de contenu

La documentation des contenus devient un enjeu prioritaire quand des moteurs de recherche deviennent moteurs de réponses et de suggestions. Surtout dans le domaine des arts et de la culture.  Curieusement,  nombreuses sont les initiatives qui font dans le dilettantisme en matière d’information numérisée. Car le problème est bien d’ordre documentaire.  Petite mise en perspective à la lumière de l’actualité.

Comment nettoyer les écuries d'Augias par Christian Fauré
Comment nettoyer les écuries d’Augias, par Christian Fauré (via Gautier Poupeau, lespetitescases.net)

« From search to suggest» (Eric Schmidt, Google)

Les ventes d’enceintes acoustiques intelligentes (smart speakers) dépassent celles d’autres équipements électroniques  comme les casques de réalité  virtuelle ou les vêtements  connectés. Les grandes plateformes et leurs partenaires (de nombreux manufacturiers d’enceintes acoustiques) se livrent à une concurrence effrénée, enchaînant les itérations afin de lancer et tester de nouveaux modèles.

/…/ smart speakers have become the fastest growing consumer technology in recent times, surpassing market share gains of AR, VR and even wearables.
Smart speakers are now the fastest-growing consumer technology

Depuis peu, certains constatent que ce sont des applications et des algorithmes qui nous pointent ce que nous devrions voir ou écouter.

/…/ how consumer power can meaningfully express itself within the “Suggest” paradigm, if consumer power will continue to exist at all. If the Amazon Echo, Google Home, or whatever else that comes down the pike becomes the primary way of consuming podcasts, the radio, or music, what does the user pathway of selecting what to listen look like? How are those user journeys structured, how can they be designed to push you in certain ways? (The “Power of the Default,” by the way, is a very real thing.) How would discovery work? Which is to say, how does the market look like? Where and how does the consumer make choices? What would choice even mean?
If podcasts and radio move to smart speakers, who will be directing us what to listen to?

C’est un constat que partagent plusieurs observateurs des changements qui sont à l’oeuvre dans le web , notamment chez ceux dont la puissance s’est établie sur l’indexation et le classement de l’information. Laurent Frisch, directeur du numérique de Radio France, est l’un de ces observateurs.

Dans tous les cas, la problématique des assistants vocaux est de passer d’un monde où on pouvait faire des recherches mises en ordre par des algorithmes, nous laissant le choix de cliquer sur le résultat de notre choix, à un monde dans lequel les besoins seront anticipés avec la proposition d’une réponse unique. Il faut donc que lorsque nous avons la bonne réponse, nous puissions être trouvés et écoutés au bon moment. C’est très compliqué, c’est nouveau pour tout le monde. Les radios ont un atout : elles partent avec un temps d’avance puisqu’elles ont une matière première. Par contre, ça ne veut pas dire que ce sera automatique. Il y aura des challenges, notamment pour réussir à être des réponses pour ces assistants vocaux.
La radio en 2018 vue par Laurent Frisch

Penser/Classer (George Perec)

Nous avons un problème: nous avons abandonné l’indexation et le classement de nos ressources à des bases de données qui ne sont pas conçues pour être interopérables avec d’autres systèmes et à des spécialistes des technologies qui n’ont ni les compétences en documentation, ni les connaissances du domaine (ontologies, taxonomie).

Nous avons cessé d’investir temps et ressources dans la documentation de nos contenus lorsque la micro informatique est entrée dans nos organisations. Nous nous sommes fiés à des structures proposées par des programmeurs guidés par leurs propres objectifs et compréhension pour créer des métadonnées et des systèmes de classement. Ces systèmes nous interdisent toute visibilité sur nos contenus, collections et répertoires et toute possibilité de lier nos données aux autres données mondiales afin que nos contenus demeurent pertinents et génèrent de  la connaissance.

Les enjeux de la découvrabilité, les métadonnées propriétaires et non standards,  ainsi que la faible qualité des données sont avant tout un problème documentaire du à l’ignorance ou au rejet de méthodes et normes qui, pourtant, existent et évoluent. Ce problème ne pourra être  résolu que si nos stratégies numériques, ainsi que nos institutions d’enseignement,  passent d’une vision technocentriste à une vision systémique du numérique.  Concrètement, cela implique l’ajout de la littératie de l’information (de quoi est faite l’information numérisée et comment circule-t-elle) aux programmes de formation, l’adoption de normes pour l’acquisition et le développement d’applications et l’inclusion des compétences en sciences de l’information à toute démarche autour des données.

Comme l’a si clairement expliqué Fabienne Cabado , directrice générale du Regroupement québécois de la danse, dans un récent billet, c’est notre modèle de pensée et nos réflexes qu’il faut changer.

/…/le virage numérique ne consiste pas à numériser nos archives ni à produire les plateformes les plus grandioses, mais plutôt à transformer nos manières de regarder le monde, de le penser, de le construire et d’y évoluer. Ils l’ont dit et répété: l’innovation réside avant tout dans l’adoption d’une pensée systémique.
Perspectives numériques

En attendant  que nos leaders prennent la mesure du problème et apprennent à se servir d’autres solutions que celles auxquelles ils sont habitués, il est encourageant de constater le cheminement des idées et leur assimilation par les têtes pensantes du secteur culturel.

Que faire pour multiplier l’impact des initiatives numériques ?

Comment multiplier la portée des programmes de soutien à la transformation des organisations dans un contexte numérique ? En favorisant des initiatives qui ont pour objectifs des résultats  durables et transmissibles à d’autres individus, organismes ou secteurs d’activités.

Ceux qui tirent la plus grande partie des bénéfices d’une économie numérique sont ceux qui en maîtrisent les concepts clés (collecte de données, organisation et classification de l’information, traitement algorithmique) et qui prennent les moyens pour profiter du réseau (contenu généré par les utilisateurs, mobilisation de capital intellectuel).  Nous ne pouvons cependant pas tenter d’imiter des modèles qui ont nécessité des investissements colossaux et qui, après des années d’expérimentation, constituent des entités aussi riches et puissantes que des états. Mais nous ne devons pas non plus demeurer des fournisseurs de données et de contenus.

C’est pourquoi des programmes d’aide à la transformation numérique et à l’innovation, quel que soit le secteur d’activité, devraient permettre d’accroître de manière plus efficace nos connaissances en matière d’information numérisée , et de favoriser la collaboration entre organismes pour concevoir et expérimenter d’autres modèles de création de valeur.

Voici 3 notions qui sont essentielles pour sortir des vieux modèles :

1 – L’information avant les moyens technologiques

Découvrabilité, métadonnées, mise en commun de données, diffusion de contenu: bien avant d’être du développement logiciel ou la mise en place d’infrastructures, c’est un travail sur la définition et l’application de principes de traitement et d’organisation de l’information.

Découvrabilité dans le web des données

La mise en nombres binaires de l’information (soit des suites de 1 et de 0 qui représentent des caractères, puis des mots) est ce qui rend son traitement et sa transmission possibles par des machines. Par contre, pour que cette information numérisée puisse être repérable, « comprise » et exploitable par des machines qui sont, à présent, en quête de sens, il faut :

  • Décrire les données pour qu’elles soient lisibles et utilisables pour des machines.
  • Publier les données dans le web selon les standards du W3C pour les données ouvertes et liées (Linked Open Data).

De plus, pour rendre cette information découvrable dans le web, il faut préalablement réaliser une étape essentielle:

  • Libérer les données qui décrivent des ressources (contenus culturels, patrimoine vivant et immatériel, produits, services, etc.).

2 – Les données comme actif plutôt que matière première

Nous souhaitons que les moteurs de recherche et autres types de technologie utilisés pour ratisser le web repèrent les données qui décrivent nos contenus, produits et services.  Or, nous persistons à considérer la donnée comme une ressource alors que dans une économie numérique, il s’agit d’un actif. Cette nuance est extrêmement importante puisque cette ressource n’a de valeur que si elle est rare. Nous pourrions, par exemple, avoir à payer pour obtenir les données qui décrivent les titres d’un répertoire musical. Cependant, les données ne seraient donc pas repérables et accessibles pour les humains et les machines.

Considérer les données comme un actif permet de capitaliser sur la valeur de l’information qu’elles permettent de générer et sur le potentiel de découvrabilité qu’elles accordent aux contenus qu’elles décrivent.

3 – Travailler ensemble autour des données

Collaborer au sein d’une même organisation, à travers les disciplines ou entre organismes favorise l’émergence d’idées novatrices et permet de surmonter des problématiques complexes. Travailler sur des données en diversifiant les perspectives permet de générer de l’information utile pour divers objectifs, domaines d’activité et types d’utilisateurs. C’est pourquoi des initiatives qui sont mises en oeuvre par des équipes pluridisciplinaires ont de meilleures chances de succès.

Travailler ensemble sur la valorisation ou la mise en commun de données, que ce soit au sein d’un même organisme ou en partenariat avec d’autres organisations, requiert l’adoption de véritables méthodes collaboratives, notamment, pour que des enjeux relatifs à la gestion des données  et au processus décisionnel ne viennent faire obstacle à l’atteinte des objectifs.  En s’éloignant  des dynamiques de contrôle et de subordination habituelles, il est possible d’instaurer un climat de confiance et la cohésion nécessaires à un travail collaboratif.

Un vrai modèle collaboratif n’est pas centralisateur: chacun des contributeurs d’un système de traitement ou de mutualisation de données est responsable de leur production et de leur qualité.. Ceci a pour effet d’assurer une gouvernance équilibrée du système  et le transfert et développement de compétences au sein de chacune des organisations.

Pour cela, il faut apprendre à élaborer des démarches de projets qui fédèrent les participants autour d’un objectif commun tout en reconnaissant les bénéfices individuels et les limites de chacun. Ainsi, les initiatives et projets peuvent profiter du partage de connaissances au sein de réseaux internes et externes.

Pas d’évolution numérique sans maturité informationnelle

Voici la démarche des 5 étoiles du web des données, tel que conçue  par Tim Berners-Lee et soutenu par les recommandations du W3C.

∗ Rendez vos données disponibles sur le Web (quel que soit leur format) en utilisant une licence ouverte.
** Rendez-les disponibles sous forme de données structurées (p. ex., en format Excel plutôt que sous forme d’image numérisée d’un tableau).
*** Utilisez des formats non exclusifs (p. ex., CSV plutôt que Excel).
**** Utilisez des URI pour identifier vos données afin que les autres utilisateurs puissent pointer vers elles.
***** Reliez vos données à d’autres données pour fournir un contexte. (Cote de degré d’ouverture des données, Gouvernement ouvert, Canada).

Les 5 étoiles des données ouvertes et liées

 

Voici l’échelle de la maturité informationnelle des organisations, telle qu’illustrée par Diane Mercier dans le cadre de sa thèse doctorale sur le web sémantique et la maturité informationnelle des organisations.

Thèse doctorale et références : Web sémantique et maturité organisationnelle sur Zotero. 

Schéma de la maturité informationnelle des organisations

Ces deux modèles participent de la même démarche graduelle et progressive vers l’ouverture et la participation, grâce à l’adoption de principes communs. C’est cette transformation que  des initiatives numériques devraient permettre d’amorcer pour le bénéfice d’organismes et entreprises et, plus largement, pour la résilience d’un secteur d’activité ou d’un écosystème.

Découvrabilité : quand les écrans ne sont plus nécessaires 

Présentation donnée lors de la clinique d’information du Fonds Bell, le 17 octobre 2017, à la Cinémathèque (Montréal).

Mise à jour (16 février 2018):  Cette présentation accompagnait le lancement du guide Êtes-vous repérables ? Guide pratique pour documenter vos contenus , réalisé pour le Fonds indépendant de production, avec la collaboration de TV5.ca et l’appui de la SODEC .

La découvrabilité qui devrait intéresser plus particulièrement tout créateur et producteur de contenus résulte de la présence, dans le web, de données descriptives qui sont intelligibles et manipulables par des machines. Il ne s’agit pas de campagnes de promotion, ni de référencement de pages web, mais de la documentation de  contenus (textes, images, vidéo, enregistrements sonores et toutes autres types de ressources).  Ces trois types d’activité visent des objectifs spécifiques et complémentaires.

Les changements qui affectent la visibilité et la découvrabilité

La plus grande proportion du trafic sur le web est portée par les petits écrans mobiles.

Graphique: le trafic web est porté par les écrans mobiles

Liens utiles:
Smartphones are driving all growth in web traffic
Search engine market share – Mobile – Canada
Cahier de Tendances N°11 : au delà du mobile, France Télévisions

Les moteurs de recherche s’adaptent aux petits écrans.
Lorsque l’information qui décrit un contenu est disponible dans un format que les moteurs peuvent traiter, la liste des résultats de recherche passe au second plan.

Face à la surabondance d’information et de contenus, la pertinence de la recommandation devient un facteur important de fidélisation.

Google - Résultat de recherche sur téléphone

Recherche vocale et assistants virtuels: l’information sans écran.
Plus de 30 millions d’assistants vocaux dans les foyers, aux États-Unis, d’ici la fin de l’année

Assistants virtuels ou assistants vocaux

Liens utiles:
More than 30 million ‘voice-first’ devices in US homes by year end [Report]
Report: 57% of smart speaker owners have bought something with their voice
Gartner Predicts 30% Of Searches Without A Screen In 4 Years

Ces nouvelles interfaces du web n’ont pas d’écran et ne peuvent dont nous répondre en nous fournissant une liste de résultats.
« Enfin et c’est cela qui pose à mon sens le plus gros problème dès que l’on sort de la seule sphère « commerciale », il y a … « le choix d’Alexa », c’est à dire l’idée que bien sûr Amazon / Alexa ne va pas nous « lire » une série de réponses suite à notre requête mais nous en proposer une seule, mettant naturellement en évidence des produits vendus par la marque hôte.» (La voix et l’ordre, billet d’Olivier Ertzscheid).

Moteurs de réponses et de suggestions
Lorsque les données qui décrivent un contenu sont accessibles, intelligibles et manipulables par des applications, elles peuvent être triées par des algorithmes et liées à d’autres données qui décrivent un même auteur, lieu, création, objet, producteur, etc.  Un contenu peut se trouver sur la parcours d’un internaute des décennies après sa création.

Liens utiles:
Les sites web sont-ils en voie de disparition ?
#DIVERTISSEMENT Les algorithmes vont-ils mettre fin à la tyrannie du choix ?
How Netflix will someday know exactly what you want to watch as soon as you turn your TV on

Les moteurs de recherche comprennent-ils nos contenus?

Les pages web sont faites pour être lues par des humains. Les machines ne comprennent pas le contenu de la page, mais elles peuvent manipuler des données qui s’y trouvent  lorsque celles-ci sont mises en contexte grâce à des métadonnées et sont dans un format qu’elles reconnaissent.

Pour savoir si un moteur de recherche peut faire des liens entre votre websérie et d’autres informations disponibles dans le web, il suffit de chercher celle-ci afin de voir si une fiche d’information est produite.

Validation des données structurées: recherche de la série Carmilla.
Chez Google, la fiche d’information, appelée Knowledge card, est générée grâce à  la mise en contexte des données qui décrivent le contenu avec son modèle de classification des connaissances (Knowledge graph). Ces mêmes données descriptives sont mises en relation avec celles d’autres plateformes comme Wikidata (les données structurées de Wikipédia) et, selon le contexte, avec les données de plateformes spécialisées.

Dans le domaine du cinéma, de la vidéo et de la télévision, nous pouvons retrouver les données issues des agrégateurs IMDb (Internet Movie Database,  propriété d’Amazon), AlloCiné et Rotten Tomatoes. Notez que le contenu de ces plateformes n’est pas produit par une seule organisation, mais par des utilisateurs et/ou des producteurs de contenus.

Ce sont des données structurées qui, chez les moteurs de recherche comme Google et Bing , permettent de faire des liens sémantiques qui fournissent une description succincte ou détaillée  d’un contenu dans une fiche d’information. C’est cette fiche qui tend à occuper un espace de plus en plus important sur nos écrans.

De la même manière qu’il a fourni aux développeurs des instructions pour faciliter le référencement de sites web, Google fournit désormais des instructions et des outils pour encourager la production de données structurées. L’outil de test des données structurées détecte la présence de ces données dans une page web et, le cas échéant,  signale les erreurs à corriger et les améliorations possibles.

Google: validation des données structurées: page d'accueil de Louis-Jean Cormier.

Il est également possible de produire des métadonnées pour décrire un contenu qui est présent dans une page web sans connaître le modèle de métadonnées Schema et sans programmation. L’outil d’aide au balisage des données structurées qui est proposé par Google permet de copier les données qui sont encodées en JSON-LD, un format pour les données liées, et de les coller dans le code HTML de la page web où se trouve le contenu.

Google: outil de balisage de données structurées, page web de Vincent Vallières

Cet outil présente un intérêt supplémentaire: il indique les informations qui devraient apparaître dans la page de présentation d’un contenu. De trop nombreuses pages web où sont présentés des films, spectacles, livres, pièces musicales ou œuvres d’art ne contiennent pas le minimum d’information qui permettrait aux moteurs de recherche de les lier à d’autres informations dans le web.

Plus l’information qui décrit le contenu est détaillée et riche, plus grand est le potentiel de celui-ci d’être lié à d’autres contenus et donc, d’être découvert.

Documenter nos contenus, n’est-ce pas travailler pour Google et cie?

Documenter (ou indexer) un contenu, tout comme faire du référencement de pages web, c’est normaliser et organiser la  représentation de celui-ci.  C’est, effectivement, contribuer à l’amélioration continue des applications et des algorithmes des moteurs de recherche.

Mais c’est également une étape nécessaire pour apprendre à nous servir de nos données et, par la suite, développer nos propres outils de découverte, de recommandation et de reconnaissance de ceux qui ont contribué à la création et à la production  d’œuvres.