Il est essentiel d’améliorer nos systèmes d’information et nos processus et d’adopter les meilleures pratiques du web des données (diapos à visionner absolument) pour produire des données facilement exploitables.
Données structurées et données ouvertes et liées sont des expressions dont l’usage indifférencié peut nuire à la prise de décisions qui ont une grande importance pour la réussite d’un projet dans le domaine culturel. Par données structurées , on fait ici référence à la technique d’indexation préconisée par Google (structured data). Ces expressions désignent deux manières différentes de travailler dans le web des données. Ce billet concerne les modèles de données et outils proposés afin de documenter des ressources pour les moteurs de recherche.
Guide des données structurées de Google pour documenter des livres.
Google et le web sémantique
En 2013, Google effectue un des plus importants changements sur son algorithme de recherche en plus d’une décennie.
Baptisée Hummingbird , la nouvelle mouture s’appuie sur le sens et le contexte plutôt que sur la pondération de mots clés. Elle fait également appel à un savoir encyclopédique qui est organisé comme un graphe de connaissances et qui est constitué en grande partie à partir de Freebase, une base de données structurées collaborative, acquise par Google. Cette masse de données, appelée Knowledge Graph, permet de à l’algorithme de classer l’information et, de ce fait, de savoir à quelles autres informations elle est liée. C’est une logique similaire à celle de Wikipédia, où chaque article comporte plusieurs liens internes et externes.
La nouvelle version de l’algorithme peut donc effectuer des recherches en mode « conversationnel » (Où faire réparer mon téléphone?) et, surtout, améliorer les résultats de recherche grâce aux concepts du web sémantique: des métadonnées qui donnent le sens des données et qui permettent de faire des liens qui produisent de l’information. En comprenant le sens et le contexte de la demande, il devient possible, pour le moteur de recherche, de mieux interpréter l’intention de l’individu qui la transmet.
De la liste de pages web aux résultats enrichis
Depuis, la recherche de (méta)données qui font du sens prend progressivement le pas sur la recherche de mots clés. C’est une transition que l’on peut très facilement constater sur nos écrans mobiles. Nous passons donc d’une liste de pages qui comportent les mots clés recherchés à une agrégation d’informations qui résulte de liens entre des données structurées.
Il y a toujours une recherche de pages, mais ce sont les données qui décrivent des « ressources » (personnes, choses, concepts) qui sont désormais importantes. Au web documentaire, celui où l’information est présentée métaphoriquement en pages, s’ajoute le web des données, celui où toute connaissance est de la donnée qui peut être collectée et traitée par des machines. Celles des moteurs de recherche et celles de toute entité qui souhaite s’en servir pour développer un service ou un produit qui aurait de la valeur.
Schema: représentation pour moteurs de recherche
Les données structurées sont exprimées selon un modèle de métadonnées qui a été conçu par un regroupement de moteurs de recherche (Google, Bing, Yahoo! et le russe, Yandex). Ces données sont publiées dans le code HTML des pages où sont présentées les ressources qu’elles décrivent. Ces données sont publiques, mais pas ouvertes. Mais ce sont cependant des données liées puisque le modèle Schema permet de produire des triplets (symphonie pour un homme seul (sujet) – est de type (prédicat)- électroacoustique (objet)). Quelques exemples sont présentés dans un billet précédent l’usage de données structurées par Google. Le rôle des données structurées et des liens vers Wikipédia est expliqué plus en détail dans un guide sur la documentation des contenus produit pour le Fonds indépendant de production, avec la collaboration de TV5.ca et l’appui de la SODEC.
Apprendre à documenter: une étape nécessaire
Alors, documenter une ressource à l’aide de données structurées, en intégrant celles-ci dans la page web de la ressource, est-ce « travailler pour Google » ?
Oui, bien sûr. Mais, ce n’est qu’un premier pas dans l’apprentissage pratique du rôle clé des données dans une économie numérique. Mais s’en tenir à cette étape, c’est conformer notre représentation de la culture à un modèle de représentation et à des impératifs d’affaires qui sont hors de notre contrôle et qui ne répondent à des impératifs économiques qui avantagent la plateforme.
Ne pas dépendre d’entreprises qui se placent au-dessus des lois et des États est un des enjeux qui motivent des gouvernements et des institutions à soutenir, par des politiques et des programmes de financement, des projets basés sur les principes et les technologies du web sémantique qu’ils peuvent contrôler. Nous verrons, dans un prochain billet, les opportunités qu’offrent ces technologies pour l’innovation et la promotion de la culture.
La découvrabilité qui devrait intéresser plus particulièrement tout créateur et producteur de contenus résulte de la présence, dans le web, de données descriptives qui sont intelligibles et manipulables par des machines. Il ne s’agit pas de campagnes de promotion, ni de référencement de pages web, mais de la documentation de contenus (textes, images, vidéo, enregistrements sonores et toutes autres types de ressources). Ces trois types d’activité visent des objectifs spécifiques et complémentaires.
Les changements qui affectent la visibilité et la découvrabilité
La plus grande proportion du trafic sur le web est portée par les petits écrans mobiles.
Les moteurs de recherche s’adaptent aux petits écrans.
Lorsque l’information qui décrit un contenu est disponible dans un format que les moteurs peuvent traiter, la liste des résultats de recherche passe au second plan.
Face à la surabondance d’information et de contenus, la pertinence de la recommandation devient un facteur important de fidélisation.
Recherche vocale et assistants virtuels: l’information sans écran.
Plus de 30 millions d’assistants vocaux dans les foyers, aux États-Unis, d’ici la fin de l’année
Ces nouvelles interfaces du web n’ont pas d’écran et ne peuvent dont nous répondre en nous fournissant une liste de résultats.
« Enfin et c’est cela qui pose à mon sens le plus gros problème dès que l’on sort de la seule sphère « commerciale », il y a … « le choix d’Alexa », c’est à dire l’idée que bien sûr Amazon / Alexa ne va pas nous « lire » une série de réponses suite à notre requête mais nous en proposer une seule, mettant naturellement en évidence des produits vendus par la marque hôte.» (La voix et l’ordre, billet d’Olivier Ertzscheid).
Moteurs de réponses et de suggestions
Lorsque les données qui décrivent un contenu sont accessibles, intelligibles et manipulables par des applications, elles peuvent être triées par des algorithmes et liées à d’autres données qui décrivent un même auteur, lieu, création, objet, producteur, etc. Un contenu peut se trouver sur la parcours d’un internaute des décennies après sa création.
Les moteurs de recherche comprennent-ils nos contenus?
Les pages web sont faites pour être lues par des humains. Les machines ne comprennent pas le contenu de la page, mais elles peuvent manipuler des données qui s’y trouvent lorsque celles-ci sont mises en contexte grâce à des métadonnées et sont dans un format qu’elles reconnaissent.
Pour savoir si un moteur de recherche peut faire des liens entre votre websérie et d’autres informations disponibles dans le web, il suffit de chercher celle-ci afin de voir si une fiche d’information est produite.
Chez Google, la fiche d’information, appelée Knowledge card, est générée grâce à la mise en contexte des données qui décrivent le contenu avec son modèle de classification des connaissances (Knowledge graph). Ces mêmes données descriptives sont mises en relation avec celles d’autres plateformes comme Wikidata (les données structurées de Wikipédia) et, selon le contexte, avec les données de plateformes spécialisées.
Dans le domaine du cinéma, de la vidéo et de la télévision, nous pouvons retrouver les données issues des agrégateurs IMDb (Internet Movie Database, propriété d’Amazon), AlloCiné et Rotten Tomatoes. Notez que le contenu de ces plateformes n’est pas produit par une seule organisation, mais par des utilisateurs et/ou des producteurs de contenus.
Ce sont des données structurées qui, chez les moteurs de recherche comme Google et Bing , permettent de faire des liens sémantiques qui fournissent une description succincte ou détaillée d’un contenu dans une fiche d’information. C’est cette fiche qui tend à occuper un espace de plus en plus important sur nos écrans.
De la même manière qu’il a fourni aux développeurs des instructions pour faciliter le référencement de sites web, Google fournit désormais des instructions et des outils pour encourager la production de données structurées. L’outil de test des données structurées détecte la présence de ces données dans une page web et, le cas échéant, signale les erreurs à corriger et les améliorations possibles.
Il est également possible de produire des métadonnées pour décrire un contenu qui est présent dans une page web sans connaître le modèle de métadonnées Schema et sans programmation. L’outil d’aide au balisage des données structurées qui est proposé par Google permet de copier les données qui sont encodées en JSON-LD, un format pour les données liées, et de les coller dans le code HTML de la page web où se trouve le contenu.
Cet outil présente un intérêt supplémentaire: il indique les informations qui devraient apparaître dans la page de présentation d’un contenu. De trop nombreuses pages web où sont présentés des films, spectacles, livres, pièces musicales ou œuvres d’art ne contiennent pas le minimum d’information qui permettrait aux moteurs de recherche de les lier à d’autres informations dans le web.
Plus l’information qui décrit le contenu est détaillée et riche, plus grand est le potentiel de celui-ci d’être lié à d’autres contenus et donc, d’être découvert.
Documenter nos contenus, n’est-ce pas travailler pour Google et cie?
Documenter (ou indexer) un contenu, tout comme faire du référencement de pages web, c’est normaliser et organiser la représentation de celui-ci. C’est, effectivement, contribuer à l’amélioration continue des applications et des algorithmes des moteurs de recherche.
Mais c’est également une étape nécessaire pour apprendre à nous servir de nos données et, par la suite, développer nos propres outils de découverte, de recommandation et de reconnaissance de ceux qui ont contribué à la création et à la production d’œuvres.
C’est une affirmation que de nombreux états, institutions et entreprises tiennent désormais pour une réalité. Une réalité que plusieurs expérimentent depuis quelques années déjà et qui s’impose encore davantage à ceux qui observent les transformations qui sont à l’œuvre dans le web , notamment du côté des moteurs de recherche.
Alors, ne devrions-nous pas élaborer une approche stratégique afin de regrouper et de structurer notre offre culturelle plutôt que d’encourager la production de silos d’informations qui sont difficilement exploitables ?
Comment tirer notre épingle du jeu numérique ?
Il faut nous attaquer à la dispersion de l’offre culturelle, d’une part, et d’autre part, à l’absence de vision transverse sur les données. Autrement, incapables de développer nos propres modèles d’exploitation numériques, nous risquons d’être confinés aux rôles de fournisseurs et de clients de plateformes beaucoup plus attractives et efficaces que nos sites web.
Principal défi: sauf dans des domaines, comme les bibliothèques et les archives, les organisations ont, en général, peu d’intérêt ou de ressources à investir pour la production de métadonnées standards. Cela pourrait cependant changer.
Données structurées pour moteurs de recherche en quête de sens
Les moteurs de recherche privilégient de façon croissante les contenus web dont la description leur est fournie par des données structurées (appelées quelquefois,métadonnées embarquées). Schema est le modèle de métadonnées soutenu par les grands acteurs du numérique, tels que Google, Microsoft et Apple afin d’alimenter les algorithmes qui fournissent de l’information plutôt que des listes de résultats. Google offre même aux développeurs des modèles descriptifs pour des types de contenus dont la liste s’allonge progressivement.
L’utilisation de la base de connaissance Knowledge Graph, d’un modèle de métadonnées qui est dérivé de la syntaxe du web sémantique (RDF ou Resource Description Framework) et d’un format d’encodage de données liées (JSON-LD ou Java Script Object Notation for Linked Data) témoigne de la préférence de Google pour le web des données et les liens permettant de générer du sens.
Avec Schema, qui facilite l’intégration des données dans des pages HTML (il existe également des extensions spécialisées pour WordPress), les robot indexeurs et les algorithmes des moteurs de recherche deviennent donc beaucoup plus performants. Il n’est déjà plus nécessaire de quitter leur interface pour trouver une information ou découvrir, par exemple, de nouveaux groupes musicaux.
La production de données structurées est une technique qui deviendra rapidement aussi essentielle que l’optimisation de pages web. Mais une technique, aussi efficace soit-elle, n’est qu’un moyen et ne peut remplacer une stratégie.
Regrouper et structurer notre offre culturelle
Les données doivent pouvoir être extraites des silos existants et reliées entre elles grâce à des métadonnées communes. Les éléments d’information produits par chacun des acteurs du milieu des arts et de la culture peuvent ainsi être reliés de façon cohérente afin de constituer une offre d’information globale et riche et de nous fournir une meilleure visibilité sur les données relatives à l’accès et à l’utilisation de contenus.
Comment accompagner la transition ?
Comment extraire les données descriptives des bases de données et les normaliser ? Comment définir les métadonnées qui formeraient les éléments descriptifs essentiels pour permettre de relier entre eux des ensembles de données qui utilisent des référentiels standards mais différents ? Et, surtout, comment convaincre les producteurs de données de l’importance de l’interopérabilité et de la structuration intelligente des données ?
Dans cette perspective et afin de travailler collectivement à définir des pistes d’action, nos politiques et programmes devraient jeter les bases d’un projet de mise en commun des données culturelles en soutenant:
L’adoption des meilleures pratiques en matière d’indexation de contenu avec des métadonnées et une syntaxe de description qui s’adressent aux machines;
L’élaboration d’un un ensemble de métadonnées de base (modèle de médiation) qui permette de « faire la traduction » entre les différents standards et vocabulaires employés selon les domaines (musique, cinéma, arts visuels) et les missions (bibliothèque, archives, commerce, gestion de droits);
La libération des données qui décrivent nos créations artistiques, nos produits culturels, nos talents et notre patrimoine. Les données ouvertes constituent une première étape vers la diffusion de données ouvertes et liées.
L’acquisition des compétences techniques et technologiques qui sont requises afin de concevoir et de maintenir des outils pour faciliter la saisie et la réutilisation des données par les acteurs concernés.
L’harmonisation des différents modèles d’indexation documentaire (référentiels transversaux pour la production des données culturelles, cartes d’identité des biens culturels) au sein du Ministère de la Culture et des Communications.
Une étroite collaboration entre les institutions et les organismes producteurs de données autour de la rédaction d’une politique des métadonnées culturelles.
On ne devient numérique qu’en le faisant. Mais c’est un chantier qui repose davantage sur la collaboration et la mise en commun de l’information que sur la technologie.
Comme il est possible de le constater en effectuant une recherche avec Google, le web se transforme progressivement et, avec lui, les systèmes d’information.
Nous passons de bases données qui sont conçues pour retrouver une information à des données ouvertes et liées qui, publiées dans le web, permettent à des machines d’établir des connexions et de générer, par inférence, une information qui ne se trouve pas dans notre base de données.
Sélection de lectures parmi mes signets les plus récents sur Diigo:
Connexion
Le web a été conçu pour être exploré par des humains et par des machines. Pour les modèles d’affaires numériques, la découverte de ce que nous ignorions a beaucoup plus de valeur que la recherche de choses que nous connaissons. C’est, notamment, pour cette raison que les géants du numériques investissent dans les technologies du web sémantique (ou web des données) car elles permettent de représenter les connexions possibles entre différents éléments d’information.
“The value that I see going forward is the linking part of the data environment,” Wiggins added. “You start searching at one point, but you may be linked to things you didn’t know existed because of how another institution has listed it. This new system will show the relationship there. That’s going to be the piece that makes this transformative. It is the linking that is going to be the transformative.”
Nouvelle compétence clé: la curation de données, à la quelle on ajoutera le nécessaire esprit critique qui ne peut être remplacé par les algorithmes.
Avec tous les algorithmes statistiques et tous les outils d’analyse automatique de données (« big data analytics ») du monde, nous aurons encore besoin d’hypothèses causales, de théories et de systèmes de catégorisation pour soutenir ces théories. Les corrélations statistiques peuvent suggérer des hypothèses causales mais elles ne les remplacent pas. Car nous voulons non seulement prédire le comportement de phénomènes complexes, mais aussi les comprendre et agir sur la base de cette compréhension. Or l’action efficace suppose une saisie des causes réelles et non seulement la perception de corrélations. Sans les intuitions et les théories dérivées de notre connaissance personnelle d’un domaine, les outils d’analyse automatique de données ne seront pas utilisés à bon escient. Poser de bonnes questions aux données n’est pas une entreprise triviale !
Comment éveiller des décideurs aux changements radicaux qui sont annoncés partout, mais qui ne s’expérimentent pas dans le quotidien puisqu’il se transforme de façon beaucoup plus lente et progressive ?
In addition to the artworks and product demos, there are video infographics explaining what companies can and are doing with your data right now, whether it’s credit score calculation, email metadata analysis, or how your wifi-enabled smartphone is basically always snitching on you.
Once you’re thoroughly alarmed by the reality of what we have given up in freedom for the conveniences wrought by our ad-driven world, the team has helpfully created a Data Detox Bar where you can learn about reasserting control over your network existence and limiting your exposure. And the entire exhibit is staffed with all white-wearing “Ingeniouses” who will answer questions or just provide a shoulder to scream into after discovering that there is no such thing as “anonymized data.”
For the truly curious, of which I am one, there are workshops and presentations that provide an even deeper look into the gaping maw of our networked world.
Nous produisons des contenus numériques et nous adoptons de nouveaux outils, mais nos modèles d’affaires et nos stratégies de promotion et diffusion demeurent cependant essentiellement les mêmes. Alors, comment se positionner face aux modèles d’affaires plus rentables et plus attractifs des géants du numérique tels que décrits dans cet article sur une nouvelle classification des entreprises?
/…/ companies that build and manage digital platforms, particularly those that invite a broad network of participants to share in value creation (such as how we all add content to Facebook’s platform or that anyone can sell goods on Amazon’s), achieve faster growth, lower marginal cost, higher profits, and higher market valuations.
Ce qui contribue à leur montée en puissance, c’est la donnée qui leur permet de mettre leurs contenus en avant et de générer de l’information toujours plus précise et pertinente pour la prise de décisions stratégiques.
Exploitation du graphe des connaissances et des données ouvertes et liées par Google.
Culture de la donnée? Plutôt, des compétences informationnelles
Malgré les transformations qui accélèrent la mutation des modèles industriels et économiques, les opportunités et enjeux ayant trait à l’exploitation des données sont généralement ignorés dans la plupart des analyses et propositions d’action, qu’il s’agisse de politiques gouvernementales ou d’initiatives entrepreneuriales.
Cette situation s’explique fort probablement par le faible niveau de connaissances en matière d’information; ce qu’on appelle parfois les compétences informationnelles. En effet, si les technologies de l’information au sein de nos organisations ont un pouvoir, des ressources et des budgets dédiés, la matière première — la donnée, le document, l’information et même la connaissance — ne constitue pas une priorité.
Et pourtant. Comprendre de quoi sont faites les données (standards et sciences de l’information) et comment évolue leur exploitation (algorithmes, technologies sémantiques, blockchain) permet d’apprécier les modèles numériques d’une toute autre manière qu’en utilisateur de systèmes: en « créateur de valeur ».
Au cours de la préparation d’un atelier pour la SODEC, dans le cadre de la prochaine édition du SODEC_LAB Distribution 360, j’ai répondu à quelques questions concernant le rôle central des données dans la diffusion et la mesure des contenus, et notamment, leur potentiel de découvrabilité. Deux questions, qui reviennent régulièrement aux cours des présentations, démontrent clairement qu’il est urgent d’élaborer un programme afin de palier le sous développement des compétences informationnelles dans nos organisations, qu’il s’agisse d’une startup ou d’un ministère.
Je partage ici ces questions, ainsi qu’un aperçu des réponses.
Comment peut-on définir simplement ce qu’est une donnée?
Par l’exemple. Voici une donnée:
snow
C’est un « morceau d’information »; la plus petite unité de représentation d’une information. Exploitée individuellement, sans contexte (dont la langue) ou d’autres données, cette donnée peut prendre n’importe quel sens
Nom: Snow
Prénom: Michael
Activité: Artiste
Pays: Canada
Ensemble, des données permettent de produire de l’information, notamment, grâce à la présence de ces données spéciales que sont les métadonnées (meta: auto-référence, en grec). Nom, Prénom, Activité, Pays permettent de comprendre le sens des données auxquelles elles sont reliées, surtout si elles sont dans des formats difficiles à interpréter comme des numéros d’identification.
Les données peuvent être structurées, comme dans les bases de données ou les feuilles de calcul, ou non structurées, comme des textes sur Twitter et Facebook ou des images-commentaires sur Snapchat.
Les données non structurées sont généralement très riches mais requièrent un traitement manuel ou automatisé. Mais, en général, l’exploitation des données fait face à un enjeu majeur: leur hétérogénéité. Les technologies, les modèles de représentation et les formats de données sont autant de silos qui empêchent de relier des données de sources diverses entre elles.
À quelles données pouvons-nous avoir accès?
Il y a une abondance de données accessibles à tous les participants d’un écosystème donné. Chaque individu, chaque organisation est une machine à produire des données.
Par exemple, les industries culturelles produisent des données sur les contenus et sur la consommation de contenu.
Les grandes plateformes numériques excellent dans leur domaine en grande partie pour ces raisons:
Exhaustivité. Elles fournissent sous forme de données et métadonnées, de l’information très détaillée à propos de leurs contenus (description, ambiance, audience, son, couleur, etc.).
Connectivité. Elles savant que les données détaillées qui décrivent leurs contenus génèrent de nouvelles données lorsqu’elles sont liées à des données de consommation ou à d’autres données sur des contenus.
Dévouvrabilité. Elles comprennent le rôle central joué par les données et métadonnées pour la découvrabilité des contenus. De plus en plus de contenus vont à la rencontre de leurs publics, entre autres, par Google qui donne des réponses plutôt que de fournir des listes de destinations où trouver les réponses. Taper « Best actor oscar 2016 », vous y constaterez que Google exploite de façon croissante le graphe des connaissances (knowledge graph) et des données ouvertes et liées (Linked Open Data).
Pertinence. Elles se servent des données pour cibler des consommateurs, mais, de plus en plus, pour créer des contenus ou permettent à des producteurs de proposer des offres qui trouveront plus facilement leurs publics.
Mesure. Elles utilisent ou expérimentent divers indicateurs de mesure, autres que des transactions ou des faits comme des tendance, des modèles de comportement ou, encore mieux: la relation au contenu. Elles pratiquent l’écoute sociale en suivant, par exemple, les conversations sur Twitter avant, durant et après le lancement d’un contenu.
La donnée génère l’information qui est au cœur du modèle économique des puissantes plateformes numériques. Celles-ci ont toujours plusieurs trains d’avance sur leurs compétiteurs (et, souvent, également fournisseurs) dont la vision et les modèles relèvent encore des méthodes de l’ère industrielles. Nos industries culturelles, pour ne citer que cet exemple, disposent d’une masse de données, mais celles-ci sont peu entretenues et exploitées.
Avant de développer un énième silo d’information (plateforme, application), il faudrait peut-être apprendre à connecter nos données et les mettre en réseau pour générer le plus d’effet à long terme pour notre économie et notre culture.
Ne pas être préoccupé de la présence et de la visibilité des contenus des industries culturelles et créatives sur le web, c’est, pour une institution: attendre d’être obsolète ou, pour une entreprise: être bientôt ou déjà mise hors jeu par les grands intermédiaires technologiques.
Googlelisation des contenus culturels: captation de l’attention et des données des interactions. Tweet partagé lors du Congrès des milieux documentaires du Québec, 19 novembre 2015.
Mais dans tous les cas de figure, c’est être les grandes perdantes de la guerre que se livrent les grandes plateformes pour occuper nos écrans et promouvoir les contenus qu’elles ont sélectionnés en fonction de leur stratégie. Cette stratégie repose fondamentalement le transfert de la création de valeur du produit à la plateforme. Dans ce modèle, ce sont les règles d’affaires ,et non les produits qui s’adaptent selon les besoins des marchés. Ces règles d’affaires sont les algorithmes qui traitent les métadonnées des catalogues, ainsi que les données générées par les interactions avec les consommateurs.
Dans un billet publié la semaine dernière,sur la découvrabilité des contenus culturels, j’ai dénoncé sur la faible exploitation des catalogues, répertoires et archives de contenus et sur la perpétuation des silos de données qui font que nos produits culturels n’ont pas de masse critique, et donc d’existence, dans le web des données.
Parler de découvrabilité sans s’interroger sur les conditions requises pour provoquer la rencontre de l’offre et la demande ou pour favoriser la fortuité du croisement entre une attention disponible et une offre, c’est chercher une médication sans avoir établi de diagnostic médical.
Bien sûr, la découvrabilité est un concept qui ne date pas d’hier. À tout le moins, dans le domaine des sciences de l’information, c’est un élément familier de l’économie du document. Et certainement, il y a différents parcours de découverte pour les contenus: critique, recommandation, promotion, en ligne et hors ligne.
Mais le parcours le plus rentable est celui qui permet de tracer les contenus, de suivre leur consommation, de collecter les données sur lesquelles reposent des décisions tactiques et stratégiques. Ce parcours est celui va de la mise en ligne du catalogue (ou pour les plus avancés, la mise à disposition des données du catalogue en mode public ou ouvert) à l’enrichissement des données d’usage par les consommateurs et, indirectement, par les partenaires.
C’est ce parcours que nos institutions culturelles , comme nos entreprises de la culture et du divertissement, ne perçoivent pas encore comme une condition essentielle de survie, mais surtout, d’autonomie et de contrôle sur le pétrole de l’économie numérique: la donnée.
Comme je le mentionnais, dans le blogue de Direction Informatique, à propos du commerce électronique:
Le catalogue de produits demeure le maillon faible du commerce électronique au Québec. Pour trop d’entreprises, c’est encore une brochure ou, au mieux, une arborescence de site web. Mais pour les plateformes commerciales à succès, il s’agit plutôt d’un ensemble de données structurées s’adressant aux consommateurs afin de faciliter leurs décisions d’achat. Et pour celles qui sont entrées dans l’économie numérique, c’est aussi la composante d’un système d’information stratégique.
Alors, serons-nous uniquement les clients et utilisateurs des grandes plateformes ou deviendrons-nous les créateurs et bâtisseurs de cette économie numérique?
Tout comme dans le commerce électronique, le catalogue est le maillon faible des industries culturelles et créatives au Québec. À lire l’invitation du Sommet sur la découvrabilité, il semble que nous n’ayons pas encore réalisé ce qui fait le succès des plateformes comme Amazon, Netflix, iTunes ou YouTube : une culture de la donnée qui favorise les rencontres entre l’offre et la demande.
Trop rares sont les entreprises qui, quel que soit leur secteur d’activité, exploitent leurs actifs informationnels sur le web ainsi que le font de nouveaux acteurs issus du numérique qui sont ou qui deviendront rapidement leurs plus féroces concurrents. À ceux-ci il faut ajouter les géants technologiques qui ont choisi le modèle de la plateforme, plutôt que celui du produit, et qui captent lors de chaque transaction, une valeur en micropaiement ou données.
Les fonds qui restent au fond des systèmes
Pourtant, malgré les refontes de sites, les applications et les innovations technologiques, nos contenus culturels et créatifs sont pratiquement absents du web des données. Les répertoires, catalogues, fonds et archives ne sont accessibles aux humains et aux machines que par l’entremise d’un espace de recherche, souvent peu adapté aux besoins des utilisateurs. La diffusion des contenus dépend généralement de campagnes de promotion ponctuelles et plus ou moins bien ciblées dédiées aux nouveautés, laissant dans l’internet profond des actifs riches qui profiteraient bien de la longue traîne s’ils étaient visibles. Ceci expliquerait en partie le phénomène que décrit l’auteure Annie Bacon dans un récent billet intitulé « Une industrie de la nouveauté ».
L’industrie du livre se rapproche ainsi de l’industrie du cinéma dans laquelle les films n’ont plus que quelques fins de semaines pour convaincre les cinéplexes de les garder en salle. Un mauvais premier week-end et le film disparaîtra avant la fin du mois.
Combien de rendez-vous ratés avec le public et d’opportunités de développement de marché nos industries culturelles ont-elles raté sur le web? Combien de contenus n’ont pas rencontré leurs publics faute d’être visibles et découverts, par recommandation algorithmique ou par simple diffusion de métadonnées au bon endroit?
Le catalogue, actif stratégique?
Nous accusons un retard considérable en matière de diffusion et de distribution de contenu parce que nous ne maîtrisons pas les compétences nécessaires pour transformer nos catalogues et répertoires en données exploitables et interopérables. Si nous n’accordons pas la priorité à ces actifs stratégiques, nous risquons de nous confiner au rôle de fournisseurs et clients de l’économie numérique. Cette économie est celle de la donnée, elle repose sur la diffusion des métadonnées, ces données qui fournissent une description détaillée d’un livre, d’une chanson, d’un film ou tout autre type de contenu. Ces métadonnées facilitent la recherche, favorisent la découverte et permettent aux entreprises d’enrichir leur connaissance du marché en les croisant avec les données résultant de l’interaction des utilisateurs.
La destination, c’est l’utilisateur
Il existe, bien sûr, des programmes qui soutiennent le développement de sites internet et d’applications, ainsi que l’appropriation de nouveaux outils. Il s’agit cependant d’actions morcelées qui, en perpétuant les silos de données, obligent les consommateurs à multiplier leurs recherches ou limitent la découverte de nouvelles offres. Selon cette perspective, chaque site ou application est une destination. Dans une perspective numérique, l’utilisateur est au cœur du modèle par les requêtes qu’il adresse, directement, aux moteurs de recherche, ou indirectement, par ses actions et ses choix. L’utilisateur est devenu la destination.
Laisser le champ libre à Google et cie?
Être visible dans une économie numérique, c’est donc aller à la rencontre de son marché. Ne pas aller à la rencontre des consommateurs en mettant les contenus à leur portée, c’est laisser le champ libre à ceux qui ont compris comment, à partir du contenu intégral ou des métadonnées d’une oeuvre, on peut générer de l’information qui soit intelligible pour des lecteurs ou des applications. Voici pour preuve, cette observation partagée sur Twitter lors du Congrès des milieux documentaires du Québec qui avait lieu cette semaine, à Montréal :
La force des grandes plateformes technologiques repose sur la capacité d’agréger et de croiser des données de sources différentes, de les contextualiser à l’aide des données des utilisateurs et d’en faciliter le repérage et l’interprétation pour diverses applications.
Que faire pour entrer dans le web des données?
Il faut édicter une politique visant à encourager l’adoption, par tous les acteurs des industries culturelles et créatives, d’un modèle de métadonnées harmonisées. En cela, nous pouvons nous inspirer de la Feuille de route stratégique sur les métadonnées culturelles qui a été publiée l’an dernier, par le ministère de la Culture, en France. Ceci permettrait de briser les silos technologiques et de rassembler les entreprises et institutions autour d’un projet numérique commun qui a une véritable portée stratégique.
Une politique de métadonnées culturelles constitue un instrument de gouvernance essentiel dans une économie de la donnée parce qu’elle requiert une collaboration active :
Élaboration d’une vision et d’une stratégie numériques qui soient partagées par les acteurs principaux.
Compréhension commune des objectifs et besoins de chacun. Définition et priorisation des enjeux sémantiques, techniques, juridiques et organisationnels.
Alignement de projets technologiques sur la stratégie (et non l’inverse).
La visibilité des contenus des industries culturelles et créatives devient un enjeu prioritaire pour le Québec qui se prépare à entrer dans l’économie numérique. Nous devrions, sans attendre, nous inspirer des démarches qui ont été entreprises ailleurs et développer nos compétences et notre maîtrise des données.
Entreprises et institutions culturelles, vos contenus sont-ils bien visibles?
La fin du droit d’auteur à l’ère numérique, a commenté Narvic, qui a signalé cet excellent billet de Lionel Maurel, sur S.I.Lex.
Le billet commente le jugement concernant la numérisation d’œuvres littéraires par Google. Selon Lionel Maurel, le jugement est une décision qui conforte les titulaires de droits dans leur conception que rien ne doit changer en matière de gestion des droits d’auteur. Et ceci, même dans un environnement numérique où les usages, les pratiques et les modèles économiques sont irréversiblement modifiés.
Les droits numériques appartiennent aux éditeurs
[ce jugement] une pirouette qui en dit très long sur sa conception des rapports entre auteurs et éditeurs et qui me paraît assez inquiétante pour l’avenir :
“en l’absence de revendication de ou des auteurs, la personne morale qui exploite sous son nom une oeuvre est présumée, à l’égard des tiers contrefacteurs, être titulaire sur cette oeuvre, quelque soit sa nature et de sa qualification, du droit de propriété incorporelle de l’auteur”
Le poids de la preuve reviendra donc aux auteurs.
Commentaires qui enrichissent la réflexion
Il faut lire les commentaires d’Hubert Guillaud (rédacteur en chef d’InternetActu.net et auteur d’un blogue sur l’édition électronique) et de Narvic (ex-journaliste, contributeur à Slate.fr et auteur d’un excellent blogue de veille).
Ce dernier signale, à juste titre, qu’on ne fait que déplacer le problème en proposant des mesures de contrôle. Comme l’affirmait Michael Geist, lors des audiences sur la réforme de la loi canadienne sur la protection du droit d’auteur, il faut protéger la création et non les modèles d’affaires mourants.
Retour sur de nouveaux modèles de distribution: iTunes, Spotify, Deezer, partenariat Google, iLike, Lala. Au delà de la distribution: concerts en ligne sur YouTube, et même sur Facebook.
Le plus intéressant est la production: exemples de Sellaband et MyMajorCompany.com.
En conclusion, après une relation initialement conflictuelle entre le web et l’industrie de la musique (Napster) puis une évolution autour d’initiative personnelles des groupes (MySpace) et de la distribution digitale quasi monopolistique (iTunes), le paysage musical sur internet en 2010 s’annonce plus équilibré, avec une utilisation réelle du potentiel très riche de ce média.
Cette conclusion est probablement trop rose au goût de l’industrie du disque (par cette expression je désigne le modèle traditionnel de production et de diffusion, centré sur une communication unidirectionnelle). À suivre…