Archives de catégorie : Sciences de l’info

Données ouvertes et liées: le web comme base de données

Les données ouvertes et liées (linked open data) sont au cœur des grands projets numériques en culture et leur potentiel va bien au-delà de l’amélioration de la découvrabilité de contenus.

Un web plus intelligent

En 2001,  une décennie après avoir inventé une façon de partager des documents en réseau  (World Wide Web), Tim Berners-Lee propose de renforcer cet espace de collaboration en rendant des données plus facilement utilisables et interprétables par des machines.  Il décrit, dans un article, les objectifs et éléments du web sémantique.  Selon cette extension du web, des données qui sont structurées (par exemple, les métadonnées d’un catalogue de films) peuvent être partagées et réutilisées, indépendamment des enjeux d’interopérabilité technologiques, systémiques et même linguistiques.  D’abord, une mise en contexte sur cette évolution du web qui est également appelée « web de données ».

De stockage centralisé à diffusion décentralisée

La base de données n’est pas conçue pour être interopérable avec toutes les autres bases de données. C’est un mode de gestion centralisée qui date d’avant le web, ses standards et la décentralisation de l’information.  Chaque base de données a une structure et des identifiants qui lui sont spécifiques. De plus, les relations entre les données sont induites, c’est à dire qu’elles ne sont pas exprimées sous forme de données mais par la structure de la base.  Emmagasinées dans une base de données, elle sont donc inaccessibles et difficilement interprétables par des logiciels.  C’est pourquoi, pour que ces données puissent être réutilisées et reliées entre elles, il faut qu’elles soient ouvertes et liées.

Données ouvertes  pour être accessibles

La plupart des données ouvertes qui sont à notre disposition, au Québec et au Canada,  sont disponibles selon des licences qui spécifient les conditions de leur réutilisation. Cependant, celles-ci se trouvent dans des silos qui freinent leur exploitation. Il n’y a pas de structure, de métadonnées et de formats communs entre les jeux de données. Il est donc impossible, pour un agent automatisé, comme une application de recherche, de trouver, parmi les fichiers, les données qui fournissent l’information recherchée.  Il convient alors de les publier « dans le web » sous forme de données liées pour ne pas laisser d’autres sources d’information ou d’autres contenus culturels répondre aux intentions des internautes.

Données ouvertes et liées pour être référencées dans le web

Des données liées sont des données qui sont intelligibles dans un format compréhensible par des machines.  De manière similaire à une page web, on publie une donnée dans le web en lui donnant une adresse ou URI (Uniform Resource Identifier) selon le même protocole de transmission (HTTP). Grâce aux URI qui les identifient, les données ouvertes sont référencées sur le web.  À l’aide des ressources qui sont décrites par les URI, le web sémantique « met en place deux notions très importantes, soit (1) référer à des concepts (et non pas du texte) et (2) faire des liens entre ces concepts. »  Cette distinction entre les recherches navigationnelle (mots clés) et informationnelle (concepts) se trouve dans une très éclairante initiation au web sémantique rédigée par Caroline Barrière, chercheuse en traitement automatique des langues.

C’est en faisant des liens vers ces ressources , à partir de nos propres données, qui sont-elles-mêmes sous forme d’URI, que nous créons des réseaux de données. Ces réseaux permettent à notre culture d’être référencée, trouvée et réutilisée.  En voici un exemple:

Croiser Robert Lepage, François Dompierre et Dominique Michel à la Bibliothèque nationale de France

La mise « dans le web » des données de la Bibliothèque nationale de France a débuté en 2011. C’est un des projets de données ouvertes et liées qui sont soutenus par l’État français, conformément à la Feuille de route stratégique sur les métadonnées culturelles.

Auteurs liées à Laurie Anderson dans data.bnf.fr, les données ouvertes et liées des collections de la Bibliothèque nationale de France.
Auteurs liées à Laurie Anderson dans data.bnf.fr, les données ouvertes et liées des collections de la Bibliothèque nationale de France.

La version web sémantique de la Bibliothèque nationale de France fournit de l’information beaucoup plus utile qu’une liste de documents correspondant aux mots recherchés: un nouveau mode d’accès à la connaissance. Grâce à ses données ouvertes et liées, la BnF rend visible les relations entre des ressources, des personnes et des activités.

C’est ainsi  qu’une recherche sur la compositrice et plasticienne Laurie Anderson nous fait naviguer de la musique au cinéma, en passant par les arts de la scène. En suivant les liens des contributions communes avec d’autres auteurs, on croise Yves Jacques et Robert Lepage (La face cachée de la lune). Et chez Robert Lepage, on peut voir les liens pointant vers les oeuvres qui ont influencé sa création, croiser Denys Arcand et jeter un coup sur une partie de sa filmographie pour découvrir les oeuvres du compositeur François Dompierre et une partie de la carrière de l’actrice Dominique Michel.

Dommage qu’il y ait si peu d’images libres de droits pour mieux représenter les personnes et les créations qui font notre culture. Il faudrait prendre l’habitude de contribuer à Wikimedia Commons, la base de données multimédia à laquelle s’alimentent des projets comme celui de BnF.

Connaissance augmentée et distribuée

Nous pouvons accroître la découvrabilité de notre culture de façon pérenne et innovante. Il est également possible d’étendre la connaissance que nous avons de nos propres ressources en liant nos données entre elles. Nous pourrions alors l’enrichir par des liens vers d’autres sources de données ouvertes et liées qui contiennent de l’information à propos de notre culture et de notre patrimoine, comme BnF, Digital Public Library of  America, MusicBrainz ou VIAF.

Ce ne sont pas les moyens qui manquent pour commencer à expérimenter de nouvelles manières de valoriser des données culturelles.  Un de ces moyens est, par exemple,  le téléversement des données dans Wikidata.

Mais, face à la complexité des enjeux techniques des métadonnées (pour preuve: cette typologie des métadonnées pour le patrimoine culturel), il manque une vision d’ensemble des parcours possibles.  Pour cela, il faut rassembler les compétences informationnelles et technologiques nécessaires pour aider des organismes ou des initiatives collectives à faire des choix afin de démarrer des projets rapidement.

Pourrait-on rêver d’un regroupement interdisciplinaire sur les données ouvertes et liées pour accompagner les démarches et projets dans le secteur culturel ?

Données structurées, données ouvertes et liées: est-ce la même chose ?

Données structurées et données ouvertes et liées sont des expressions dont l’usage indifférencié peut nuire à la prise de décisions qui ont une grande importance pour la réussite d’un projet dans le domaine culturel. Par données structurées , on fait ici référence à la technique d’indexation préconisée par Google (structured data). Ces expressions désignent deux manières différentes de travailler dans le web des données. Ce billet concerne les modèles de données et outils proposés afin de documenter des ressources pour les moteurs de recherche.

Un autre billet abordera les avantages spécifiques des données ouvertes et liées.

Guide des données structurées de Google pour documenter des livres.
Guide des données structurées de Google pour documenter des livres.

Google et le web sémantique

En 2013, Google effectue un des plus importants changements sur son algorithme de recherche en plus d’une décennie.

Baptisée Hummingbird , la nouvelle mouture s’appuie sur le sens et le contexte plutôt que sur la pondération de mots clés. Elle fait également appel à un savoir encyclopédique qui est organisé comme un graphe de connaissances et qui est constitué en grande partie à partir de Freebase, une base de données structurées collaborative, acquise par Google. Cette masse de données, appelée Knowledge Graph, permet de à l’algorithme de classer l’information et, de ce fait, de savoir à quelles autres informations elle est liée. C’est une logique similaire à celle de Wikipédia, où chaque article comporte plusieurs liens internes et externes.

La nouvelle version de l’algorithme peut donc effectuer des recherches en mode « conversationnel » (Où faire réparer mon téléphone?) et, surtout, améliorer les résultats de recherche grâce aux concepts du web sémantique: des métadonnées qui donnent le sens des données et qui permettent de faire des liens qui produisent de l’information. En comprenant le sens et le contexte de la demande, il devient possible, pour le moteur de recherche, de mieux interpréter l’intention de l’individu qui la transmet.

De la liste de pages web aux résultats enrichis

Depuis, la recherche de (méta)données qui font du sens prend progressivement le pas sur la recherche de mots clés. C’est une transition que l’on peut très facilement constater sur nos écrans mobiles. Nous passons donc d’une liste de pages qui comportent les mots clés recherchés à une agrégation d’informations qui résulte de liens entre des données structurées.

Il y a toujours une recherche de pages, mais ce sont les données qui décrivent des « ressources » (personnes, choses, concepts) qui sont désormais importantes. Au web documentaire, celui où l’information est présentée métaphoriquement en pages, s’ajoute le web des données, celui où toute connaissance est de la donnée qui peut être collectée et traitée par des machines. Celles des moteurs de recherche et celles de toute entité qui souhaite s’en servir pour développer un service ou un produit qui aurait de la valeur.

Schema: représentation pour moteurs de recherche

Les données structurées sont exprimées selon un modèle de métadonnées qui a été conçu par un regroupement de moteurs de recherche (Google, Bing, Yahoo! et le russe, Yandex). Ces données sont publiées dans le code HTML des pages où sont présentées les ressources qu’elles décrivent. Ces données sont publiques, mais pas ouvertes. Mais ce sont cependant des données liées puisque le modèle Schema permet de produire des triplets (symphonie pour un homme seul (sujet) – est de type (prédicat)- électroacoustique (objet)). Quelques exemples sont présentés dans un billet précédent l’usage de données structurées par Google. Le rôle des données structurées et des liens vers Wikipédia est expliqué plus en détail dans un guide sur la documentation des contenus produit pour le Fonds indépendant de production, avec la collaboration de TV5.ca et l’appui de la SODEC.

Apprendre à documenter: une étape nécessaire

Alors, documenter une ressource à l’aide de données structurées, en intégrant celles-ci dans la page web de la ressource, est-ce « travailler pour Google » ?

Oui, bien sûr. Mais, ce n’est qu’un premier pas dans l’apprentissage pratique du rôle clé des données dans une économie numérique. Mais s’en tenir à cette étape, c’est conformer notre représentation de la culture à un modèle de représentation et à des impératifs d’affaires qui sont hors de notre contrôle et qui ne répondent à des impératifs économiques qui avantagent la plateforme.

Ne pas dépendre d’entreprises qui se placent au-dessus des lois et des États est un des enjeux qui motivent des gouvernements et des institutions à soutenir, par des politiques et des programmes de financement, des projets basés sur les principes et les technologies du web sémantique qu’ils peuvent contrôler. Nous verrons, dans un prochain billet, les opportunités qu’offrent ces technologies pour l’innovation et la promotion de la culture.

Trois enjeux communs pour les métadonnées en culture

Voici trois enjeux dont il faudrait discuter, de façon prioritaire, au sein des organismes, institutions, entreprises et regroupements associatifs afin de tracer des itinéraires et des destinations dans une problématique dense et complexe.
Chasse aux trésors

1. Mise à niveau de nos systèmes d’information

La problématique des métadonnées, dans le domaine culturel, prend sa source en amont des processus de gestion de l’information, soit lors de la saisie des données dans un un système ou un logiciel qui n’a pas été conçu pour générer des métadonnées interopérables. Il est également plus facile  de convaincre des gestionnaires d’investir dans  un nouveau site web que dans un modèle de métadonnées  normalisées et interopérables pour lequel il est difficile de fixer des indicateurs de rendement.

Qualité des données

Plus de 60% du temps de travail des experts  des données est consacré au nettoyage  et à l’organisation des données. Il est possible de produire des données qui soient exploitables, plus facilement et à moindre coût, en  mettant en application des principes de qualité inspirés, par exemple, de ceux qui guident la production de données ouvertes et liées pour l’Union européenne.

De la base de données au web de données

Au web des documents, s’est ajouté celui des données. Nous nous éveillons lentement à des modes de représentation et d’exploitation de l’information qui ne font plus référence à des pages, mais à des connaissances et à des ressources.

Dans le web, un contenu c’est de la donnée. Si les pages web s’adressant à des humains demeurent toujours utiles, ce sont les données décrivant des ressources (modèle Schema ou triplets du web sémantique) qui permettent à certaines technologies de classer et de relier l’information obtenue afin de nous fournir des réponses et, surtout, des suggestions.

Indexation de contenu et normalisation de données

Bien que des termes comme « métadonnées » et, même « web sémantique », se retrouvent désormais au programme de nombreux événements professionnels, au Québec et au Canada, trop rares sont les initiatives et projets où il est fait appel à  des équipes pluridisciplinaires comme cela se fait au sein de gouvernements, d’institutions ou d’initiatives collectives, en Europe et aux États-Unis.

Est-il possible de réaliser des projets d’une complexité et d’une envergure que l’on peine à mesurer en dehors du cadre habituel d’un projet de développement technologique ?  On peut en douter. Nous manquons de compétences en ce qui concerne la représentation de l’information sous  forme de données liées, ainsi que sur les principes et méthodes de la documentation de ressources.  Comment pourrions-nous, alors, atteindre des objectifs qui permettraient de tirer tous les avantages possibles des données qui décrivent nos contenus culturels ?

Plus concrètement, comment pourrions-nous entreprendre les démarches nécessaires à la réalisation  d’objectifs similaires à ceux du projet DOREMUS  qui  réunit Radio France, Philharmonie de Paris et Bibliothèque nationale de France ?

«Permettre aux institutions culturelles, aux éditeurs
et distributeurs, aux communautés de passionnés
de disposer :

  • de modèles de connaissance communs (ontologies)
  • de référentiels partagés et multilingues
  • de méthodes pour publier, partager, connecter, contextualiser, enrichir les catalogues d’œuvres et d’événements musicaux dans le web de données

Construire et valider les outils pédagogiques qui permettront le déploiement des standards, référentiels et technologies dans les institutions culturelles

Construire un outil d’assistance à la sélection d’œuvres
musicales.»

Il serait temps de moderniser les programmes  de formation  universitaire en bibliothéconomie et sciences de l’information et en technologies de l’information et d’encourager des intersections. Sans quoi, nous ne disposerons pas suffisamment de ressources compétentes pour passer du web des documents au web des données.

2. Décentralisation de la production de métadonnées

Les initiatives qui présentent le plus grand potentiel pour le développement de compétences  en matière de  production et réutilisation de données sont celles où les organismes sont appelés à participer activement à l’élaboration de leurs modèles de données, aux décisions en ce qui a trait à l’utilisation des données et à la conception de produits ou services. C’est par la pratique que les gestionnaires et entrepreneurs sont sensibilisés à l’utilité et à la valeur des données qu’ils produisent et qu’ils collectent.

Comme le signale Fred Cavazza, dans un récent billet, il nous faut réduire la dette numérique avant d’entreprendre une véritable  transformation:

«Nommer un CDO, créer un incubateur, organiser un hackathon ou nouer un partenariat avec Google ou IBM ne vous aidera pas à vous transformer, au contraire, cela ne fera que reporter l’échéance. Il est donc essentiel de réduire la distance au numérique pour chaque collaborateur, et pas seulement les plus jeunes ou ceux qui sont directement impliqués dans un projet.»

À ce titre, externaliser l’indexation des ressources culturelles (production de métadonnées) ne saurait être considéré comme un choix stratégique dans une économie numérique puisqu’il éloigne les acteurs du traitement des données et les confine à des rôles de clients ou d’utilisateurs, sans opportunités d’apprentissage pratique. En effet, se pencher  sur l’amélioration  et la valorisation de données descriptives et de données d’usage est le meilleur moyen de développer une culture de la donnée et d’acquérir les connaissances qui permettent de transformer des pratiques et de se réinventer. En plus de responsabiliser les organismes et entreprises et d’assurer la découvrabilité numérique de leurs ressources,  la décentralisation de la production de métadonnées renforce la résilience de l’écosystème; chacun des acteurs devenant un foyer potentiel de partage de connaissances et d’expérience.

3. Reconnaissance de la diversité des modèles de représentation

La centralisation de la production de métadonnées favorise généralement l’adoption d’un  seul modèle de représentation des ressources, au détriment de la diversité des missions, des cultures,  et des pratiques. Dans le domaine du patrimoine culturel, par exemple, il existe près d’une centaine de modèles de description différents. Tous ne conviennent pas à la production de données ouvertes et liées, mais il demeure que cette diversité des modèles est essentielle car elle répond à des besoins et contextes d’utilisation spécifiques.

C’est dans le même esprit, qui a permis au web de devenir ce qu’il est (voir « small pieces loosely joined » de David Weinberger, un des penseurs du web), qu’il faut s’entendre sur des principes  et des éléments permettant de faire des relations entre différents modèles de métadonnées.  Cette démarche comporte des enjeux de nature conceptuelle, technologique, voire même économiques et de politiques publiques. Face à un tel niveau de complexité,  nous ne devrions pas tarder à rassembler, autour de ces enjeux, des spécialistes  du développement d’ontologies et des questions d’interopérabilité des métadonnées.

*

Ce ne sont pas de nouveaux portails, plateformes et applications qui nous permettront de ne pas dépendre totalement d’entreprises se plaçant au-dessus des États eux-mêmes. Une « solution technologique » aussi extraordinaire soit-t-elle, ne remplace pas une vision et des stratégies. Surtout lorsque les modèles économiques, dont nous tentons d’imiter les interfaces sans en maîtriser le fonctionnement, reposent sur l’exploitation de données par des algorithmes et des technologies d’intelligence artificielle.

Musées: des données ouvertes aux données ouvertes et liées

Données ouvertes et liées: connexions possibles entre les données de différentes institutions.
Si nos collections étaient dans le web des données, elles pourraient se lier aux données mondiales de la culture grâce aux métadonnées descriptives.

Comment les musées peuvent-ils rester pertinents dans l’espace numérique ? Alors que la recherche et la découverte de nouvelles connaissances passent par l’intermédiation des moissonneurs de données, robots indexeurs et algorithmes de filtrage, la richesse des institutions de mémoire collective n’est ni accessible, ni compréhensible à ceux-ci.

En sortant de leurs voûtes technologiques les données qui décrivent les objets composant leurs collection, les musées peuvent multiplier les opportunités afin qu’elles se trouvent sur le parcours des machines et des internautes.

Libérer des données pour développer de nouvelles compétences numériques

Cependant, pour publier des données dans le web, il faut convertir celles-ci afin de leur donner des métadonnées et une syntaxe qui soient compréhensibles pour des machines. Même limité à une petite collection d’objets, ce chantier s’avère exigeant pour une équipe ne disposant pas des connaissances des modèles et standards de métadonnées, ainsi que des technologies du web sémantique. C’est pourquoi libérer un ensemble de données constitue un projet idéal pour se familiariser avec les concepts et les enjeux spécifiques à l’exploitation de données dans le web.

Un exemple ? Nathalie Thibault (Musée national des beaux-arts du Québec) et Isa Mailloux (Musées de la civilisation) partagent leurs expériences acquises avec des projets de données ouvertes.

De données ouvertes à données ouvertes et liées: quoi, pourquoi, comment

La vidéo précédente est tirée du dossier Données ouvertes au musée préparé par la Société des musées du Québec (SMQ).  C’est sur le thème des données ouvertes que cette dernière avait organisé les conférences et discussions de la journée professionnelle du 22 juin dernier. Dans la perspective du web des données, de l’apprentissage machine et du traitement algorithmique de l’information, les données ouvertes et liées apparaissent comme la suite logique des données ouvertes. Conçu en collaboration avec l’équipe de la SMQ, le document (PDF 11,2 Mo) qui accompagne les vidéos des présentations a pour objectif de présenter de façon accessible le quoi, le pourquoi et le comment des données ouvertes et des données ouvertes et liées dans le contexte spécifique aux collections muséales.

De la découvrabilité à l’intelligence artificielle

Publier des données dans le web permet d’opérer des changements radicaux, mais nécessaires dans un contexte de transformation numérique:

Exposer l’information et aller à la rencontre des publics

Il faut sortir l’information des voûtes technologiques, car celle-ci a plus de valeur pour l’utilisateur, lorsqu’elle peut être mise en relation, enrichie et contextualisée, que lorsqu’elle est isolée. Dans une économie de l’attention mondialisée, offrir une information tissée en réseau, navigable et exploitable dans le web est plus stratégique qu’attendre la visite d’internautes, chacun sur son site web.

Collaborer et mutualiser les ressources et compétences

Puisque les réseaux se construisent sur la confiance, il faut considérer les autres institutions et acteurs du domaine culturel comme des alliés et, possiblement, des partenaires potentiels afin de travailler collectivement à rendre nos sources d’information interopérables. Ensemble, nous pouvons réaliser beaucoup plus et beaucoup mieux.

Faire des liens et générer plus d’information

Grâce aux métadonnées qui en précisent le sens (par exemple, les métadonnées creator ou subject permettent de distinguer une personne dans son rôle de créateur d’une œuvre ou de sujet d’une œuvre), il est possible de relier entre elles des données provenant de sources différentes. Et ceci, même si les modèles de métadonnées employés ne sont pas les mêmes, pour autant que ces derniers soient issus de référentiels standards et ouverts. La recherche d’information n’est donc plus limitée à un ensemble d’éléments fini et prévisible tel que le contenu d’une base de données. Par le jeu des relations ou par inférences, elle peut déboucher sur une nouvelle information qui n’était pas présente dans l’ensemble initial.

Penser agrégation de données plutôt que sites web

Parce que les données constituent le capital de l’économie numérique, libérer des données permet d’acquérir des connaissances et pratiques essentielles pour le développement de produits et services innovants. Il ne faudrait cependant pas se satisfaire de la production d’ensembles de données constituant, même au sein du domaine muséal, des silos d’information non exploitables dans le web et non-interopérables. Les données ouvertes sont donc une étape vers les données ouvertes et liées et la possibilité de réaliser l’agrégation des données culturelles québécoises.

Le web sémantique permet d’élaborer des requêtes et de programmer des algorithmes qui réalisent des opérations de raisonnement en mettant en relation des informations faisant du sens. Les données ouvertes et liées nous amènent à l’intelligence artificielle grâce à laquelle nous pouvons étendre le champ de nos connaissances et avoir, sur nos collections, une perspective intégrée que ne peuvent nous donner des bases de données isolées les unes des autres.

Web des données: les connexions qui transforment

Web des données depuis 4 ans (2010).

Comme il est possible de le constater en effectuant une recherche avec Google, le web se transforme progressivement et, avec lui, les systèmes d’information.

Nous passons de bases données qui sont conçues pour retrouver une information à des données ouvertes et liées qui, publiées dans le web, permettent à des machines d’établir des connexions et de générer, par inférence, une information qui ne se trouve pas dans notre base de données.

Sélection de lectures parmi mes signets les plus récents sur Diigo:

Connexion

Le web a été conçu pour être exploré par des humains et par des machines. Pour les modèles d’affaires numériques, la découverte de ce que nous ignorions a beaucoup plus de valeur que la recherche de choses que nous connaissons.  C’est, notamment, pour cette raison que les géants du numériques investissent dans les technologies du web sémantique (ou web des données) car elles permettent de représenter les connexions possibles entre différents éléments d’information.

“The value that I see going forward is the linking part of the data environment,” Wiggins added. “You start searching at one point, but you may be linked to things you didn’t know existed because of how another institution has listed it. This new system will show the relationship there. That’s going to be the piece that makes this transformative. It is the linking that is going to be the transformative.”

Searching for Lost Knowledge in the Age of Intelligent Machines – As search engines are radically reinvented, computers and people are becoming partners in exploration.

Curation de données

Nouvelle compétence clé: la curation de données, à la quelle on ajoutera le nécessaire esprit critique qui ne peut être remplacé par les algorithmes.

Avec tous les algorithmes statistiques et tous les outils d’analyse automatique de données (« big data analytics ») du monde, nous aurons encore besoin d’hypothèses causales, de théories et de systèmes de catégorisation pour soutenir ces théories. Les corrélations statistiques peuvent suggérer des hypothèses causales mais elles ne les remplacent pas. Car nous voulons non seulement prédire le comportement de phénomènes complexes, mais aussi les comprendre et agir sur la base de cette compréhension. Or l’action efficace suppose une saisie des causes réelles et non seulement la perception de corrélations. Sans les intuitions et les théories dérivées de notre connaissance personnelle d’un domaine, les outils d’analyse automatique de données ne seront pas utilisés à bon escient. Poser de bonnes questions aux données n’est pas une entreprise triviale !

La litéracie en curation de données

Médiation

Comment éveiller des décideurs aux changements radicaux qui sont annoncés partout, mais qui ne s’expérimentent pas dans le quotidien puisqu’il se transforme de façon beaucoup plus lente et progressive ?

In addition to the artworks and product demos, there are video infographics explaining what companies can and are doing with your data right now, whether it’s credit score calculation, email metadata analysis, or how your wifi-enabled smartphone is basically always snitching on you.

Once you’re thoroughly alarmed by the reality of what we have given up in freedom for the conveniences wrought by our ad-driven world, the team has helpfully created a Data Detox Bar where you can learn about reasserting control over your network existence and limiting your exposure. And the entire exhibit is staffed with all white-wearing “Ingeniouses” who will answer questions or just provide a shoulder to scream into after discovering that there is no such thing as “anonymized data.”

For the truly curious, of which I am one, there are workshops and presentations that provide an even deeper look into the gaping maw of our networked world.

Go to The Glass Room. If Black Mirror Had a Showroom, This Would Be It

Nos contenus culturels sont absents du web des données

Ne pas être préoccupé de la présence et de la visibilité des contenus des industries culturelles et créatives sur le web, c’est, pour une institution: attendre d’être obsolète ou, pour une entreprise:  être bientôt ou déjà mise hors jeu par les grands intermédiaires technologiques.

Googlelisation des contenus culturels: captation de l'attention et des données des interactions. Tweet partagé lors du Congrès des milieux documentaires du Québec, 19 novembre 2015.
Googlelisation des contenus culturels: captation de l’attention et des données des interactions. Tweet partagé lors du Congrès des milieux documentaires du Québec, 19 novembre 2015.

 

Mais dans tous les cas de figure, c’est être les grandes perdantes de la guerre que se livrent les grandes plateformes pour occuper nos écrans et promouvoir les contenus qu’elles ont sélectionnés en fonction de leur stratégie. Cette stratégie repose fondamentalement le transfert de la création de valeur du produit à la plateforme. Dans ce modèle, ce sont les règles d’affaires ,et non les produits qui s’adaptent selon les besoins des marchés.  Ces règles d’affaires sont les algorithmes qui  traitent les métadonnées des catalogues, ainsi que les données générées par les interactions avec les consommateurs.

Dans un billet publié la semaine dernière,sur la découvrabilité des contenus culturels, j’ai dénoncé sur la faible exploitation des catalogues, répertoires et archives de contenus et sur la perpétuation des silos de données qui font que nos produits culturels n’ont pas de masse critique, et donc d’existence, dans le web des données.

Parler de découvrabilité sans s’interroger sur les conditions requises pour provoquer la rencontre de l’offre et la demande ou pour favoriser la fortuité du croisement entre une attention disponible et une offre, c’est chercher une médication sans avoir établi de diagnostic médical.

Bien sûr, la découvrabilité est un concept qui ne date pas d’hier. À tout le moins, dans le domaine des sciences de l’information, c’est un élément familier de l’économie du document. Et certainement, il y a différents parcours de découverte pour les contenus: critique, recommandation, promotion, en ligne et hors ligne.

Mais le parcours le plus rentable est celui qui permet de tracer les contenus, de suivre leur consommation, de collecter les données sur lesquelles reposent des décisions tactiques et stratégiques. Ce parcours est celui va de la mise en ligne du catalogue (ou pour les plus avancés, la mise à disposition des données du catalogue en mode public ou ouvert) à l’enrichissement des données d’usage par les consommateurs et, indirectement, par les partenaires.

C’est ce parcours que nos institutions culturelles , comme nos entreprises de la culture et du divertissement, ne perçoivent pas encore comme une condition essentielle de survie, mais surtout, d’autonomie et de contrôle sur le pétrole de l’économie numérique: la donnée.

Comme je le mentionnais, dans le blogue de Direction Informatique,  à propos du commerce électronique:

Le catalogue de produits demeure le maillon faible du commerce électronique au Québec. Pour trop d’entreprises, c’est encore une brochure ou, au mieux, une arborescence de site web. Mais pour les plateformes commerciales à succès, il s’agit plutôt d’un ensemble de données structurées s’adressant aux consommateurs afin de faciliter leurs décisions d’achat. Et pour celles qui sont entrées dans l’économie numérique, c’est aussi la composante d’un système d’information stratégique.

Pour avoir un aperçu de ce que pourrait être ce système d’information stratégique, en culture, il faut absolument lire le 3e cahier Innovation et prospective de la CNIL. Pendant ce temps, nos institutions de mémoire collective (bibliothèques, musées, archives) découvrent le web social et participatif et se demandent s’il faut ouvrir les contenus à la participation du public.

Alors, serons-nous uniquement les clients et utilisateurs des grandes plateformes ou deviendrons-nous les créateurs et bâtisseurs de cette économie numérique?

 

Découverabilité: nos contenus culturels sont-ils visibles?

Initialement publié dans le blogue de Direction informatique, le 20 novembre 2015.

Tout comme dans le commerce électronique, le catalogue est le maillon faible des industries culturelles et créatives au Québec. À lire l’invitation du Sommet sur la découvrabilité, il semble que nous n’ayons pas encore réalisé ce qui fait le succès des plateformes comme Amazon, Netflix, iTunes ou YouTube : une culture de la donnée qui favorise les rencontres entre l’offre et la demande.

Trop rares sont les entreprises qui, quel que soit leur secteur d’activité, exploitent leurs actifs informationnels sur le web ainsi que le font de nouveaux acteurs issus du numérique qui sont ou qui deviendront rapidement leurs plus féroces concurrents. À ceux-ci il faut ajouter les géants technologiques qui ont choisi le modèle de la plateforme, plutôt que celui du produit, et qui captent lors de chaque transaction, une valeur en micropaiement ou données.

Les fonds qui restent au fond des systèmes 

Pourtant, malgré les refontes de sites, les applications et les innovations technologiques, nos contenus culturels et créatifs sont pratiquement absents du web des données. Les répertoires, catalogues, fonds et archives ne sont accessibles aux humains et aux machines que par l’entremise d’un espace de recherche, souvent peu adapté aux besoins des utilisateurs. La diffusion des contenus dépend généralement de campagnes de promotion ponctuelles et plus ou moins bien ciblées dédiées aux nouveautés, laissant dans l’internet profond des actifs riches qui profiteraient bien de la longue traîne s’ils étaient visibles. Ceci expliquerait en partie le phénomène que décrit l’auteure Annie Bacon dans un récent billet intitulé « Une industrie de la nouveauté ».

L’industrie du livre se rapproche ainsi de l’industrie du cinéma dans laquelle les films n’ont plus que quelques fins de semaines pour convaincre les cinéplexes de les garder en salle. Un mauvais premier week-end et le film disparaîtra avant la fin du mois.

Combien de rendez-vous ratés avec le public et d’opportunités de développement de marché nos industries culturelles ont-elles raté sur le web? Combien de contenus n’ont pas rencontré leurs publics faute d’être visibles et découverts, par recommandation algorithmique ou par simple diffusion de métadonnées au bon endroit?

Le catalogue, actif stratégique?

Nous accusons un retard considérable en matière de diffusion et de distribution de contenu parce que nous ne maîtrisons pas les compétences nécessaires pour transformer nos catalogues et répertoires en données exploitables et interopérables. Si nous n’accordons pas la priorité à ces actifs stratégiques, nous risquons de nous confiner au rôle de fournisseurs et clients de l’économie numérique.  Cette économie est celle de la donnée, elle repose sur la diffusion des métadonnées, ces données qui fournissent une description détaillée d’un livre, d’une chanson, d’un film ou tout autre type de contenu. Ces métadonnées facilitent la recherche, favorisent la découverte et permettent aux entreprises d’enrichir leur connaissance du marché en les croisant avec les données résultant de l’interaction des utilisateurs.

La destination, c’est l’utilisateur

Il existe, bien sûr,  des programmes qui soutiennent le développement de sites internet et d’applications, ainsi que l’appropriation de nouveaux outils. Il s’agit cependant d’actions morcelées qui, en perpétuant les silos de données, obligent les consommateurs à multiplier leurs recherches ou limitent la découverte de nouvelles offres. Selon cette perspective, chaque site ou application est une destination. Dans une perspective numérique, l’utilisateur est au cœur du modèle par les requêtes qu’il adresse, directement, aux moteurs de recherche, ou indirectement, par ses actions et ses choix. L’utilisateur est devenu la destination.

Laisser le champ libre à Google et cie?

Être visible dans une économie numérique, c’est donc aller à la rencontre de son marché. Ne pas aller à la rencontre des consommateurs en mettant les contenus à leur portée, c’est laisser le champ libre à ceux qui ont compris comment, à partir du contenu intégral ou des métadonnées d’une oeuvre, on peut générer de l’information qui soit intelligible pour des lecteurs ou des applications. Voici pour preuve, cette observation partagée sur Twitter lors du Congrès des milieux documentaires du Québec qui avait lieu cette semaine, à Montréal :

McGill-GoogleScholar_tweet-cmd2015

La force des grandes plateformes technologiques repose sur la capacité d’agréger et de croiser des données de sources différentes, de les contextualiser à l’aide des données des utilisateurs et d’en faciliter le repérage et l’interprétation pour diverses applications.

Que faire pour entrer dans le web des données?

Il faut édicter une politique visant à encourager l’adoption,  par tous les acteurs des industries culturelles et créatives, d’un modèle de métadonnées harmonisées. En cela, nous pouvons nous inspirer de la Feuille de route stratégique sur les métadonnées culturelles qui a été publiée l’an dernier, par le ministère de la Culture, en France. Ceci permettrait de briser les silos technologiques et de rassembler les entreprises et institutions autour d’un projet numérique commun qui a une véritable portée stratégique.

Une politique de métadonnées culturelles constitue un instrument de gouvernance essentiel dans une économie de la donnée parce qu’elle requiert une collaboration active :

  • Élaboration d’une vision et d’une stratégie numériques qui soient partagées par les acteurs principaux.
  • Compréhension commune des objectifs et besoins de chacun. Définition et priorisation des enjeux sémantiques, techniques, juridiques et organisationnels.
  • Alignement de projets technologiques sur la stratégie (et non l’inverse).

La visibilité des contenus des industries culturelles et créatives devient un enjeu prioritaire pour le Québec qui se prépare à entrer dans l’économie numérique. Nous devrions, sans attendre, nous inspirer des démarches qui ont été entreprises ailleurs et développer nos compétences et notre maîtrise des données.

Entreprises et institutions culturelles, vos contenus sont-ils bien visibles?

Expo67 à l’ère numérique: nos mémoires mises en réseau

Pourquoi s’intéresser aux souvenirs d’Expo67 quand « Internet, c’est une exposition universelle à tous les jours » ?

Écoutez bien Julie Bélanger, fondatrice du groupe Expo67 sur Facebook, et Luc Gauvreau, passionné de culture et d’histoire (et un peu geek à heures). Les valeurs et l’esprit de l’événement qui a fait entrer le Québec dans la modernité sont encore bien présents et ont également marqué l’ADN culturel de Montréal.

En participant au hackathon des Journées de la culture, à Montréal du 25 au 27 septembre 2015, Luc et moi souhaitons attirer l’attention des institutions (bibliothèques, musées, archives) sur les contributions citoyennes à la mémoire collective à l’ère numérique:

  • Comment celles-ci pourraient-elles se connecter à nos souvenirs partagés?
  • Comment pourraient-elles entrecroiser nos mémoires avec leurs propres collections?

Le 50e anniversaire d’Expo67 sera plus qu’une commémoration, ce sera un point de départ pour la mise en réseau de nos mémoires et de nos cultures. Et si l’esprit d’Expo67 se manifestait dans l’île de Montréal, ses bibliothèques publiques et ses lieux de culture lors de cet anniversaire alors que nous soufflerons les 375 bougies de Montréal ?

Vidéo réalisée par Christian Aubry, au Parc Jean-Drapeau (Expo67, Terre des Hommes), le 19 septembre 2015.

Culture participative et mémoire collective: tous curateurs des souvenirs d’Expo 67

Expo 67 c’est plus qu’un événement: c’est un « éveillement ».

Ce mot est de Luc Gauvreau, un spécialiste de littérature et d’histoire québécoise qui devenu un peu geek à force de numériser des documents pour en extraire des données et les passer à la moulinette de Google Refine.

Je ferai équipe avec Luc (et d’autres volontaires) lors de l’édition montréalaise du Hackathon des Journées de la culture, du 25 au 27 septembre prochains.

Plan de l'Expo 67 appliqué sur une vue par satellite (Google Earth) des îles Saine-Hélène et Notre-Dame.
Plan de l’Expo 67 appliqué sur une vue par satellite (Google Earth) des îles Saine-Hélène et Notre-Dame.

En 2017, Montréal célébrera son 375e anniversaire. Il y aura également 50 ans que, dans un Québec tout juste sorti de la Grande noirceur,  une ville accueillait le monde sur des îlots au milieu du fleuve. Nous nous proposons de réutiliser ou adapter des technologies existantes et gratuites afin de cartographier les lieux et pavillons d’Expo 67 et d’enrichir la documentation disponible avec les contributions des citoyens. Cette interface permettra de stimuler la mémoire des visiteurs et des témoins afin de recueillir leurs souvenirs. Réunis dans un grand calendrier collectif des événements, ces témoignages pourront ainsi être partagés avec les générations plus jeunes.

Le web a permis aux passionnés d’histoire et de culture comme Luc de déterrer des documents enfouis dans les répertoires et bases de données, de partager les fruits de leurs recherches et d’accomplir des tâches souvent ingrates et pour lesquelles les institutions ont peu de ressources (ou d’intérêt). Je crois, comme Luc, que nous devons réanimer la mémoire d’un lieu qui, bien qu’aujourd’hui disparu, a tourné définitivement Montréal vers le monde et a activé dans son ADN la curiosité, l’ingéniosité, l’envie de faire autrement et un goût prononcé pour les rassemblements festifs.  Réactiver Expo 67 dans la mémoire de chacun, c’est aussi ouvrir un laboratoire nouveau pour transmettre la culture.

Nous disposons des éléments suivants:

Mises à jour (16/09/2015)

  • Site Villes éphémères, de Roger La Roche qui fait un impressionnant travail de documentation. Un bon exemple de la contribution des citoyens-experts au travail de mémoire collective.
  • Expo67 – Vive le Québec moderne! Ce blogue, signé prettykitsch, est un coffre au trésor. Parmi de très nombreux documents et anecdotes, on y trouve les archives de Claire Cloutier La Chance, qui travaillait au service des relations publiques de l’Expo, à titre de responsable des manifestations spéciales et des cérémonies officielles de la Place des Nations.

Mise à jour (17/09/2015)

  • Expo Lounge, très chouette blogue, en anglais, d’un amateur de la culture populaire de l’époque (et fan de Michèle Richard). Mention spéciale pour les anecdotes et liens vers des trouvailles.

Mise à jour (18-09-2015)

Nous recherchons des équipiers qui pourront contribuer, par leurs connaissances techniques et leurs conseils,  à faciliter la cartographie collaborative du site. Nous souhaiterions, notamment, que les citoyens puissent ajouter (sans programmation) des éléments sur la carte, les enrichir par leurs commentaires et liens vers d’autres ressources.

En complément, voici deux vidéos repérées par Luc, parmi une multitude de documents partagés sur YouTube:

Tout comme Luc, les membres du groupe Expo sur Facebook et tant d’autres ailleurs sur Internet, l’auteur de ces modélisations expose au présent des bribes de notre histoire sociale et culturelle.  Le projet que nous souhaitons concrétiser lors du hackathon est bien plus que de la technologie. Il vise une mise en relation d’éléments qui leur donnera encore plus de sens et une mise en réseau de passionnés autour d’un sujet commun. Nous avons bon espoir que les institutions de la mémoire collective accueillent avec intérêt les initiatives issues des cultures de la participation et du réseau.

Il est primordial que  la mémoire de cet événement ne se perde pas et qu’il soit possible aux générations futures de découvrir ce qui a amener le monde à Montréal et permis aux Montréalais de s’ouvrir sur le monde.

La #charte sur Twitter: les mots dépassent-ils la pensée ?

Analyse du contenu et des interactions à propos de la Charte des valeurs québécoises sur Twitter.

Projet lancé à 00h00 le 12 septembre 2013, avec le logiciel d’analyse de Nexalogy. Données recueillies en français (#charte et charte AND polqc) et en anglais (#charte et charter + (qc OR quebec OR polqc)).

Campagne de recrutement - Lakeridge Health

Depuis jeudi dernier, le grand gagnant (flux français et anglais) de l’agitation sur Twitter est un hôpital en Ontario qui est à la recherche de personnel et qui a rapidement repéré l’opportunité. Les hyperliens menant vers la page Facebook de la campagne, ainsi que les différentes affiches publicitaires se sont rapidement propagées parmi les flux sous observation.

Dans l’ensemble, la cartographie des thèmes et groupes lexicaux présente un enchevêtrement confus d’émotions, d’accusations, de sarcasmes et de liens d’actualité. Les appels à l’unité y sont à peine visibles car trop peu fréquents.

Religion et politique

Parmi les thèmes présents, celui de la religion est prépondérant. C’est de l’Islam, plus que toute autre religion, dont il est surtout question; notamment, au sujet du port du voile.

Depuis samedi dernier, jour de la manifestation contre la charte, une thématique a pris de l’ampleur: les droits des femmes. Le mot « femmes » figure au 7e rang des 200 mots les plus fréquents. En marge des autres groupes lexicaux, celui-ci fait état des enjeux entre féminisme et pratiques religieuses.

La politique provinciale occupe une part importante des contenus. De nombreuses publications sont des déclarations partisanes qui concernent plus le Parti Québécois que le contenu de la charte.

Carte lexicale du flux #charte - en français - sur Twitter
Carte lexicale des contenus du flux #charte, en français, sur Twitter, 12 au 16 septembre 2013 (Nexalogy)

Société distincte ?

À la différence du flux français,  le flux anglais a de nombreux contributeurs hors-Québec. Là aussi, la politique s’est invitée:  les personnalités de 4 partis fédéraux sont très fréquemment mentionnées (au bas de la carte) et le commentaire d’un député conservateur (Jason Kenney, tout en haut de la carte) a abondamment circulé.

L’intégration des immigrants, les valeurs partagées et la laïcité, ne sont pas des sujets de controverse qui sont spécifiques au Québec : de nombreux liens échangés proviennent de sources hors-Québec et font référence à des controverses qui ont lieu dans d’autres provinces.

Carte lexicale du flux #charte - en anglais - sur Twitter
Carte lexicale des contenus du flux #charte, en anglais, sur Twitter, 12 au 16 septembre 2013 (Nexalogy)

Quelles valeurs ?

Des 200 mots les plus fréquents parmi les 16 200 tweets recueillis jusqu’à présent sur le flux français, 4 termes font références à des valeurs :

  • 5.  laïcité (575 fois)
  • 37. inclusif (225 fois)
  • 75. égalité (143)
  • 90. liberté (133 fois)

Des 200 mots les plus fréquents parmi les 11 500 tweets recueillis jusqu’à présent sur le flux en anglais, 6 termes font références à des valeurs :

  • 36. secularism (167 fois)
  • 72. freedom (104 fois)
  • 87. diversity (82 fois)
  • 168. freedoms (50 fois)
  • 183. equality (46 fois)
  • 199. inclusive (43 fois)

Quel débat ?

Dans un billet qu’il a publié ce dimanche, Clément Laberge se demande si l’instantanéité, n’étouffe pas le débat.

On peut-tu prendre un break? Une semaine? Pour laisser retomber un peu la poussière. Pour se donner le temps de lire les documents auxquels on fait référence, pour écouter attentivement les défenseurs et les opposants — et les amener à expliquer ce qu’ils appuient et ce qu’ils dénoncent dans la proposition. Pour sortir des antagonismes et créer un climat plus propice à l’expression des nuances et à la formulation de propositions alternatives — parce que le document peut certainement être amélioré; et qu’il a d’ailleurs été présenté comme tel.

Cette réflexion rappelle le dernier ouvrage de Douglas Rushkoff, Present Schock – When everything happens now, où il présente les effets sur notre comportement, d’une existance en temps réel. Au cours d’une entrevue, il illustre bien l’effet de l’instantanéité sur nos conversations numériques:

Remember those early conversations on the Well? We got to sound smarter than we were in real life, because we had all the time in the world to respond. They were asynchronous conversations, fully consonant with the asynchronous character of digital technology. When we strap this stuff to our bodies and respond to each vibration, we are turning them into something very different.