Archives par mot-clé : modèles

Web sémantique: de choc culturel à transformation numérique

 

Transformation numérique: de réseau centralisé à décentralisé, puis distribué.
Par Aleixmateuc [CC BY-SA 4.0 (https://creativecommons.org/licenses/by-sa/4.0)], de Wikimedia Commons
On ne passe pas des silos de bases de données classiques aux graphes de données liées sans remettre en question des méthodes de travail et des habitudes. Par les changements qu’il entraîne, un premier projet web sémantique constitue un choc culturel, un environnement d’apprentissage et, au final, une véritable transformation numérique pour toute forme d’organisation.

C’est que nous avons pu constater au fil des présentations de la troisième édition du Colloque sur le web sémantique au Québec. Quelle que soit la nature de la problématique, du projet et du secteur d’activité considéré, tous les conférenciers ont fait état de changements nécessaires pour profiter des avantages du web de données.

Ces changements se manifestent à plusieurs niveaux: technologique, organisationnel, culturel, professionnel et structurel.

De fragmentation à intégration

Changement technologique – Le web sémantique permet de fournir des solutions aux problèmes d’interopérabilité des systèmes en affranchissant les données des environnements matériels et logiciels ne favorisant pas les interconnexions. Il devient donc essentiel, pour les professionnels de l’informatique, de se familiariser avec les graphes de données liées et d’adopter des standards ouverts qui permettent de sortir les données des silos des bases de données classiques. Ces nouvelles connaissances sont nécessaires à l’accompagnement des autres secteurs métiers et à ce que le service informatique contribue à l’élaboration d’une définition partagée des normes, règles et processus pour la qualité des données.

▷ Pour aller plus loin: démonstration très accessible des limites de  la base de données classique et des possibilités qu’offre le graphe de données liées pour le traitement des connaissances, par Gautier Poupeau, architecte de données à l’Institut national de l’audiovisuel (INA), France.

De centralisation à distribution

Changement organisationnel – Un projet de données liées (ou ouvertes et liées) est une démarche interdisciplinaire et collaborative. À l’image du Web, qui ne se développe pas de façon centralisée mais distribuée, la qualité des données devrait être une responsabilité partagée par toutes les fonctions d’une organisation.

Pour avoir des données et métadonnées utiles, il faut améliorer les compétences des personnes qui les produisent par l’apprentissage des bonnes pratiques — comme l’usage de référentiels communs pour catégoriser des documents et l’utilisation d’outils qui favorisent l’accessibilité et le partage de données. Ceci implique également, une maîtrise du cycle de vie des données (création/collecte, traitement, analyse, conservation, accès, réutilisation) par tous les services.

Dans cette même perspective, la résilience et les bons résultats d’un projet de données liées se fondent sur de nouvelles méthodes de travail qui visent la décentralisation des décisions relatives à l’identification des problématiques, à la priorisation des projets et à la proposition de solutions. C’est une étape clé vers l’adoption de systèmes distribués et de modes de direction et d’action plus agiles et plus propices à l’innovation que les structures hiérarchiques.

▷ Pour aller plus loin: conférence de Diane Mercier, docteure en sciences de l’information, sur le web sémantique et la maturité informationnelle de l’organisation (2016). Après une véritable transformation numérique, la prise en charge de la qualité des données n’est plus uniquement du ressort de l’informatique, mais de tous les métiers et la gouvernance des données n’est plus fragmentée, mais globale.

D’uniformisation à harmonisation

Changement culturel – Lorsque différents acteurs internes et externes sont appelés à contribuer à la production de données liées, il n’est pas rare d’assister à une confrontation des savoirs, des perspectives et des vocabulaires utilisés. Pourtant, dans un projet de données liées, plusieurs modèles, standards et vocabulaires peuvent cohabiter dans un même système pour autant que ceux-ci soient conformes aux normes techniques du web sémantique. Il ne s’agit pas d’uniformiser les façons de décrire des ressources, mais de normaliser les référentiels pour les rendre interopérables, la diversité des perspectives venant alors enrichir la connaissance que nous avons de ces ressources.

Il est d’autant plus important d’accueillir cette diversité des pratiques descriptives que, dans divers domaines allant de la muséologie aux administrations publiques, nous sommes amenés à prendre conscience des biais culturels véhiculés par les différents modèles de représentation et de classification en usage au sein des organisations.

▷ Pour aller plus loin: exemple d’ONOMA, un projet du Ministère de la Culture et de la Communication (France) visant à lier les différents référentiels qui décrivent des auteurs, créateurs, producteurs et personnalités intervenant dans le cycle de vie d’un bien culturel. Une démarche d’harmonisation similaire peut être mise en œuvre dans bien d’autres domaines.

De technocentrisme à interdisciplinarité

Changement professionnel – Comment des spécialistes des TI et des sciences de la donnée peuvent-ils travailler sur le traitement de la connaissance d’un domaine hors de leur champ de compétences? Un projet web sémantique comporte des défis de nature technique et conceptuelle pour lesquelles il est impératif de rassembler une diversité de perspectives et d’expertises. Notamment, en ce qui a trait à l’organisation et au traitement de l’information, comme l’indexation de documents, la modélisation des connaissances ou la linguistique.

▷ Pour aller plus loin: billet de Fred Cavazza, spécialiste des transformations numériques, sur le rôle central des experts métiers dans des projets de traitement de données, dont des systèmes d’intelligence artificielle.

Du court terme au long terme

Changement structurel – Les programmes qui soutiennent organismes et secteurs d’activité sont généralement orientés vers l’atteinte de résultats à court terme. Or, il ne faut pas attendre de résultats immédiats de projet de données liées. Il y a donc peu d’incitatifs, pour les organisations, à réaliser des projets leur permettant d’entrer dans l’économie de la connaissance. Pour ce faire, il faut adapter les politiques et programmes afin d’encourager les investissements à moyen et long termes. Ceux-ci donneront lieu à des initiatives telles que des preuves de concept ou des prototypes, préalables nécessaires de projets plus ambitieux.

▷ En résumé – Le web sémantique ne constitue pas uniquement une évolution technologique mais avant tout une transformation profonde des modes de gestion de l’information et de gouvernance des données. Il nécessite la mise en place de nouvelles façons de travailler, tant pour la décentralisation des prises de décision que pour l’abolition des silos informationnels et la mise en commun de l’information.

Transformation pour un monde numérique

Le web sémantique nous amène à envisager le numérique comme un écosystème d’acteurs métiers et de moyens technologiques interdépendants. Contrairement aux projets informatiques « traditionnels », il nécessite l’aménagement d’un environnement d’apprentissage collaboratif et de conversations transversales dans l’organisation. Sa finalité est de faire émerger l’intelligence collective permettant de produire de la connaissance et non de développer des systèmes.

Trois enjeux communs pour les métadonnées en culture

Voici trois enjeux dont il faudrait discuter, de façon prioritaire, au sein des organismes, institutions, entreprises et regroupements associatifs afin de tracer des itinéraires et des destinations dans une problématique dense et complexe.
Chasse aux trésors

1. Mise à niveau de nos systèmes d’information

La problématique des métadonnées, dans le domaine culturel, prend sa source en amont des processus de gestion de l’information, soit lors de la saisie des données dans un un système ou un logiciel qui n’a pas été conçu pour générer des métadonnées interopérables. Il est également plus facile  de convaincre des gestionnaires d’investir dans  un nouveau site web que dans un modèle de métadonnées  normalisées et interopérables pour lequel il est difficile de fixer des indicateurs de rendement.

Qualité des données

Plus de 60% du temps de travail des experts  des données est consacré au nettoyage  et à l’organisation des données. Il est possible de produire des données qui soient exploitables, plus facilement et à moindre coût, en  mettant en application des principes de qualité inspirés, par exemple, de ceux qui guident la production de données ouvertes et liées pour l’Union européenne.

De la base de données au web de données

Au web des documents, s’est ajouté celui des données. Nous nous éveillons lentement à des modes de représentation et d’exploitation de l’information qui ne font plus référence à des pages, mais à des connaissances et à des ressources.

Dans le web, un contenu c’est de la donnée. Si les pages web s’adressant à des humains demeurent toujours utiles, ce sont les données décrivant des ressources (modèle Schema ou triplets du web sémantique) qui permettent à certaines technologies de classer et de relier l’information obtenue afin de nous fournir des réponses et, surtout, des suggestions.

Indexation de contenu et normalisation de données

Bien que des termes comme « métadonnées » et, même « web sémantique », se retrouvent désormais au programme de nombreux événements professionnels, au Québec et au Canada, trop rares sont les initiatives et projets où il est fait appel à  des équipes pluridisciplinaires comme cela se fait au sein de gouvernements, d’institutions ou d’initiatives collectives, en Europe et aux États-Unis.

Est-il possible de réaliser des projets d’une complexité et d’une envergure que l’on peine à mesurer en dehors du cadre habituel d’un projet de développement technologique ?  On peut en douter. Nous manquons de compétences en ce qui concerne la représentation de l’information sous  forme de données liées, ainsi que sur les principes et méthodes de la documentation de ressources.  Comment pourrions-nous, alors, atteindre des objectifs qui permettraient de tirer tous les avantages possibles des données qui décrivent nos contenus culturels ?

Plus concrètement, comment pourrions-nous entreprendre les démarches nécessaires à la réalisation  d’objectifs similaires à ceux du projet DOREMUS  qui  réunit Radio France, Philharmonie de Paris et Bibliothèque nationale de France ?

«Permettre aux institutions culturelles, aux éditeurs
et distributeurs, aux communautés de passionnés
de disposer :

  • de modèles de connaissance communs (ontologies)
  • de référentiels partagés et multilingues
  • de méthodes pour publier, partager, connecter, contextualiser, enrichir les catalogues d’œuvres et d’événements musicaux dans le web de données

Construire et valider les outils pédagogiques qui permettront le déploiement des standards, référentiels et technologies dans les institutions culturelles

Construire un outil d’assistance à la sélection d’œuvres
musicales.»

Il serait temps de moderniser les programmes  de formation  universitaire en bibliothéconomie et sciences de l’information et en technologies de l’information et d’encourager des intersections. Sans quoi, nous ne disposerons pas suffisamment de ressources compétentes pour passer du web des documents au web des données.

2. Décentralisation de la production de métadonnées

Les initiatives qui présentent le plus grand potentiel pour le développement de compétences  en matière de  production et réutilisation de données sont celles où les organismes sont appelés à participer activement à l’élaboration de leurs modèles de données, aux décisions en ce qui a trait à l’utilisation des données et à la conception de produits ou services. C’est par la pratique que les gestionnaires et entrepreneurs sont sensibilisés à l’utilité et à la valeur des données qu’ils produisent et qu’ils collectent.

Comme le signale Fred Cavazza, dans un récent billet, il nous faut réduire la dette numérique avant d’entreprendre une véritable  transformation:

«Nommer un CDO, créer un incubateur, organiser un hackathon ou nouer un partenariat avec Google ou IBM ne vous aidera pas à vous transformer, au contraire, cela ne fera que reporter l’échéance. Il est donc essentiel de réduire la distance au numérique pour chaque collaborateur, et pas seulement les plus jeunes ou ceux qui sont directement impliqués dans un projet.»

À ce titre, externaliser l’indexation des ressources culturelles (production de métadonnées) ne saurait être considéré comme un choix stratégique dans une économie numérique puisqu’il éloigne les acteurs du traitement des données et les confine à des rôles de clients ou d’utilisateurs, sans opportunités d’apprentissage pratique. En effet, se pencher  sur l’amélioration  et la valorisation de données descriptives et de données d’usage est le meilleur moyen de développer une culture de la donnée et d’acquérir les connaissances qui permettent de transformer des pratiques et de se réinventer. En plus de responsabiliser les organismes et entreprises et d’assurer la découvrabilité numérique de leurs ressources,  la décentralisation de la production de métadonnées renforce la résilience de l’écosystème; chacun des acteurs devenant un foyer potentiel de partage de connaissances et d’expérience.

3. Reconnaissance de la diversité des modèles de représentation

La centralisation de la production de métadonnées favorise généralement l’adoption d’un  seul modèle de représentation des ressources, au détriment de la diversité des missions, des cultures,  et des pratiques. Dans le domaine du patrimoine culturel, par exemple, il existe près d’une centaine de modèles de description différents. Tous ne conviennent pas à la production de données ouvertes et liées, mais il demeure que cette diversité des modèles est essentielle car elle répond à des besoins et contextes d’utilisation spécifiques.

C’est dans le même esprit, qui a permis au web de devenir ce qu’il est (voir « small pieces loosely joined » de David Weinberger, un des penseurs du web), qu’il faut s’entendre sur des principes  et des éléments permettant de faire des relations entre différents modèles de métadonnées.  Cette démarche comporte des enjeux de nature conceptuelle, technologique, voire même économiques et de politiques publiques. Face à un tel niveau de complexité,  nous ne devrions pas tarder à rassembler, autour de ces enjeux, des spécialistes  du développement d’ontologies et des questions d’interopérabilité des métadonnées.

*

Ce ne sont pas de nouveaux portails, plateformes et applications qui nous permettront de ne pas dépendre totalement d’entreprises se plaçant au-dessus des États eux-mêmes. Une « solution technologique » aussi extraordinaire soit-t-elle, ne remplace pas une vision et des stratégies. Surtout lorsque les modèles économiques, dont nous tentons d’imiter les interfaces sans en maîtriser le fonctionnement, reposent sur l’exploitation de données par des algorithmes et des technologies d’intelligence artificielle.

Que faire pour multiplier l’impact des initiatives numériques ?

Comment multiplier la portée des programmes de soutien à la transformation des organisations dans un contexte numérique ? En favorisant des initiatives qui ont pour objectifs des résultats  durables et transmissibles à d’autres individus, organismes ou secteurs d’activités.

Ceux qui tirent la plus grande partie des bénéfices d’une économie numérique sont ceux qui en maîtrisent les concepts clés (collecte de données, organisation et classification de l’information, traitement algorithmique) et qui prennent les moyens pour profiter du réseau (contenu généré par les utilisateurs, mobilisation de capital intellectuel).  Nous ne pouvons cependant pas tenter d’imiter des modèles qui ont nécessité des investissements colossaux et qui, après des années d’expérimentation, constituent des entités aussi riches et puissantes que des états. Mais nous ne devons pas non plus demeurer des fournisseurs de données et de contenus.

C’est pourquoi des programmes d’aide à la transformation numérique et à l’innovation, quel que soit le secteur d’activité, devraient permettre d’accroître de manière plus efficace nos connaissances en matière d’information numérisée , et de favoriser la collaboration entre organismes pour concevoir et expérimenter d’autres modèles de création de valeur.

Voici 3 notions qui sont essentielles pour sortir des vieux modèles :

1 – L’information avant les moyens technologiques

Découvrabilité, métadonnées, mise en commun de données, diffusion de contenu: bien avant d’être du développement logiciel ou la mise en place d’infrastructures, c’est un travail sur la définition et l’application de principes de traitement et d’organisation de l’information.

Découvrabilité dans le web des données

La mise en nombres binaires de l’information (soit des suites de 1 et de 0 qui représentent des caractères, puis des mots) est ce qui rend son traitement et sa transmission possibles par des machines. Par contre, pour que cette information numérisée puisse être repérable, « comprise » et exploitable par des machines qui sont, à présent, en quête de sens, il faut :

  • Décrire les données pour qu’elles soient lisibles et utilisables pour des machines.
  • Publier les données dans le web selon les standards du W3C pour les données ouvertes et liées (Linked Open Data).

De plus, pour rendre cette information découvrable dans le web, il faut préalablement réaliser une étape essentielle:

  • Libérer les données qui décrivent des ressources (contenus culturels, patrimoine vivant et immatériel, produits, services, etc.).

2 – Les données comme actif plutôt que matière première

Nous souhaitons que les moteurs de recherche et autres types de technologie utilisés pour ratisser le web repèrent les données qui décrivent nos contenus, produits et services.  Or, nous persistons à considérer la donnée comme une ressource alors que dans une économie numérique, il s’agit d’un actif. Cette nuance est extrêmement importante puisque cette ressource n’a de valeur que si elle est rare. Nous pourrions, par exemple, avoir à payer pour obtenir les données qui décrivent les titres d’un répertoire musical. Cependant, les données ne seraient donc pas repérables et accessibles pour les humains et les machines.

Considérer les données comme un actif permet de capitaliser sur la valeur de l’information qu’elles permettent de générer et sur le potentiel de découvrabilité qu’elles accordent aux contenus qu’elles décrivent.

3 – Travailler ensemble autour des données

Collaborer au sein d’une même organisation, à travers les disciplines ou entre organismes favorise l’émergence d’idées novatrices et permet de surmonter des problématiques complexes. Travailler sur des données en diversifiant les perspectives permet de générer de l’information utile pour divers objectifs, domaines d’activité et types d’utilisateurs. C’est pourquoi des initiatives qui sont mises en oeuvre par des équipes pluridisciplinaires ont de meilleures chances de succès.

Travailler ensemble sur la valorisation ou la mise en commun de données, que ce soit au sein d’un même organisme ou en partenariat avec d’autres organisations, requiert l’adoption de véritables méthodes collaboratives, notamment, pour que des enjeux relatifs à la gestion des données  et au processus décisionnel ne viennent faire obstacle à l’atteinte des objectifs.  En s’éloignant  des dynamiques de contrôle et de subordination habituelles, il est possible d’instaurer un climat de confiance et la cohésion nécessaires à un travail collaboratif.

Un vrai modèle collaboratif n’est pas centralisateur: chacun des contributeurs d’un système de traitement ou de mutualisation de données est responsable de leur production et de leur qualité.. Ceci a pour effet d’assurer une gouvernance équilibrée du système  et le transfert et développement de compétences au sein de chacune des organisations.

Pour cela, il faut apprendre à élaborer des démarches de projets qui fédèrent les participants autour d’un objectif commun tout en reconnaissant les bénéfices individuels et les limites de chacun. Ainsi, les initiatives et projets peuvent profiter du partage de connaissances au sein de réseaux internes et externes.

Pas d’évolution numérique sans maturité informationnelle

Voici la démarche des 5 étoiles du web des données, tel que conçue  par Tim Berners-Lee et soutenu par les recommandations du W3C.

∗ Rendez vos données disponibles sur le Web (quel que soit leur format) en utilisant une licence ouverte.
** Rendez-les disponibles sous forme de données structurées (p. ex., en format Excel plutôt que sous forme d’image numérisée d’un tableau).
*** Utilisez des formats non exclusifs (p. ex., CSV plutôt que Excel).
**** Utilisez des URI pour identifier vos données afin que les autres utilisateurs puissent pointer vers elles.
***** Reliez vos données à d’autres données pour fournir un contexte. (Cote de degré d’ouverture des données, Gouvernement ouvert, Canada).

Les 5 étoiles des données ouvertes et liées

 

Voici l’échelle de la maturité informationnelle des organisations, telle qu’illustrée par Diane Mercier dans le cadre de sa thèse doctorale sur le web sémantique et la maturité informationnelle des organisations.

Thèse doctorale et références : Web sémantique et maturité organisationnelle sur Zotero. 

Schéma de la maturité informationnelle des organisations

Ces deux modèles participent de la même démarche graduelle et progressive vers l’ouverture et la participation, grâce à l’adoption de principes communs. C’est cette transformation que  des initiatives numériques devraient permettre d’amorcer pour le bénéfice d’organismes et entreprises et, plus largement, pour la résilience d’un secteur d’activité ou d’un écosystème.

La culture à l’ère numérique: dans le web des données plutôt que sur une plateforme

Tenter de concurrencer les géants des contenus numériques en proposant nos propres plateformes, comme le proposait Alexandre Taillefer, est une mauvaise bonne idée; surtout dans le domaine culturel. Voici pourquoi:

NON: centraliser l’information dans une base de données

C’est une mauvaise idée, parce qu’il s’agit d’un concept qui va à contre-courant de l’Internet de Tim Berners-Lee: connaissances partagées, production de contenus décentralisée, modèles distributif et collaboratif, données ouvertes et liées, perspectives à la fois locale et globale. Développer une plateforme afin de centraliser dans une base de données l’information concernant des contenus culturels c’est soustraire ces derniers aux connexions potentielles avec d’autres données à travers le monde.

Louis-Jean Cormier dans DBpedia, version sémantique de Wikipédia
Louis-Jean Cormier dans DBpedia, la facette web sémantique de Wikipédia.

Le contenu des bases de données est « sous le web« ,  c’est à dire inaccessible et incompréhensible pour les moteurs de recherche et applications qui ratissent le web en quête de données qui font du sens. La transition d’un web des documents vers le web des données, et, par conséquent, de la préférence visible des moteurs de recherche pour le sémantique (Google et les données structurées), ne font plus de doute. S’exposer dans le web des données ouvertes et liées constitue une bien meilleure stratégie, pour la valorisation des contenus,  le développement de modèles économiques et l’acquisition d’une culture de la donnée, que la reprise d’un concept datant du premier âge du web.

Alors, pourquoi continuer à financer des silos d’information qui interdisent toute possibilité de liens entre nos contenus et l’intention ou le parcours de consommateurs , où qu’ils se trouvent ?

OUI:  mutualiser les ressources pour publier et agréger des données 

La bonne idée est celle de la mutualisation d’équipement et de ressources pour réaliser un projet collectif. Là se trouve le véritable défi de la « révolution numérique »: apprendre à se faire confiance et à collaborer pour développer une valeur collective. Apprentissage d’autant plus difficile que l’offre culturelle est abondante et que notre attention, elle, est limitée.

Publier des données dans le web, comme on le fait pour des pages de sites internet, permet d’éviter les problèmes d’interopérabilité des bases de données tout en préservant l’autonomie des producteurs de données. Il devient, par la suite, possible de collecter et d’agréger ces données afin de les exploiter pour les rendre réutilisables pour des organismes touristiques, pour créer des interfaces d’exploration et, même, pour concevoir des agents intelligents qui feront des suggestions de contenus personnalisées. Mieux que tout autre documentation, cette vidéo produite par la Fondation europeana, explique en 3 minutes ce qu’est le web des données ouvertes et liées et pourquoi il est devenu si important pour la diffusion de la culture.

Le développement de cette infrastructure commune peut être pris en charge par l’État, comme c’est le cas pour Europeana, où l’Union européenne et chacun des états contributeurs, soutiennent les infrastructures et ressources qui permettent aux institutions culturelles de publier leurs données collectivement.  L’État peut également faire appel au milieu académique et au secteur de la recherche, à l’image de l’entente récemment conclue, en France, entre le Ministère de la Culture et de la Communication et l’Inria, afin de soutenir le projet SemanticPedia.

Bien que le web sémantique soit utilisé dans des domaines aussi divers que les services hydroélectriques (Hydro-Québec) et la radiodiffusion (BBCMusic), nous persistons à nous tourner vers des technologies conventionnelles pour diffuser nos contenus culturels. Passer de l’informatique au numérique est clairement un changement difficile à opérer, même dans  une industrie de pointe.

Pour aller plus loin

Pour les technophiles: Le web sémantique en 10 minutes, vidéo produite lors de l’édition 2016 du colloque sur le web sémantique au Québec, dans le cadre du 84e congrès de l’ACFAS.

Web des données: les connexions qui transforment

Web des données depuis 4 ans (2010).

Comme il est possible de le constater en effectuant une recherche avec Google, le web se transforme progressivement et, avec lui, les systèmes d’information.

Nous passons de bases données qui sont conçues pour retrouver une information à des données ouvertes et liées qui, publiées dans le web, permettent à des machines d’établir des connexions et de générer, par inférence, une information qui ne se trouve pas dans notre base de données.

Sélection de lectures parmi mes signets les plus récents sur Diigo:

Connexion

Le web a été conçu pour être exploré par des humains et par des machines. Pour les modèles d’affaires numériques, la découverte de ce que nous ignorions a beaucoup plus de valeur que la recherche de choses que nous connaissons.  C’est, notamment, pour cette raison que les géants du numériques investissent dans les technologies du web sémantique (ou web des données) car elles permettent de représenter les connexions possibles entre différents éléments d’information.

“The value that I see going forward is the linking part of the data environment,” Wiggins added. “You start searching at one point, but you may be linked to things you didn’t know existed because of how another institution has listed it. This new system will show the relationship there. That’s going to be the piece that makes this transformative. It is the linking that is going to be the transformative.”

Searching for Lost Knowledge in the Age of Intelligent Machines – As search engines are radically reinvented, computers and people are becoming partners in exploration.

Curation de données

Nouvelle compétence clé: la curation de données, à la quelle on ajoutera le nécessaire esprit critique qui ne peut être remplacé par les algorithmes.

Avec tous les algorithmes statistiques et tous les outils d’analyse automatique de données (« big data analytics ») du monde, nous aurons encore besoin d’hypothèses causales, de théories et de systèmes de catégorisation pour soutenir ces théories. Les corrélations statistiques peuvent suggérer des hypothèses causales mais elles ne les remplacent pas. Car nous voulons non seulement prédire le comportement de phénomènes complexes, mais aussi les comprendre et agir sur la base de cette compréhension. Or l’action efficace suppose une saisie des causes réelles et non seulement la perception de corrélations. Sans les intuitions et les théories dérivées de notre connaissance personnelle d’un domaine, les outils d’analyse automatique de données ne seront pas utilisés à bon escient. Poser de bonnes questions aux données n’est pas une entreprise triviale !

La litéracie en curation de données

Médiation

Comment éveiller des décideurs aux changements radicaux qui sont annoncés partout, mais qui ne s’expérimentent pas dans le quotidien puisqu’il se transforme de façon beaucoup plus lente et progressive ?

In addition to the artworks and product demos, there are video infographics explaining what companies can and are doing with your data right now, whether it’s credit score calculation, email metadata analysis, or how your wifi-enabled smartphone is basically always snitching on you.

Once you’re thoroughly alarmed by the reality of what we have given up in freedom for the conveniences wrought by our ad-driven world, the team has helpfully created a Data Detox Bar where you can learn about reasserting control over your network existence and limiting your exposure. And the entire exhibit is staffed with all white-wearing “Ingeniouses” who will answer questions or just provide a shoulder to scream into after discovering that there is no such thing as “anonymized data.”

For the truly curious, of which I am one, there are workshops and presentations that provide an even deeper look into the gaping maw of our networked world.

Go to The Glass Room. If Black Mirror Had a Showroom, This Would Be It

Contenus culturels: sous, sur ou dans le web ?

Mise à jour 2016-12-10: Clarifications suggérées par Christian Aubry. Illustration: substitution du terme « lisibles » par « compréhensibles ». Conclusion: clarification du sens du paragraphe.

Sous, sur ou dans le web ? Nos contenus culturels sont-ils dans le web des données ?
Nos contenus culturels sont-ils dans le web des données ? Rapport-synthèse produit pour la SODEC, avril 2016

Où en est le web ? Les signes d’une transformation importante sont bien présents, mais diffus et disséminés parmi les différentes facettes d’un amalgame de technologies, connaissances, modèles de pensée, industries, usages et comportements. L’annonce d’une initiative européenne de valorisation de la connaissance dans un web spatiotemporel, Time Machine, évoque une très proche discontinuité :

La seconde révolution de l’Internet commence maintenant, avec la mort annoncée des moteurs de recherche du présent et l’entrée en scène d’une manière d’indexer l’information.

Nous sommes entrés  dans une ère où il ne sera plus nécessaire de quitter l’interface d’un moteur de recherche pour accéder à la connaissance et où les applications de recommandations s’alimentent à de larges ensembles de données structurées et signifiantes.

De moteurs de recherche à moteurs de réponses et de connaissances

La liste de résultats des moteurs de recherche fait graduellement une place de choix à une réponse ou une proposition. Bien que les machines ne parlent pas le langage des humains, elles peuvent interpréter la syntaxe et les marqueurs qui sont utilisés spécifiquement pour décrire  une chose, une personne ou un concept abstrait.

La fiche qui apparaît dans le coin supérieur droit de l’écran du moteur de recherche Google tend à prendre plus d’espace alors que nous apprenons à publier l’information que nous souhaitons visible, persistante et connectée. Pour cela, il faut aller bien au-delà des techniques d’optimisation de pages web et apprendre à publier les données qui décrivent nos contenus selon des modèles normés. L’information représentée selon un modèle et des métadonnées standards devient alors  compréhensible et exploitable pour les applications qui ratissent le web.

Du web des documents au web des données (et du sens)

Mais où sont les données qui décrivent nos contenus culturels ?Elles sont sous le web, malheureusement Les répertoires, collections, fonds et même, les calendriers de représentations et de tournées sont stockés sous forme de bases données. Celles-ci ne sont pas accessibles aux machines qui repèrent et collectent des données pour les moteurs de recherche, agrégateurs, systèmes automatiques d’archivage et autres moissonneurs de données qui s’activent dans le web. Même si ces machines avaient accès aux bases de données, elles ne disposeraient pas des clés nécessaires pour reconstituer et interpréter l’information.

Les modèles numériques carburent à la donnée

Au constat de l’absence de notre patrimoine et de nos productions artistiques et culturelles du web s’ajoute celui de l’absence d’une culture de la donnée.  Comme je le partageais dans un mémoire sur le renouvellement de la politique culturelle, sans maîtrise de la donnée:

  • Les tenants et aboutissants de la transition numérique accomplie par les précurseurs nous échappent et nous n’en retenons que les manifestations externes.
  • Nous demeurons uniquement les fournisseurs de contenu des plateformes qui tirent dorénavant plus de valeur des données décrivant ces contenus et celles qui sont générées par leur utilisation que des contenus eux-mêmes.
  • Nous ne pouvons pas repérer et interpréter les signaux faibles du changement et nos indicateurs de mesure ne permettent pas une lecture adéquate des multiples facettes de la vie culturelle dans nos univers physiques et numériques.
  • Nous nous limitons à la promotion des nouveautés pendant que nos catalogues, répertoires et collections, échappent à la découverte et à la possible réutilisation qui leur donnera une seconde vie.

Afin d’illustrer mon propos, voici une anecdote: j’ai passé près de deux heures à explorer de nombreuses œuvres musicales en me renseignant sur la musique western. J’ai exploré les chansons des sœurs Boulay et je me suis éparpillée entre des productions commerciales et artisanales. Je n’ai pas quitté Google, en passant de vidéos à des listes de titres populaires.

C’est bien pour la découverte de la musique d’ici, mais:

  • Qui a collecté mes données personnelles et d’usage ?
  • Qui a accru sa connaissance d’un marché en analysant mon comportement et mes préférences ?
  • Qui a engrangé la matière première qui fait de ses services, aussi efficaces qu’attractifs, un modèle d’affaires extrêmement profitable ?

Découvrabilité: pour développer une culture de la donnée

Ce n’est pas la découvrabilité numérique qui fait la réussite des modèles d’affaires des plateformes numériques, c’est ce qui lui permet de réaliser son potentiel: l’exploitation et la valorisation de l’information. Or, dans nos universités, nos programmes de sciences de l’information sont presqu’exclusivment orientés vers la gestion de collections de documents et, du côté des technologies de l’information, le web des données n’est qu’un sujet optionnel du programme de maîtrise. Il serait temps d’élaborer un programme universitaire de deuxième cycle pour allier les perspectives et connaissances en information (indexation et modélisation) et en informatique (web sémantique).

Si nous ne maîtrisons pas les principes et techniques nécessaires à l’exploitation de nos contenus culturels dans le web, comment pourrons-nous soutenir les nouveaux acteurs d’une économie numérique ? Comment répondrons-nous aux besoins d’expertise dans les créneaux émergents comme l’intelligence artificielle, les crypto monnaies (Bitcoin) ou les registres de transactions distribués (Blockchain) ?

 

Nouvelles compétences informationnelles pour modèles numériques

Nous produisons des contenus numériques et nous adoptons de nouveaux outils, mais nos modèles d’affaires et nos stratégies de promotion et diffusion demeurent cependant essentiellement les mêmes. Alors, comment se positionner face aux modèles d’affaires plus rentables et plus attractifs des géants du numérique tels que décrits dans cet article sur une nouvelle classification des entreprises?

/…/ companies that build and manage digital platforms, particularly those that invite a broad network of participants to share in value creation (such as how we all add content to Facebook’s platform or that anyone can sell goods on Amazon’s), achieve faster growth, lower marginal cost, higher profits, and higher market valuations.

Ce qui contribue à leur montée en puissance, c’est la donnée qui leur permet de mettre leurs contenus en avant et de générer de l’information toujours plus précise et pertinente pour la prise de décisions stratégiques.

Exploitation du graphe des connaissances et des données ouvertes et liées par Google
Exploitation du graphe des connaissances et des données ouvertes et liées par Google.

Culture de la donnée? Plutôt, des compétences informationnelles

Malgré les transformations qui accélèrent la mutation des modèles industriels et économiques, les opportunités et enjeux ayant trait à l’exploitation des données sont généralement ignorés dans la plupart des analyses et propositions d’action, qu’il s’agisse de politiques gouvernementales ou d’initiatives entrepreneuriales.

Cette situation s’explique fort probablement par le faible niveau de connaissances en matière d’information; ce qu’on appelle parfois les compétences informationnelles.  En effet, si les technologies de l’information au sein de nos organisations ont un pouvoir, des ressources et des budgets dédiés, la matière première — la donnée, le document, l’information et même la connaissance — ne constitue pas une priorité.

Et pourtant.  Comprendre de quoi sont faites les données (standards et sciences de l’information) et comment évolue leur exploitation (algorithmes, technologies sémantiques, blockchain) permet d’apprécier les modèles numériques d’une toute autre manière qu’en utilisateur de systèmes: en « créateur de valeur ».

Au cours de la préparation d’un atelier pour la SODEC, dans le cadre de la prochaine édition du SODEC_LAB Distribution 360, j’ai répondu à quelques questions concernant le rôle central des données dans la diffusion et la mesure des contenus, et notamment, leur potentiel de découvrabilité.  Deux questions, qui reviennent régulièrement aux cours des présentations, démontrent clairement qu’il est urgent d’élaborer un programme afin de palier le sous développement des compétences informationnelles dans nos organisations, qu’il s’agisse d’une startup ou d’un ministère.

Je partage ici ces questions, ainsi qu’un aperçu des réponses.

Comment peut-on définir simplement ce qu’est une donnée?

Par l’exemple. Voici une donnée:

snow

C’est un « morceau d’information »; la plus petite unité de représentation d’une information. Exploitée individuellement, sans contexte (dont la langue) ou d’autres données, cette donnée peut prendre n’importe quel sens

Nom: Snow
Prénom: Michael
Activité: Artiste
Pays: Canada

Ensemble, des données permettent de produire de l’information, notamment, grâce à la présence de ces données spéciales que sont les métadonnées (meta: auto-référence, en grec).  Nom, Prénom, Activité, Pays permettent de comprendre le sens des données auxquelles elles sont reliées, surtout si elles sont dans des formats difficiles à interpréter comme des numéros d’identification.

Les données peuvent être structurées, comme dans les bases de données ou les feuilles de calcul, ou non structurées, comme des textes sur Twitter et Facebook ou des images-commentaires sur Snapchat.

Les données non structurées sont généralement très riches mais requièrent un traitement manuel ou automatisé.  Mais, en général, l’exploitation des données fait face à un enjeu majeur: leur hétérogénéité. Les technologies, les modèles de représentation et les formats de données sont autant de silos qui empêchent de relier des données de sources diverses entre elles.

À quelles données pouvons-nous avoir accès?

Il y a une abondance de données accessibles à tous les participants d’un écosystème donné. Chaque individu, chaque organisation est une machine à produire des données.

Par exemple, les industries culturelles produisent des données sur les contenus et sur la consommation de contenu.

Les grandes plateformes numériques excellent dans leur domaine en grande partie pour ces raisons:

Exhaustivité. Elles fournissent sous forme de données et métadonnées,  de l’information très détaillée à propos de leurs contenus (description, ambiance, audience, son, couleur, etc.).

Connectivité. Elles savant que les données détaillées qui décrivent leurs contenus génèrent de nouvelles données lorsqu’elles sont liées à des données de consommation ou à d’autres données sur des contenus.

Dévouvrabilité. Elles comprennent le rôle central joué par les données et métadonnées pour la  découvrabilité des contenus. De plus en plus de contenus vont à la rencontre de leurs publics, entre autres, par Google qui donne des réponses plutôt que de fournir des listes de destinations où trouver les réponses. Taper « Best actor oscar 2016 », vous y constaterez que Google exploite de façon croissante le graphe des connaissances (knowledge graph) et des données ouvertes et liées (Linked Open Data).

Pertinence. Elles se servent des données pour cibler des consommateurs, mais, de plus en plus, pour créer des contenus ou permettent à des producteurs de proposer des offres qui trouveront plus facilement leurs publics.

Mesure. Elles utilisent ou expérimentent divers indicateurs de mesure, autres que des transactions ou des faits comme des tendance,  des modèles de comportement ou, encore mieux: la relation au contenu. Elles pratiquent l’écoute sociale en suivant, par exemple, les conversations sur Twitter avant, durant et après le lancement d’un contenu.

La donnée génère l’information qui est au cœur du modèle économique des puissantes plateformes numériques. Celles-ci ont toujours plusieurs trains d’avance sur leurs compétiteurs (et, souvent, également fournisseurs) dont la vision et les modèles relèvent encore des méthodes de l’ère industrielles.  Nos industries culturelles, pour ne citer que cet exemple, disposent d’une masse de données, mais celles-ci sont peu entretenues et exploitées.

Avant de développer un énième silo d’information (plateforme, application), il faudrait peut-être apprendre à connecter nos données et les mettre en réseau pour générer le plus d’effet à long terme pour notre économie et notre culture.

 

 

Québec numérique: le vrai changement n’est pas technologique

Jeu de la transition numérique - Fing
Le jeu de la transition numérique – Fing

Initialement publié dans le blogue de Direction informatique, le 4 novembre 2015.

Peut-on faire entrer le Québec dans l’ère numérique avec une démarche, des politiques et des programmes de l’ère industrielle?

C’est pourtant l’impression que donne la consultation annoncée il y a une quinzaine de jours par le gouvernement. Comment, alors, échapper au darwinisme numérique, cette sélection naturelle des cerveaux qui met hors jeu ceux qui n’ont pas appris à se réinventer?

La véritable nature du changement

S’il s’agissait uniquement d’un enjeu technologique, la modernisation des infrastructures et des équipements constituerait une piste de solution toute tracée. Cependant, les défis auxquels la société, les industries et les institutions font face sont d’une toute autre nature. Il est important de rendre explicite cette « transformation numérique » dont on parle afin de bien saisir la véritable nature d’une transformation qui est souhaitée ou redoutée, selon notre niveau de confort face à un monde qui change.

Le modèle mental de l’ère industrielle

Consultant et conférencier, Fred Cavazza  analyse et commente la progressive adoption des nouveaux usages par les entreprises depuis les premiers âges du web.  Selon lui,  il est tentant d’adopter de nouvelles technologies, comme un site de commerce en ligne, sans opérer les transformations qui sont pourtant vitales pour les dirigeants et organisations de l’économie numérique. Il insistait encore tout récemment sur l’urgence d’acquérir les connaissances et aptitudes qui sont essentielles à la transformation:

/…/même si c’est plus valorisant et beaucoup moins risqué, résistez à l’envie de procéder à des transformations de surface pour gagner du temps. L’important n’est pas de sauver les apparences, mais de s’intéresser à la partie immergée de l’iceberg. Pour ce faire, la formation est un élément-clé pour transmettre rapidement des savoirs, faire évoluer les mentalités et initier une dynamique de changement en interne.

Victime ou acteur du changement?

Mais  pourquoi changer si tout fonctionne encore de manière acceptable? En affaires, comme dans notre vie personnelle, le changement nous est imposé par des circonstances extérieures. Nous ne modifions nos stratégies et nos projets que lorsque nous rencontrons des écueils ou que nous sommes en situation d’échec. Certains esprits clairvoyants tentent d’identifier et de décoder les signaux faibles des discontinuités afin d’avoir le temps de se repositionner. Or, en général, par aversion aux efforts intellectuels et matériels que requiert tout changement, la majorité des individus et des organisations attendent d’être au pied du mur pour réagir. Ce fut le cas des médias. C’est actuellement le cas, entre autres, du commerce de détail et c’est peut-être déjà le cas de plusieurs institutions.

Le numérique, c’est complexe

La révolution numérique étant un phénomène qui transcende les secteurs d’activité humaine, sa définition varie selon la perspective de celui ou celle qui l’expérimente ou l’observe. Cependant, une des plus efficaces démonstrations de la complexité et de l’envergure du changement est l’excellente vidéo (moins de 8 minutes) produite par Michel Cartier il y a déjà cinq ans: Êtes-vous prêts pour le 21e siècle.

Mais alors, comment réussir à prendre le virage numérique avant de frapper le mur? Certainement pas en adoptant des solutions simplistes, limitées aux avancées technologiques et compartimentées par secteur d’activité. Et, surtout pas, en excluant la dimension humaine et sociale du phénomène. Peter Drucker a relevé dès 1967 cet enjeu incontournable de la révolution numérique:

We are becoming aware that the major questions regarding technology are not technical but human questions,

Si la maîtrise des nouveaux outils et usages, qu’il s’agisse de mobilité, d’objets connectés ou de science des données, nous accordait une certaine maturité technologique, il manquerait malgré tout à nombre de nos élus et dirigeants la capacité ou la volonté de sortir du schéma mental qui conditionne actuellement leurs décisions.

Connecter les réseaux

Évidement, on ne devient pas visionnaire en suivant une formation, mais on peut se mettre à l’écoute de ceux qui décodent et expérimentent les changements.  On peut également se sensibiliser aux enjeux qui bouleversent les écosystèmes socioéconomiques comme l’on fait les élus, ailleurs dans le monde, qui ont rassemblé les forces vives de l’innovation dans divers domaines au cours d’états généraux ou d’assises publiques.

Comment transformer les mentalités, les usages et les modèles afin que des écosystèmes complets se reconfigurent et que nous ne devenions pas que les clients, mais les bâtisseurs de la nouvelle économie? Dans un billet publié récemment, j’écrivais : « Si nous retirions le mot « numérique » de l’expression « transformation numérique », nous inviterions probablement les bonnes personnes autour des tables de discussion ».

Sommes-nous prêts, élus, dirigeants, chercheurs, créateurs et citoyens, pour ce type de changement?

Distribution de masse et individualisation de la consommation

Signalisation: tirez, poussez

Lu dans le cahier Télévisions du journal Le Monde (7-13 juillet 2014).

Maîtriser le code, c’est contrôler la connaissance et la diffusion. Ayants droit et groupes audiovisuels ne l’ont manifestement pas encore bien assimilés. (Olivier Dumons)

La télé rattrapée par les pirates, par Olivier Dumons

Les chaînes cherchent à endiguer l’essor du piratage de leurs contenus numériques. Certaines proposent même de nouer des partenariats avec des sites de copie de programmes.

Nous somme clairement dans une phase de transition. La télévision de rattrapage n’existait pas il y a trois ans. Sous la pression des usages, les ayants droit vont devoir évoluer, la réglementation devra suivre et la manière de commercialiser aussi. On voit bien par exemple qu’un abonnement à bas coût peut régler beaucoup de problèmes. Il nous faut donc inventer des modèles d’affaires qui tiennent compte de ces possibilités techniques plutôt que de sortir un arsenal répressif. » (Philippe Deloeuvre, directeur de la stratégie, France Télévisions)

Les chaînes françaises se cherchent un avenir, par Olivier Dumons

Groupe d’étude « Médias et nouvelles technologies » du Sénat – Réunion des principaux acteurs de l’audiovisuel français afin d’exposer leurs craintes face aux nouveaux acteurs audiovisuels de type Netflix, ainsi que face aux mutations du marché. 25 juin 2014.

Les diffuseurs s’adressaient jusqu’à présent à des foyers avec des réseaux assez encadrés. Aujourd’hui, nous devons nous adresser à des individus distincts, comme dans la téléphonie. /…/ Cette individualisation de la consommation nous affecte fortement car nous n’avons toujours pas trouvé de solutions pour financer le cinéma français avec cette demande individuelle, aussi forte soit-elle. (Manuel Alduy, directeur de Canal+)

Le numérique accélère le déclin de l’antenne, par Joël Morio

Un foyer sur cinq ne dispose que d’une box pour recevoir les programmes, même sir la télévision numérique terrestre reste le premier mode de réception (57,9%). /…/ Les tablettes, ordinateurs et smartphones se substituent doucement mais sûrement à l’écran du salon.

Inversion du courant

À contrario de la distribution de contenu dans un marché de masse:  l’individualisation de la consommation (accéder au contenu que je veux et quand je veux) propulsée par l’adoption généralisée des outils et usages numériques.

Dans l’urgence, recherche de nouveaux modèles de financement, de distribution et de production.

L’individualisation de la consommation requiert , non seulement la maîtrise du code mais surtout, la littératie des données. Celle-ci permet de contextualiser la demande afin que les infrastructures, les acteurs et les contenus puissent s’adapter et demeurer des options.

Ce n’est pas la télé qui est en déclin, c’est son modèle de revenu

Combien de temps encore le modèle de revenu publicitaire actuel de la télévision tiendra-t-il ? Un modèle dont les principales conditions de survie (rareté et contrôle de l’accès) ont disparu avec la rapide évolution de l’Internet.

Si la télé ne peut plus se servir de la grille horaire pour amener une masse de spectateurs devant l’écran aux moments choisis pour nous passer de la pub et qu’on peut payer pour avoir accès à un grand choix de contenus sans pub sur le Net, le modèle de revenu actuel n’en a plus pour longtemps. Les marques devront-elles devenir co-productrices pour assurer leur visibilité et la rentabilité des productions télévisuelles ?

Famille regardant la télévision, 1958

Chronique d’une mutation annoncée

Économie de l’attention
« For a 60-minute show with 20 minutes of commercials, will you pay $1 to gain 20 minutes of personal time? » (John C. Dvorak, novembre 2011)
The TV business model is doomed – Commentary: How much will you pay to regain personal time? (Market Watch)

De l’audience de masse à l’individu
Web vidéo : abondance, accessibilité, personnalisation et une qualité d’engagement inégalée.
Original Web Video Series More Engaging Than Standard TV (ReelSEO)

Visionnement compulsif 
Web séries: nouveaux modes de distribution de contenu et nouvelles habitudes de consommation.
Binge Viewing: TV’s Lost Weekends (Wall Street Journal)

Production pour et par le Web
Mise en ligne de tous les épisodes de la série House of Cards, produite par Netflix.
Netflix launches original series ‘House of Cards’ (The End of Television As We Know It)

Ce que consommateur veut…
Comment Netflix exploite ses données de consommation de contenu afin de façonner son offre sur les préférences des consommateurs.
 Exclusive: A first look at Netflix’s test of personalized profiles

Effet Netflix
Ici et maintenant : les contenus de nouvelles séries seront disponibles sur Internet avant leur télédiffusion. La BBC espère ainsi répondre aux attentes des spectateurs tout en déployant une stratégie d’appel pour ces contenus télé.
BBC to launch programmes online first (Telegraph)

Et après ?
Nouvelles plateformes de diffusion et vidéoboulimie: bulletin de veille de Suzanne Lortie pour le Fonds des médias du Canada.
 Netflix : bien plus qu’un château de cartes