Les Data Clean Rooms : le produit incontournable pour le marketing en ligne d’aujourd’hui

Publié le 10 octobre 2023

Le monde IDless est déjà une réalité

Safari et Firefox ont été les premiers navigateurs à supprimer les cookies tiers. Chrome, qui détient une part de marché de 60 %, suit cette tendance avec la mise en place de la Privacy Sandbox d’ici 2024. Lorsque cet ensemble de fonctionnalités sera activé, il est probable que 97 % du trafic web sera dépourvu d’identifiants tiers (intersites). Si on ajoute à cela les  conséquences du RGPD en Europe, la quantité de données identifiables sera encore plus réduite. Insistons bien sur ce point : ce constat n’est pas une prédiction lointaine, mais l’état des lieux actuel du marché de la publicité digitale.

Nous assistons à un changement de paradigme : nous passons d’un marketing centré sur l’individu à une approche basée sur des cohortes. Cette véritable révolution du mode opératoire de notre écosystème redéfinit la manière dont nous devrions percevoir notre industrie. Les règles du jeu ont changé. 

Deux nouveaux piliers, étroitement liés, émergent dans le cadre de de cette nouvelle approche : les données First-Party et les Data Clean Rooms (DCR). 

Le déclin des identifiants tiers (intersites)

Depuis 2018, les changements dans le domaine du marketing numérique ont été largement influencés par la réduction des identifiants tiers (qui permettent de reconnaître un internaute lorsqu’il passe d’un site à un autre), dont les cookies tiers ont été les plus touchés suite aux mesures prises par  certains navigateurs pour protéger la vie privée :

  • Safari (19,85 % de part de marché) : le navigateur d’Apple, qui équipe une part importante des utilisateurs, a initié le mouvement en 2018. Sa fonctionnalité Intelligent Tracking Prevention (ITP) a restreint le suivi en bloquant les cookies tiers et en réduisant la durée de vie des cookies first-party.
  • Firefox (2,94% de part de marché) : malgré une part de marché plus faible, le navigateur de Mozilla a apporté des changements dès 2022. Avec ses fonctionnalités Enhanced Tracking Protection (ETP) et Total Cookie Protection, Firefox a commencé à bloquer les cookies tiers et à limiter les techniques de tracking.
  • Chrome (63,56 % de part de marché) : Google Chrome, le navigateur le plus utilisé au monde, a prévu de mettre en place, au sein de sa Privacy Sandbox,  d’importantes mesures en faveur de la protection de la vie privée. Google prévoit une mise en place complète de ces mesures d’ici 2024, ce qui bloquera les cookies tiers par défaut pour l’ensemble de ses utilisateurs.

Actuellement, 23 % de l’inventaire numérique est donc dépourvu de cookies tiers, notamment depuis les mesures mises en œuvre par Safari et Firefox. Lorsque Chrome activera sa Privacy Sandbox, ce pourcentage devrait s’élever à 87 % de l’ensemble du trafic web observé.

Un déclin amplifié par le RGPD et les pratiques de navigation

Au-delà des changements de navigateur, une étude a mis en lumière les conséquences du RGPD sur les visites et l’engagement des sites web. En analysant 5 000 domaines en Europe et aux États-Unis, cette étude a révélé que l’obligation imposée par le RGPD d’obtenir le consentement explicite de l’utilisateur avant de collecter des données (c’est-à-dire le bandeau de consentement), se traduit par une diminution de 15 % des cookies tiers installés, là où ils sont acceptés en théorie par le navigateur. 

Ainsi, au moment où vous lisez ces lignes, près de 38 % du trafic web échappe à l’analyse des cookies (23% + 15%). Cependant, avec le déploiement de la Privacy Sandbox de Chrome, ce chiffre pourrait atteindre 97 % du trafic web, sans cookies ni consentement de l’utilisateur, ce qui signifierait la disparition totale de l’identification intersite.

Toutefois, ce nombre (38%) représente une estimation très prudente. En réalité, un nombre significatif d’utilisateurs de Chrome activent le mode de navigation privée ou désactivent manuellement les cookies tiers dans leurs paramètres, réduisant ainsi davantage le trafic accessible aux annonceurs. Cette situation pourrait potentiellement doubler le pourcentage évalué du trafic web inaccessible, laissant jusqu’à seulement 30 % du web identifiable par les annonceurs.

Il est important de souligner qu’il ne s’agit pas là d’un scénario hypothétique pour les années à venir, mais de la réalité à laquelle les professionnels du marketing numérique sont actuellement confrontés.

Nouveaux défis : Le déclin des identifiants mobiles et universels

Outre la chute des cookies tiers et l’augmentation du trafic sans consentement, les solutions d’identifiants alternatifs ou « universels »  font eux aussi face à des obstacles très importants. Des mesures telles que le masquage des adresses IP, le verrouillage des User-Agents, la détection des Bounce Trackers, ou encore  les mesures de réduction de la surface d’empreinte numérique du navigateur (visant à désamorcer les techniques de fingerprinting), diminuent grandement leur efficacité et les condamnent en toute logique à devenir obsolètes dans les mois à venir.

De plus, les identifiants mobiles sont également en phase de déclin. L’App Tracking Transparency (ATT) d’Apple en 2021 a considérablement réduit leur utilisation (il impose un consentement explicite pour chaque app) et l’annonce prochaine par Google de sa Privacy Sandbox pour Android marque la fin des Google Advertising ID (GAID) : ils seront alors purement et simplement désactivés par Android.

La Data Collaboration et l’émergence des Data Clean Rooms

Dans un contexte où l’identification des individus sur plusieurs sites web ou applications devient de plus en plus complexe (voire impossible dans de nombreux des cas), les entreprises doivent ajuster leurs stratégies d’engagement d’audience. Leur seule option pertinente consiste à concevoir ces stratégies en utilisant leurs propres actifs numériques, c’est-à-dire en exploitant leurs données First-Party.

Pourquoi ? Parce qu’avec la disparition des cookies tiers et des techniques alternatives de traçage (ou ID mobiles), les données first-party s’imposent comme la seule source pérenne pour comprendre les utilisateurs et interagir avec eux. Ces données, collectées directement à partir des interactions des clients sur les sites d’une marque, fournissent des informations uniques sur les comportements, les préférences et les centres d’intérêt des utilisateurs. Elles sont par ailleurs obtenues avec un consentement clair et explicite, l’utilisateur ou l’utilisatrice étant conscient(e) de son interaction avec la marque.

Ces données First-Party  présentent cependant deux principaux défis à relever :

  • Leur rareté : Le trafic loggué ne représente qu’une faible fraction du trafic total, entre 5 et 15% en moyenne selon le secteur. Or, les données First-Party sont directement dépendantes d’un identifiant loggué, dans la majeure partie des cas : une adresse email.
  • Leur sensibilité : les adresses e-mail sont évidemment très sensibles du point de vue de la protection de la vie privée, car elles sont classées comme des informations personnelles identifiables, Personally Identifiable Information (PII). Ce faisant, elles ne peuvent pas être utilisées comme de nouveaux identifiants inter domaines sans risquer d’enfreindre les réglementations relatives à la protection de la vie privée des utilisateurs et d’éventuelles poursuites juridiques.

Dès lors, les Data Clean Rooms (DCR), des outils conçus pour faciliter la collaboration tout en préservant la vie privée des utilisateurs, entrent en jeu. Elles permettent aux organisations de travailler ensemble sur des intersections agrégées de données First-Party sans révéler ni exporter de PII, comme les adresses électroniques, mais tout en les utilisant comme pivots de jointure.

La Data Clean Room : le technologie incontournable à l’ère de la First-Party 

Comprendre les Data Clean Room

Les DCR ne sont pas seulement un buzzword ou un prétexte pour faire du « privacy-washing » – il s’agit d’une solution concrète, axée sur la sécurité, visant à préserver la vie privée des utilisateurs tout en permettant aux entreprises d’exploiter leurs données de manière efficace.

Une DCR est un environnement sécurisé qui permet de contrôler le partage et le traitement des données, en veillant à ce qu’aucune PII ne soit exposée ou exportée.

La règle d’or : une opacité totale sur les PII

La règle d’or d’une DCR est qu’elle ne doit jamais permettre aux PII, telles que les identifiants, les adresses électroniques ou toute autre information directement associée à un individu, de sortir de cet environnement sécurisé ou même d’être affichée. Le non-respect de cette règle disqualifie un système en tant que DCR.

En outre, pour être réellement efficace, une DCR doit présenter certaines caractéristiques essentielles. 

Voici les cinq principales pour un système de gestion des données solide : 

  • Fusionner des données sans exposer d’informations personnelles

À l’origine, les DCR ont la capacité de fusionner deux ou plusieurs ensembles de données first party sur la base d’un identifiant commun, comme les adresses électroniques. Cependant, ces identifiants communs (ou pivots) restent cachés et ne sont jamais exportés hors du DCR..

  • Segments agrégés

Dans les DCR, les requêtes produisent toujours des résultats groupés plutôt que des listings détaillés au niveau de l’enregistrement. Cela permet aux participants d’obtenir des informations générales sur des groupes (ou cohortes) sans cibler ou identifier des utilisateurs spécifiques. 

Le principe de k-anonymity est un élément fondamental à cet égard, car il garantit que les résultats des requêtes se présentent toujours sous forme de groupes d’une taille minimale. De cette manière, les données restent suffisamment généralisées pour protéger l’identité des utilisateurs englobés dans les cohortes retournées.

  • Pas d’exposition ou d’exportation de PII possible

Étant donné que les DCR fonctionnent à partir de segments de données agrégées, ils empêchent intrinsèquement l’exposition d’informations nominatives. Et étant donné que toutes les requêtes sont exécutées sur ce type de segments, aucune PII ne peut jamais être renvoyée.

Pour maintenir des normes strictes en matière de protection de la vie privée, il est essentiel que les DCR empêchent toute PII de sortir de la plateforme. Les participants ne peuvent de ce fait pas faire correspondre les résultats d’une requête DCR avec des jeux de données externes, ce qui enfreindrait les principes de la DCR  en matière de protection de la vie privée (aucun croisement possible au niveau de l’individu).

  • Accès contrôlé

Les DCR intègrent des systèmes stricts d’autorisation des utilisateurs et des mesures de sécurité avancées, garantissant que seules les personnes approuvées peuvent accéder à des ensembles de données spécifiques, et toujours dans des conditions bien définies.

Par exemple, certaines requêtes au sein d’une DCR peuvent avoir une expiration prédéterminée, ce qui signifie qu’elles deviennent inaccessibles après un certain nombre de jours. 

En outre, pour protéger les données et maintenir des résultats cohérents, les informations utilisées pour exécuter une requête peuvent être verrouillées ou placées dans un état « immuable ». Cela signifie que même si une partie met à jour ses données, les résultats de la requête initiale restent inchangés. Cette immutabilité est cruciale, car elle empêche les attaques potentielles de triangulation des données par un participant malveillant.

  • Vérification de la source des données

Les DCR se basent sur des données provenant de sources vérifiées et fiables. Avant d’être intégrées dans le système, ces données subissent un prétraitement. 

Cette étape consiste à identifier les colonnes contenant des PII, ou à sélectionner des colonnes spécifiques pour qu’elles soient accessibles au sein de la DCR. Les participants ont également la possibilité de stipuler des conditions, tels que des modèles de requête prédéfinis, dans lesquels leurs jeux de données peuvent être requêtés.

Cas d’usage de la DCR : Comment s’adapter à cette nouvelle ère ?

Il existe de nombreux cas d’usage pour les DCR, chacun offrant des opportunités significatives pour générer de la valeur tout en respectant les réglementations en matière de protection de la vie privée. 

  • Insights

Prenons l’exemple d’une enseigne de commerce en ligne qui cherche à mieux connaître les habitudes de ses clients récurrents sans enfreindre les règles de protection de la vie privée. Grâce à la DCR, cette marque peut fusionner ses données First-Party avec celles d’un partenaire, comme un éditeur de contenu disposant d’une audience significative.

En se basant sur le trafic loggué, cette combinaison de données pourrait révéler des tendances, tels que les segments de clients qui sont plus enclins à effectuer un achat en fonction du contenu qu’ils consultent sur les sites de l’éditeur.

Forte de ces informations (entièrement dépourvues de PII), la marque peut prendre des décisions éclairées concernant son inventaire, ajuster ses stratégies marketing, voire d’envisager de lancer de nouveaux produits, le tout en se basant uniquement sur des observations au niveau de groupes d’utilisateurs (cohortes) et non d’individus spécifiques.

Mesure des campagnes publicitaires

Dans un contexte où les pixels de suivi (trackers) et les cookies tiers disparaissent progressivement, il est de plus en plus difficile de quantifier l’efficacité des campagnes publicitaires (notamment au niveau des attributions de conversions puisqu’il devient impossible de reconnaître un utilisateur d’un clic sur une publicité à un acte d’achat par exemple).

C’est là que la mise en place de la DCR, qui exploite les données de trafic loggué, prend tout son sens.

Prenons l’exemple d’une plateforme de commerce en ligne qui lance une campagne pour une nouvelle gamme de produits. Grâce à la DCR, elle peut analyser le trafic loggué après l’affichage de la publicité et calculer les mesures de conversion, en exploitant les données First-Party d’éditeurs qui diffusent sa publicité. 

Ainsi, il est désormais possible de mesurer les performances d’une campagne – même sans savoir exactement qui s’y trouve – en comparant les taux de conversion de ceux qui ont été exposés à la publicité et de ceux qui ne l’ont pas été.

Activation

Comment activer un segment DCR sans exporter les PII ?

Cette question est sans doute le défi le plus important à relever de cette nouvelle ère. Encore aujourd’hui, la réponse à cette question reste sujette à discussions.

Le livre blanc de l’IAB intitulé « Open Private Join and Activation » explore cette problématique en profondeur. L’approche suggérée consiste à exporter les PII destinées au ciblage, mais en veillant à ce qu’elles soient chiffrées tout au long de la chaîne. Bien que prometteuse, cette méthode introduit un certain degré de complexité, nécessitant que chaque partie prenante adopte ce chiffrement pour qu’il soit efficace.

En outre, les fournisseurs de DCR pourraient envisager de proposer un service d’activation en temps réel. Après réception d’une paire de PII chiffrées, ce service renverrait un ensemble d’identifiants de segments DCR valides. Cette méthode pourrait s’avérer plus simple à mettre en œuvre et pourrait intégrer un système similaire à l’API TOPICS de la Privacy Sandbox, en ajoutant, dans un faible pourcentage des cas, de faux segments pour renforcer davantage la protection de la vie privée.

La rareté des données : le principal défi de tous les cas d’usage des DCR

La limitation des données First-Party disponibles est un facteur indispensable à prendre en compte lors de l’utilisation des DCR. Deux outils essentiels sont à notre disposition pour  contourner ce problème : le machine learning et le ciblage contextuel.

Machine Learning

Imaginons qu’un annonceur souhaite élargir son segment DCR, qui est intrinsèquement limité, car il repose sur le trafic loggué partagé avec un éditeur partenaire. L’annonceur peut utiliser des algorithmes de machine learning qui exploitent les signaux de l’éditeur dans la DCR (par exemple, la taxonomie du site visité).

En se basant sur le sous-ensemble d’utilisateurs qui ont interagi avec leurs publicités comme exemples positifs (toujours sur la base du trafic loggué mis en commun), ils peuvent identifier des utilisateurs similaires dans le jeu de données de l’éditeur, qui ne sont pas présents dans celui  de l’annonceur.

Ciblage contextuel

D’autre part, l’intégration de segments contextuels dans le DCR s’avère très efficace. Cette méthode capitalise sur le contexte sémantique associé à l’utilisateur au sein du segment DCR, ce qui permet aux annonceurs de cibler des zones contextuelles similaires sur l’ensemble du web.

Cette approche se distingue par une méthodologie par nature dépourvue d’identification des utilisateurs (idless). Elle élimine de fait toute dépendance au trafic enregistré, ouvrant dès lors les portes à un inventaire plus étendu, y compris sur des navigateurs tels que Safari et Firefox. En somme : tout l’open web est éligible pour activer cette audience élargie.

Un autre point intéressant est qu’en ce sens, pour ce qui concerne la RGPD, aucun consentement n’est requis, l’intérêt légitime étant suffisant, puisqu’aucun identifiant n’est déposé sur le navigateur.  En effet, le ciblage est totalement indépendant de l’utilisateur et se concentre uniquement sur le contenu qu’il consomme à l’instant donné.

Combiner la technologie de pointe de la DCR avec un design no code et user-friendly

Chez Weborama, nous développons une application DCR au sein de notre Data Intelligence Platform. C’est pour moi très plaisant de travailler sur cette initiative avec toute mon équipe.

Avant tout, parce qu’il nous semble essentiel de contribuer à l’avancement de la protection de la vie privée dans notre secteur. Nous sommes intimement convaincus que l’avenir du marketing doit respecter des normes élevées en matière de protection de la vie privée et que tout contournement de ces principes est par nature condamné.

Cependant, l’enjeu n’est pas seulement de se conformer aux normes de l’industrie, mais d’activement participer à leur définition.

Alors, dans certains cercles, on considérera que respecter la RGPD suffit à pouvoir se targuer d’être doté d’une « DCR ». Mais comme j’ai tenté de le démontrer ici, les véritables DCR vont bien plus loin qu’une simple collecte de consentement. 

Il s’agit d’un changement de paradigme. Le jeu n’est plus du tout le même.

L’écosystème du marketing en ligne tel que nous le connaissions, basé sur le suivi des données individuelles, touche à sa fin. Cette approche a parfois conduit à d’importantes violations de données et à un suivi excessif, suscitant naturellement des préoccupations en matière de vie privée. A l’instar du cas Cambridge Analytica, pour ne citer que le plus alarmant. 

Nous passons d’un mode opératoire basé sur le suivi de l’individu à celui centré sur la cohorte. Cette transition (pour ne pas dire révolution) s’accompagne d’une protection renforcée de la vie privée, mais aussi de défis liés à la rareté et à la complexité des données disponibles.

Les Data Clean Rooms (DCR) sont les outils incontournables de cette nouvelle ère où les données sont reines et surtout protégées. Je suis ravi d’être à la fois témoin de cette transformation, avec les offres de Weborama, mais aussi de contribuer à la façonner.

Enfin, alors que la plupart des DCR disponibles sur le marché sont des outils très techniques, qui nécessitent à minima une bonne maîtrise du langage SQL, nous avons l’ambition à Weborama de pousser plus loin encore l’innovation en la matière. 

En effet, nous associons notre technologie DCR de pointe (basée sur le puissant framework DCR de Snowflake) à une interface utilisateur intuitive et « no code ».

Article traduit de l’anglais, source: Data Clean Rooms: the Go-To Product in a Privacy-First Reality (Alexis Sukrieh, CTO de Weborama)