Plus de deux années après leur
création dans la loi, les équipements permettant aux services de
renseignement d’analyser de grands volumes de données semblent
fonctionnels.
Lors d’un colloque organisé par l’université de Grenoble ce mardi 14 novembre, Francis Delon,
le président de la Commission nationale de contrôle des techniques de
renseignement – ou CNCTR – a déclaré que les « boites noires » étaient à
présent opérationnelles, et ce depuis environ un mois.
Ces équipements, surnommés ainsi pendant
les débats sur la loi renseignement, doivent permettre aux services de
renseignement d’analyser de grands volumes de données afin de détecter
toute trace d’une menace terroriste… et c’est tout ce qu’on sait,
officiellement.
Le principe et son problème
Pour vous résumer les débats de
l’époque, il était question de créer des algorithmes permettant de
détecter les terroristes, le tout sans aller lire le contenu des
échanges ou des communications, les algorithmes n’utilisant que les
métadonnées et pas le contenu direct.
La CNCTR a donné son feu vert à la mise en place desdits algorithmes :
« Nous avons examiné le projet d’algorithme sur le plan juridique. Est-il adapté ? Remplit-il les critères de proportionnalité ? Mais aussi un contrôle technique.Nous avons des ingénieurs, ce qui permet de le faire. »
A l’époque du projet de loi, en 2015,
ces dispositions faisaient débat. Des associations protectrices des
libertés individuelles et numériques, comme La Quadrature du Net,
dénonçaient la mise en place d’un système de surveillance de masse et
une absence de mécanismes de contrôles clairs et adaptés.
Problème n°1 : les métadonnées parlent plus que « la donnée ».
La loi sur le renseignement autorise
l’exploitation des métadonnées, c’est-à-dire des informations qui
gravitent autour de la donnée sans être de la donnée… exemple : dans un
e-mail, l’heure d’envoi, l’expéditeur, le destinataire et tout ce qui
n’est pas directement le contenu du mail sont des métadonnées.
Si la loi interdit d’analyser les
données, le contenu du mail dans notre exemple, il n’en reste pas moins
que ces boites noires posent un vrai problème de confidentialité, les métadonnées étant bien plus parlantes que les données.
En soi, sauf dans des cas de
surveillance ciblée, le contenu n’intéresse que très peu les
renseignements, ils souhaitent savoir qui communique avec qui, quand,
où, comment, à quelle fréquence. Ils souhaitent savoir qui visite quoi,
quelle adresse, à quelle heure, combien de fois, etc.
Prenons un exemple très concret, qui ne va utiliser que des métadonnées. Aujourd’hui, un individu a :
- Consulté un site de vidéos pour adulte pendant 14 minutes
- Consulté un site d’e-commerce pendant 31 minutes
- Consulté un site de recherche d’emploi pendant 8 minutes
- Envoyé 3 mails à doe@example.xyz
- Envoyé 2 SMS au numéro de téléphone 06xxxxxxxx
- Envoyé 3 MMS au numéro de téléphone 07xxxxxxxx
- A effectué deux sorties, d’une durée de 6 minutes pour la première et de 43 minutes pour la seconde
- Ces trajets, grâce au smartphone de l’individu, sont connus
Ce qui nous amène au…
Problème n°2 : on ne sait pas comment ça fonctionne
Selon M. Delon, pour des « raisons évidentes », les algorithmes des boites sont secrets. On ne sait donc rien d’eux.
On peut déjà s’interroger sur les raisons qui font que cet algorithme
est secret. Si les critères de l’algorithme peuvent être sensibles,
l’algorithme en soi n’a, normalement, rien de cela. Je trouve toujours
étonnant que les gouvernements préfèrent la sécurité par l’obscurité à
la transparence d’un code, mais passons…
On peut tout de même imaginer que ces
derniers ne sont pas en mesure d’intercepter et de casser du trafic
chiffré. On peut aussi imaginer que les jeux de données doivent être
très larges, afin de permettre aux algorithmes d’avoir assez de matière
pour faire le boulot.
On renverse donc un peu plus la logique
de surveillance actuelle, en passant d’une surveillance ciblée pour
obtenir des informations à l’obtention d’informations sur une population
très large pour trouver des individus qui répondent à des critères
précis. Autrement dit, on bascule davantage dans la surveillance de
masse de tout le monde que dans la surveillance ciblée. Ce qui n’est pas
sans poser de nombreux problèmes, comme l’ONU s’en inquiétait à l’époque.
Les algorithmes, ce n’est pas « automagique », des personnes ont travaillé sur ces choses, ont produit du code. Qui ? Comment ? On ne sait pas.
On peut donc s’interroger quant à l’impartialité des algorithmes. Sur
quels critères ces derniers déclarent que telle ou telle personne a un
comportement étrange, voire suspect ? Est-ce que les algorithmes sont
assez efficaces pour éviter tout faux positif ? Et même dans ce cas,
est-ce que ces techniques ne seraient pas disproportionnées ? Combien de
milliers de données passent dans les moulinettes des algorithmes alors
qu’elles ne devraient rien y faire ?
La CNCTR déclare que, pour le moment,
une seule machine a été déployée, dans un endroit tenu évidemment
secret, comme le reste… mais est-ce un test ou une généralisation ?
Vous l’aurez compris, je suis sceptique quant à l’usage et l’efficacité de ces outils, et vous ?