Big Data / Panama Papers : déduplication et OCR pour donner du sens à l'énorme masse de données
Dans l'affaire Panama Leak, le lanceur d'alerte pour l'instant inconnu à
l'origine de la fuite de données pourrait être un pirate informatique.
C'est en tout cas la thèse avancée par l'un des co-fondateur, Ramon
Fonseca, qui
a expliqué sur la chaine d'information panaméenne Channel 2 que les documents étaient authentiques et que leur fuite résultait d'une attaque informatique ayant visé la société.
L'Avenir de l'IT : Indexer et analyser
2,6 To de données non structurées n'a pas été une mince affaire. C'était
pourtant le sous-jacent technique des révélations du Panama Papers. Le
point sur les techniques utilisées.
La liste complète des entreprises et des personnes qui sont recensées
dans
les données seront publiées « début mai » selon l'ICIJ, et depuis
la fin de la semaine dernière un grand nombre de noms et d'informations
ont déjà été révélés. Reste que 11,5 millions de fichiers ne se passent
pas au crible si facilement. Comment ont donc été déjà analysé les
données rendues publiques, et ce dans un temps relativement restreint ?
Les
2,6 To de données des Panama Papers contiennent les transactions
enregistrées pendant 40 ans par l'entreprise Mossack Fonseca à propos de
210 000 sociétés. Un vrai projet de Big Data en soit. (Source : ICIJ)
Les
enquêteurs du Süddeutsche Zeitung et de l'ICIJ ont utilisé un programme
appelé Nuix. Nuix est définit comme une plate-forme d'investigation
construite pour le Big Data. C'est cet outil qui semble t-il a permis de
creuser les données en un temps record. « Le travail d'exploitation des
données a commencé en Septembre »
a déclaré à Tech Radar le consultant logiciel de Nuix
Carl Barron, qui a travaillé avec l'ICIJ et Zeitung pour mener l'enquête.
Les Panama Papers sont donc le fruit de 8 mois d'enquête, et de la plus grande fuite de données de
l'histoire à ce jour : 2,6 To de données ont du être indexées et analysées. A titre de comparaison, le volume des
Offshore leaks révélés en 2013 étaient de 260 Go.
L'accès aux données serait le fuit d'un piratage informatique.
Déduplication pour réduire les données
Nuix
a justement commencé à travailler avec l'ICIJ à l'époque des Offshore
leaks. Pour les Panama Papers, le volume d'informations était bien plus
important. Mais l'indexation aurait duré seulement un jour et demi,
mentionne Carl Barron. Dans le détail, la taille des données a analyser à
été réduite grâce à
la déduplication. « La déduplication est utilisé pour identifier le
même document qui aurait pu être sauvegardé un certain nombre de fois
sur le système » explique Carl Barron. De cette manière, les enquêteurs
n'ont pas eu à regarder les mêmes données plus d'une fois.
Mais
une fois la première phase d'indexation effectuée, l'équipe a pu alors
passer à
l'identification d'éléments qui n'avaient pas été indexés du fait de
leur nature. Ce sont alors les outils d'OCR (Optical Character
Recognition pour
reconnaissance optique de caractères) qui ont pris le relais pour
analyser les très nombreux fichiers tels que les PDF, les scans et les
images. Cela a permis de transposer dans des formats de fichier lisibles
par les outils de recherche les données jusqu'alors illisibles.
Nuix a ensuite été utilisé pour classer et extraire des informations en
fonction du type de fichier, ou si les fichiers contenaient le nom d'une
personne ou un numéro de carte de crédit.
Les gens de Nuix, tout
en travaillant sur les données, n'en connaissaient pas réellement le
sens. « En raison de la confidentialité et leur nature top secret, nous
n'avons pas réellement vu les données » explique Carl Barron. « Et pour
être honnête, nous ne réalisions pas le scoop que ça allait donner ».
Nuix insiste aussi sur le fait que le traitement des Panama Papers n'a
pas été quelque chose d'extraordinaire. « Nous avons des clients qui
traitent 300 To de données sur un mois »
assure Carl Barron.
Toutes les données lisibles sur la plateforme
Les
premiers temps il y a eu beaucoup d'allers-retours entre l'ICIJ, le
Süddeutsche Zeitung et Nuix. Une étape nécessaire pour déterminer les
besoins matériels et de gestion de charge de travail. Une fois que cela a
été mis en place, le projet a été assez rapide à mettre en place.
Ensuite, Nuix a fournit des prestations de conseil, surtout sur les
questions techniques et de workflow.
Carl Barron explique que
désormais toutes les informations indexées sont disponibles sur la
plate-forme de Nuix, de sorte que les enquêteurs peuvent effectuer sans
problème des allers-retours pour compléter leurs articles si nécessaire.
Ainsi, si une enquête met en lumière le rôle d'un individu en
particulier, les enquêteurs peuvent commencer à connecter les données
depuis la BDD initiale via Nuix.
Théorie des graphes et visualisation
Par
ailleurs l'ICIJ a utilisé la technologie de base de données de graphes
Neo4j annonce la société Neo Technology par communiqué. « Au lieu
d'utiliser des « tables » comme le font les bases de données
relationnelles, les bases de données comme Neo4j s'appuient sur la
théorie des graphes et fonctionnent avec des structures spéciales
comprenant des nœuds, des relations et des propriétés permettant de
définir, d'identifier et de stocker les données » détaille la société.
«
C'est un outil (...) qui transforme le processus d'investigation des
journalistes car dans ce cas, les relations sont extrêmement importantes
puisque ce sont elles qui nous montrent où sont les criminels, qui
travaille avec qui, et bien plus encore. Comprendre ces relations à une
très grande échelle est précisément là où les bases de données graphes
excellent », explique Mar Cabra, Data and Research Unit Editor de
l'ICIJ.
Enfin, côté visualisation, l'ICIJ a utilisé la solution
Linkurious Enterprise. « Nous avions également besoin d'une solution
intuitive et simple à utiliser qui ne requiert pas l'intervention de
data scientists ou de développeurs tiers, afin que tous les journalistes
(...) puissent travailler sur ces données, peu importe leur niveau de
maîtrise technique. Linkurious Enterprise était sans doute la meilleure
plateforme pour explorer ces données et pour partager des informations
de manière sécurisée » ajoute Mar Cabra.
Plus de 500 banques et leurs filiales sont également mentionnées
Dans le détail, les fichiers contiennent des données collectées sur une période de 40 ans
mentionne l'ICIJ.
214 000 sociétés offshores y sont référencées dans plus de 200 pays.
Ces sociétés sont reliées à des particuliers soupçonnés de fraude
fiscale, dont 140 hommes politiques et personnages publics. Plus de 500
banques et leurs filiales sont également mentionnées, dont HSBC, UBS et
la Société Générale.
Ces
données ont fuité de la base de données du cabinet d'avocats offshore
Mossack Fonseca et ont été transmises au journal allemand Süddeutsche
Zeitung. Elles ont été
partagés avec le Consortium International des Journalistes d'investigation
(ICIJ pour International Consortium of Investigative Journalists). Ces
informations révèlent comment Fonseca a aidé ses clients à éviter le
paiement des impôts, et à blanchir de l'argent.
Liste des noms
ICI,Wiki !
Et l'invasion fiscale, c'est légale ?...Oui !
C’est donc dire que l’évitement et l’évasion fiscale ne peuvent exister
sans la coordination de nombreuses institutions: multinationales, riches
rentiers ou actionnaires, experts-conseils, banques et États. Ces
derniers demeurent les ultimes coupables: ce sont eux qui ont voté les
lois permettant ces arrangements institutionnels. Pire: les États se
livrent, depuis des décennies, à une féroce concurrence fiscale. Non
seulement des pays comme le Canada ont favorisé l’émergence des paradis
fiscaux, mais ils rivalisent entre eux pour offrir aux entreprises des
taux d’imposition les plus bas possible. Ainsi, le groupe possédant
Burger King’s a acheté la canadienne Tim Horton's en 2014, mais par un
procédé d’«
inversion fiscale» a fait du siège social de la seconde, en
Ontario, celui de la nouvelle entité, question de ne payer que 26,5%
d’impôts, contre environ 35% aux États-Unis. Une tactique qu’entend,
depuis très récemment, bloquer la Maison-Blanche, ayant fait avorter
récemment l’acquisition de la pharmaceutique Pfizer par Allergan.
Source.: