Big Data / Panama Papers : déduplication et OCR pour donner du sens à l'énorme masse de données
Dans l'affaire Panama Leak, le lanceur d'alerte pour l'instant inconnu à l'origine de la fuite de données pourrait être un pirate informatique. C'est en tout cas la thèse avancée par l'un des co-fondateur, Ramon Fonseca, qui a expliqué sur la chaine d'information panaméenne Channel 2 que les documents étaient authentiques et que leur fuite résultait d'une attaque informatique ayant visé la société.
L'Avenir de l'IT : Indexer et analyser 2,6 To de données non structurées n'a pas été une mince affaire. C'était pourtant le sous-jacent technique des révélations du Panama Papers. Le point sur les techniques utilisées.
La liste complète des entreprises et des personnes qui sont recensées dans les données seront publiées « début mai » selon l'ICIJ, et depuis la fin de la semaine dernière un grand nombre de noms et d'informations ont déjà été révélés. Reste que 11,5 millions de fichiers ne se passent pas au crible si facilement. Comment ont donc été déjà analysé les données rendues publiques, et ce dans un temps relativement restreint ?
Les 2,6 To de données des Panama Papers contiennent les transactions enregistrées pendant 40 ans par l'entreprise Mossack Fonseca à propos de 210 000 sociétés. Un vrai projet de Big Data en soit. (Source : ICIJ)
Les enquêteurs du Süddeutsche Zeitung et de l'ICIJ ont utilisé un programme appelé Nuix. Nuix est définit comme une plate-forme d'investigation construite pour le Big Data. C'est cet outil qui semble t-il a permis de creuser les données en un temps record. « Le travail d'exploitation des données a commencé en Septembre » a déclaré à Tech Radar le consultant logiciel de Nuix Carl Barron, qui a travaillé avec l'ICIJ et Zeitung pour mener l'enquête.
Les Panama Papers sont donc le fruit de 8 mois d'enquête, et de la plus grande fuite de données de l'histoire à ce jour : 2,6 To de données ont du être indexées et analysées. A titre de comparaison, le volume des Offshore leaks révélés en 2013 étaient de 260 Go. L'accès aux données serait le fuit d'un piratage informatique.
Déduplication pour réduire les données
Nuix a justement commencé à travailler avec l'ICIJ à l'époque des Offshore leaks. Pour les Panama Papers, le volume d'informations était bien plus important. Mais l'indexation aurait duré seulement un jour et demi, mentionne Carl Barron. Dans le détail, la taille des données a analyser à été réduite grâce à la déduplication. « La déduplication est utilisé pour identifier le même document qui aurait pu être sauvegardé un certain nombre de fois sur le système » explique Carl Barron. De cette manière, les enquêteurs n'ont pas eu à regarder les mêmes données plus d'une fois.Mais une fois la première phase d'indexation effectuée, l'équipe a pu alors passer à l'identification d'éléments qui n'avaient pas été indexés du fait de leur nature. Ce sont alors les outils d'OCR (Optical Character Recognition pour reconnaissance optique de caractères) qui ont pris le relais pour analyser les très nombreux fichiers tels que les PDF, les scans et les images. Cela a permis de transposer dans des formats de fichier lisibles par les outils de recherche les données jusqu'alors illisibles.
Nuix a ensuite été utilisé pour classer et extraire des informations en fonction du type de fichier, ou si les fichiers contenaient le nom d'une personne ou un numéro de carte de crédit.
Les gens de Nuix, tout en travaillant sur les données, n'en connaissaient pas réellement le sens. « En raison de la confidentialité et leur nature top secret, nous n'avons pas réellement vu les données » explique Carl Barron. « Et pour être honnête, nous ne réalisions pas le scoop que ça allait donner ». Nuix insiste aussi sur le fait que le traitement des Panama Papers n'a pas été quelque chose d'extraordinaire. « Nous avons des clients qui traitent 300 To de données sur un mois » assure Carl Barron.
Toutes les données lisibles sur la plateforme
Les premiers temps il y a eu beaucoup d'allers-retours entre l'ICIJ, le Süddeutsche Zeitung et Nuix. Une étape nécessaire pour déterminer les besoins matériels et de gestion de charge de travail. Une fois que cela a été mis en place, le projet a été assez rapide à mettre en place. Ensuite, Nuix a fournit des prestations de conseil, surtout sur les questions techniques et de workflow.Carl Barron explique que désormais toutes les informations indexées sont disponibles sur la plate-forme de Nuix, de sorte que les enquêteurs peuvent effectuer sans problème des allers-retours pour compléter leurs articles si nécessaire. Ainsi, si une enquête met en lumière le rôle d'un individu en particulier, les enquêteurs peuvent commencer à connecter les données depuis la BDD initiale via Nuix.
Théorie des graphes et visualisation
Par ailleurs l'ICIJ a utilisé la technologie de base de données de graphes Neo4j annonce la société Neo Technology par communiqué. « Au lieu d'utiliser des « tables » comme le font les bases de données relationnelles, les bases de données comme Neo4j s'appuient sur la théorie des graphes et fonctionnent avec des structures spéciales comprenant des nœuds, des relations et des propriétés permettant de définir, d'identifier et de stocker les données » détaille la société.« C'est un outil (...) qui transforme le processus d'investigation des journalistes car dans ce cas, les relations sont extrêmement importantes puisque ce sont elles qui nous montrent où sont les criminels, qui travaille avec qui, et bien plus encore. Comprendre ces relations à une très grande échelle est précisément là où les bases de données graphes excellent », explique Mar Cabra, Data and Research Unit Editor de l'ICIJ.
Enfin, côté visualisation, l'ICIJ a utilisé la solution Linkurious Enterprise. « Nous avions également besoin d'une solution intuitive et simple à utiliser qui ne requiert pas l'intervention de data scientists ou de développeurs tiers, afin que tous les journalistes (...) puissent travailler sur ces données, peu importe leur niveau de maîtrise technique. Linkurious Enterprise était sans doute la meilleure plateforme pour explorer ces données et pour partager des informations de manière sécurisée » ajoute Mar Cabra.
Plus de 500 banques et leurs filiales sont également mentionnées
Dans le détail, les fichiers contiennent des données collectées sur une période de 40 ans mentionne l'ICIJ. 214 000 sociétés offshores y sont référencées dans plus de 200 pays. Ces sociétés sont reliées à des particuliers soupçonnés de fraude fiscale, dont 140 hommes politiques et personnages publics. Plus de 500 banques et leurs filiales sont également mentionnées, dont HSBC, UBS et la Société Générale.Ces données ont fuité de la base de données du cabinet d'avocats offshore Mossack Fonseca et ont été transmises au journal allemand Süddeutsche Zeitung. Elles ont été partagés avec le Consortium International des Journalistes d'investigation (ICIJ pour International Consortium of Investigative Journalists). Ces informations révèlent comment Fonseca a aidé ses clients à éviter le paiement des impôts, et à blanchir de l'argent.
Liste des noms ICI,Wiki !
Et l'invasion fiscale, c'est légale ?...Oui !
C’est donc dire que l’évitement et l’évasion fiscale ne peuvent exister sans la coordination de nombreuses institutions: multinationales, riches rentiers ou actionnaires, experts-conseils, banques et États. Ces derniers demeurent les ultimes coupables: ce sont eux qui ont voté les lois permettant ces arrangements institutionnels. Pire: les États se livrent, depuis des décennies, à une féroce concurrence fiscale. Non seulement des pays comme le Canada ont favorisé l’émergence des paradis fiscaux, mais ils rivalisent entre eux pour offrir aux entreprises des taux d’imposition les plus bas possible. Ainsi, le groupe possédant Burger King’s a acheté la canadienne Tim Horton's en 2014, mais par un procédé d’«inversion fiscale» a fait du siège social de la seconde, en Ontario, celui de la nouvelle entité, question de ne payer que 26,5% d’impôts, contre environ 35% aux États-Unis. Une tactique qu’entend, depuis très récemment, bloquer la Maison-Blanche, ayant fait avorter récemment l’acquisition de la pharmaceutique Pfizer par Allergan.
Source.: