Éléments à prendre en compte pour l’achat d’une solution Analytics

By Corcentric | 6 octobre, 2020

Quels éléments prendre en compte pour l’achat d’une solution Analytics ? C’est à cette question que nous allons tenter de répondre dans ce blog. Concrètement, il y a deux façons d’utiliser les rapports d’analyse pour prendre des décisions :

  1. L’analyse dont l’objectif est de répondre à une question spécifique via une rapide évaluation de certaines données. On parle ici de rapports statiques qui sont automatisés de manière récurrente. Il peut par exemple s’agir d’un rapport hebdomadaire sur l’utilisation des ressources. Dans ce rapport on va s’intéresser à la manière dont les ressources sont utilisées sur une certaine période.
  2. L’analyse dont l’objectif est de permettre à l’utilisateur final d’utiliser le rapport et de manipuler les données pour identifier des informations ou générer de nouvelles questions. Une façon raisonnable de concevoir ce deuxième cas d’utilisation est celle de la R&D où l’actif sous-jacent est constitué de données. Cependant, pour générer ces rapports, il faut mettre en œuvre et gérer un grand nombre de facteurs de complexité. Examinons d’abord le pipeline de données type.

Pipeline de données

Un pipeline type comprend les étapes suivantes :

  • Intégration,
  • Préparation, organisation et enrichissement,
  • Exploration et amélioration,
  • Analyse,
  • Visualisation.

L’implémentation d’une solution Analytics comporte un pipeline de données. Dans certains cas, il peut être relativement simple. Dans d’autres cas, il sera extrêmement complexe. La seule certitude est qu’il y aura des flux de données entrants et sortants. Ce qui doit se passer entre ces deux étapes sera très différent selon la complexité intrinsèque de vos données, les manipulations nécessaires dans le cadre de vos processus et la disponibilité des personnes, processus et technologies à exécuter.

Considérations sur les données

Les principales considérations pour l’achat d’une solution Analytics sont les mêmes que pour tout projet achat, à savoir les personnes, les processus, la technologie et la valeur. À un niveau plus technique, il est important de tenir compte de ce que l’on appelle les « V » des données.

Volume

Quelle est la quantité des données traitées ?

Si la quantité est limitée (~ < 600 000 lignes), Excel peut répondre à vos besoins. Si la quantité est moyenne (c’est-à-dire s’il est possible de conserver les données dans la mémoire de l’ordinateur), une solution plus technique comme Python ou R peut être appropriée. Si la quantité est importante (autrement dit, si les données ne peuvent être conservées dans la mémoire de l’ordinateur), il peut s’avérer judicieux de combiner base de données et chunking avec Python et R. Si la quantité est extrêmement importante, il vous faudra peut-être envisager une solution comme Hadoop ou MapReduce.

De nombreuses technologies modernes répartissent l’accès aux données et les calculs parallèles sur une solution moins coûteuse au lieu de continuer à optimiser verticalement. D’autres efforts ont été entrepris pour optimiser le matériel lui-même, comme le SSD. Gardez à l’esprit que, si vous disposez d’un petit ensemble de données, le traitement en parallèle peut en fait ralentir votre pipeline d’analyse en raison de l’introduction d’une relation esclave/maître à gérer. Cela suppose en outre que le logiciel sous-jacent utilisé traite la parallélisation.

Le volume aura des implications importantes dans votre processus en raison de la limitation des vitesses d’écriture et de lecture. Il convient d’accorder une attention particulière aux tâches que vous allez effectuer le plus souvent, car toutes les technologies ne se valent pas.

Variété

Quels sont les types de sources de données traitées ?

Les données se présentent sous de nombreux formats différents. Les trois catégories de données sont les suivantes : structurées, semi-structurées et non structurées. Parmi les exemples de consommables, on peut citer les images, la vidéo, l’audio, le numérique, les données spatiales et le texte. De nombreux produits livrables sont en réalité une combinaison de plusieurs consommables. Prenons par exemple une vidéo. Elle peut comprendre des éléments visuels, sonores et textuels superposés. Il est donc très important de prendre en compte les types de données que vous allez traiter et les exigences de votre organisation pour les ingérer, les manipuler, les analyser et les présenter. Par exemple, une organisation qui traite des données de systèmes d’information géographique (SIG) aura probablement des préoccupations fondamentales très différentes de celles d’une institution financière.

Vitesse

Quelle est la fréquence de réception des données ? Quelle est la fréquence de consommation ?

Les données sont de deux types qui jouent un rôle important pour déterminer leur vitesse : en continu (streaming) ou non. Théoriquement, une source de données en continu s’apparente à des processus de données infinis dans de petits chunks temporels.

Les considérations relatives à la vitesse peuvent avoir un impact à la fois sur notre confiance dans l’exactitude des données, sur la puissance (et donc le coût) de notre technologie et sur la complexité des cas d’utilisation de nos analyses. Ainsi, pour traiter instantanément des données que nous recevons à une fréquence élevée (données boursières, par exemple), il peut ne pas être viable d’avoir une communication bidirectionnelle entre machines qui valide l’exactitude des paquets échangés. Par ailleurs, si nous devons prendre des décisions rapides avec les données (par exemple, une société de carte de crédit validant la fraude avec ses modèles), nous pouvons avoir besoin de processus analytiques disparates (par exemple, un mécanisme de feedback immédiat basé sur un modèle standard et une durée limitée qui est probablement réalisé en mémoire et un système séparé permettant de construire, de rétrotester et d’ajuster un modèle à partir d’un plus grand ensemble de données).

Véracité

Quelle est la qualité des données traitées ?

La qualité des données et les mesures à prendre pour les rendre utiles sont des éléments importants en matière de technologies et de ressources. On estime souvent que 70 à 80 % du temps d’une ressource de données est consacré au nettoyage des données. Il y a incontestablement du vrai dans cette affirmation.

Valence

Dans quelle mesure les données sont-elles interconnectées ?

Les données présentant une relation claire clé primaire/clé étrangère ou des colonnes avec une structure récurrente standard sont formidables car vous pouvez aisément les relier par des jointures, des vlookups, des annexes, des concaténations ou toute autre forme de fonction de connectivité connue. Cependant, la plupart des données ne sont pas aussi faciles à associer et nécessitent un certain niveau de traitement et/ou de résolution d’entité. En général, la valeur réelle et les informations pertinentes ne viennent pas des données structurées. Souvent, il s’agit plutôt de prendre des données non structurées et de les superposer aux données structurées.

Considérations complémentaires

Maintenant que nous avons examiné les données traitées et les mesures à prendre pour générer des informations et des visualisations, il convient également de réfléchir à la philosophie organisationnelle appropriée.

Perturbation

Avons-nous besoin de sauvegardes de nos données ? Où et à quelle fréquence ?

Nous aimerions que tout fonctionne parfaitement tout le temps. Ce n’est malheureusement pas une attente réaliste. Vos processus et technologies vont nécessairement subir des perturbations. La vraie question est de savoir quand et dans quelle mesure. Il est extrêmement important de considérer comment, où et avec quelle technologie les données et les processus associés doivent être développés, sauvegardés et audités, et leurs versions contrôlées. Quelles sont en outre les exigences en matière de temps d’arrêt par rapport au temps de fonctionnement ? Quel est le plan dans l’hypothèse improbable d’un événement catastrophique ? Il est surtout crucial de réfléchir à la manière dont les problèmes seront gérés et communiqués aux développeurs, aux services informatiques et aux utilisateurs finaux, entre autres.

Éthique

Que pouvons-nous faire de ces données d’un point de vue éthique, que devons-nous divulguer à leur sujet et nos résultats sont-ils potentiellement biaisés d’une manière ou d’une autre ?

C’est un élément qui peut avoir un énorme impact sur les relations publiques. L’éthique est devenue une préoccupation courante du fait des problèmes apparus dans les médias autour de Facebook, Microsoft et d’autres grandes entreprises technologiques. Imaginons que vous ayez un modèle de machine learning. Pouvez-vous raisonnablement dire que votre équipe de science des données l’a élaboré sans aucune idée préconçue ? Ce n’est probablement pas le cas si ses membres viennent tous des mêmes milieux universitaires ou culturels. Et à supposer qu’il n’y ait pas d’idées préconçues, pouvez-vous affirmer que les données elles-mêmes ne sont pas le produit d’une norme sociétale ou culturelle sous-jacente, sous-optimale et renforcée par le modèle lui-même ?

Sécurité

Combien de temps devons-nous conserver les données ? Qui doit pouvoir y accéder ? Quelles sont les exigences de sécurité concernant les données ?

La plupart des équipes informatiques conviendront qu’il est très important de connaître le niveau des restrictions et le protocole de sécurité qui s’appliquent à vos données. Les données sont-elles transférées de serveur à serveur ? Dans ce cas, il faut absolument mettre en place une forme de protocole de cryptage et de décryptage. Quelles sont les considérations relatives aux droits administratifs ? Qui peut concrètement accéder aux données à un moment défini ? Les données doivent-elles être accessibles ? Ce sont des éléments qu’il est essentiel de gérer et de mettre à jour en permanence. Idéalement à partir d’un emplacement central et sécurisé offrant un déploiement et une mise à jour faciles grâce à un certain niveau d’automatisation.

Aujourd’hui, la sécurité ne se limite évidemment pas aux droits administratifs et informatiques. La sécurité présente également une composante de risque liée aux données. Quelle est la durée de conservation des données ? Plus votre entreprise dispose de données pouvant nécessiter un accord d’utilisation ou de confidentialité, plus elle risque d’être confrontée à des risques si ces données tombent dans les mains de personnes mal intentionnées. Cela peut sembler regrettable, mais il est impératif que chaque organisation prenne en compte le ratio risque/récompense de ses données, leur durée de conservation et l’importance des questions d’assurance pour les données.

Conclusion

La première étape vers l’achat d’une solution Analytics et son adoption est l’identification. À partir de là, il faut agir en tenant compte des éléments susmentionnés. L’examen, l’achat et l’adoption de technologies constituent une décision qui ne doit pas être prise à la légère. Beaucoup pensent aux solutions d’analyse uniquement du point de vue de l’efficacité opérationnelle, des capacités de visualisation et/ou des informations à tirer de leur utilisation. Si ces éléments sont importants, ils ne prennent pas nécessairement en compte l’ensemble du paysage. Le choix de solutions analytiques, comme un outil de business intelligence (BI), pour votre organisation est associé à des questions complexes. Ainsi, tous les acteurs concernés, y compris, mais sans s’y limiter, les équipes du service informatique, du génie logiciel, d’analyse, des opérations et du service juridique, doivent participer au processus décisionnel.

Vous souhaitez en savoir plus sur nos solutions Analytics et comment celles-ci peuvent améliorer votre gestion des données? Contactez-nous pour demander votre démo gratuite.