ARTICLE DU BLOG :

Apprivoiser le Big Data à l’aide d’un cahier de laboratoire électronique (ELN)

La technologie de gestion des données de laboratoire a considérablement évolué : elle est passée de notes manuscrites et de photos sur gel électrophorèse à des serveurs numériques alimentés par des instruments connectés. La question n’est plus de savoir si votre laboratoire va se transformer numériquement, mais dans combien de temps cela se produira.La capture et le stockage des données brutes constituent la première étape critique de tout processus de recherche.

Le papier appartient au passé

La technologie de gestion des données de laboratoire a considérablement évolué : elle est passée de notes manuscrites et de photos sur gel électrophorèse à des serveurs numériques alimentés par des instruments connectés. La question n’est plus de savoir si votre laboratoire va se transformer numériquement, mais dans combien de temps cela se produira.

Le concept de base de la gestion des données est toutefois resté en grande partie inchangé. Tout, des données et images originales aux observations et annotations des chercheurs, est relevé dans une sorte de « cahier » de laboratoire, qui sert de référentiel central unique des faits, des statistiques, des résultats et d’autres informations sur le projet. C'est un enregistrement de travaux et de résultats expérimentaux, contenant souvent des méthodes expérimentales, des données originales et même des métadonnées nécessaires pour contextualiser les résultats.

Les métadonnées formelles, les paramètres de test expérimentaux ou les conditions de contrôle sont souvent complétés par des observations et des annotations des chercheurs, ce qui facilite l’analyse et l’interprétation uniques des données. Ces données combinées et multi-sources conduisent souvent à la genèse de nouvelles idées et découvertes.

La capture et le catalogage efficaces de ces informations sont essentiels pour le chercheur et les autres personnes qui tentent de reproduire le travail et d’extraire des connaissances des résultats.

L’avenir des cahiers électroniques

Aujourd’hui, les chercheurs s’appuient sur des cahiers de laboratoire électroniques (ELN) plutôt que sur des feuilles de papier reliées en spirale. En fait, les pratiques numériques sont maintenant si courantes dans l’industrie que de nombreux instruments sont plus susceptibles d’avoir des câbles à fibre optique, des ports USB et des graphiques complexes que des imprimantes ou de simples lectures numériques. Les ELN sont devenus essentiels simplement pour suivre les grandes quantités de données générées et collectées par les laboratoires modernes. Ces ensembles de données sont exponentiellement plus grands que par le passé, se déplacent plus rapidement et sont échangés sur des réseaux internationaux.

Par conséquent, de puissantes ressources informatiques, souvent automatisées, sont nécessaires pour gérer, analyser et exploiter les résultats en informations pratiques, d'autant plus sur les produits commercialisables. Ce processus est souvent comparé à la recherche d’une aiguille dans une botte de foin, sauf que la « botte de foin » pourrait potentiellement avoir la taille d’une ou plusieurs galaxies.

De nouvelles idées et découvertes résultent souvent de la capture et de la comparaison de données provenant de sources différentes. Mais toutes les sources ne traitent pas les données de la même manière, et les différents types de données nécessitent des stratégies de catalogage et de numérisation différentes avant de pouvoir être analysées par les outils les plus sophistiqués d’aujourd’hui.

Les enjeux des données multi-sources

De nouvelles idées et découvertes résultent souvent de la capture et de la comparaison de données provenant de sources différentes. Mais toutes les sources ne traitent pas les données de la même manière, et les différents types de données nécessitent des stratégies de catalogage et de numérisation différentes avant de pouvoir être analysées par les outils les plus sophistiqués d’aujourd’hui.

Un ELN typique combine des interfaces utilisateur avec une base de données centralisée et un stockage de fichiers. Bien fait, ce système permet un stockage transparent des observations de laboratoire, des résultats d’expériences, des flux de travail d’exécution, des métadonnées et plus encore dans un format numérique rationalisé. L’objectif est de rendre l’analyse des données de votre ELN aussi simple que possible, idéalement dès leur première capture dans le système.

L’un des plus grands défis à relever pour atteindre cet objectif est que les données se présentent désormais sous plus de formes que jamais auparavant. En fonction de leur source, toutes les données peuvent ne pas être immédiatement utilisables dans un moteur d’analyse... ou dans ce cas, être même lisible par un œil humain.

L’interprétation de ces données de manière à ce qu’elles puissent être capturées et conservées avec succès peut nécessiter l’une ou l’autre des stratégies suivantes, ou les deux :

  • Transformation des données : numériser les données, ou les convertir dans un format numérique différent, pour les rendre compréhensibles pour toutes les personnes, logiciels ou autres systèmes qui travailleront avec elles.
  • Nettoyage des données :modifier ou supprimer certaines données pour les affiner jusqu’aux points pertinents nécessaires à l’analyse.

Une autre complication qui accompagne le Big Data est, bien entendu, son volume, ce qui rend la saisie de données humaine peu pratique pour de nombreuses tâches. La nécessité de traiter de grandes quantités de données, souvent provenant de sources en dehors des conditions contrôlées de votre laboratoire, rend généralement une certaine forme d’automatisation essentielle, à la fois pour gérer la quantité d’informations et pour minimiser les risques d’erreur humaine lorsque les données sont saisies dans l’ELN.

Trois types de données

Les sources de données ELN sont classées en trois catégories en fonction de leur structure :

· Données structurées

Cette catégorie fait référence aux données qui sont déjà configurées dans des formats standardisés et lisibles par machine, tels que des tableurs ou des bases de données. Les données structurées sont la forme la plus simple à comprendre et à utiliser pour un ELN. Un certain nettoyage des données peut être souhaitable en fonction de la source, mais en général, il nécessite peu ou pas de traitement pour devenir utilisable lorsqu’il est entré dans le système.

· Données non structurées

À l’autre extrémité du spectre se trouve le type de données le plus difficile pour un environnement ELN. Les données non structurées se présentent dans des formats qui nécessitent une certaine forme de conversion ou de traitement avant de pouvoir être utilisées.

Les exemples courants incluent les photos et autres images, les cartes, les graphiques et les données au niveau de la séquence. Toutes les données qui ne sont pas encore au format numérique, telles que les rapports imprimés ou les notes manuscrites, entrent également dans cette catégorie.

· Données semi-structurées

Cette classification combine des éléments de données structurées et non structurées. Dans de nombreux cas, il s’agit d’une forme de données non structurées auxquelles sont attachées des métadonnées, telles que des observations de chercheurs ou des données d’instruments. Bien que les données semi-structurées puissent être utilisables seules, leur valeur peut être considérablement améliorée en utilisant un logiciel analytique pour traiter les parties non structurées des données lorsqu’elles sont saisies dans l’ELN.

Les sources de données ELN sont classées en trois catégories en fonction de leur structure :.

Récolter la récolte de données

Quelle que soit la catégorie de données avec laquelle vous travaillez, elles devront passer par un processus appelé extraction, transformation et chargement (ETL) avant de pouvoir être analysées. À l’aide de l’ETL, les données sont collectées, formatées pour être lisibles par une application, puis stockées pour être utilisées.

Un ELN de pointe doit avoir la capacité de transformer des données non structurées résultant d’expériences en données semi-structurées. Une telle transformation permet d’obtenir des méthodes analytiques, des analyses inférentielles et même des tendances prédictives en temps réel.

Bien que des données entièrement structurées puissent être ajoutées directement à n’importe quelle base de données LIMS, LabVantage ELN offre une grande flexibilité lors du traitement de données semi-structurées ou non structurées.

L’ELN LabVantage est unique car il bénéficie du support de base d’une application LIMS d’entreprise. Les métadonnées semi-structurées et les données structurées sont capturées directement et de manière transparente à partir des sources de l’instrument à l’aide du système de gestion des données scientifiques (SDMS) de LabVantage.

Une fois que les données sont sous une forme utilisable dans LabVantage ELN, l’utilisateur peut choisir de manipuler davantage les données ou de les introduire directement dans un moteur d’analyse tel que LabVantage Analytics. Cela permet non seulement d'optimiser les activités quotidiennes du laboratoire, mais fournit également une source unique et unifiée de vérité pour les brevets, les publications et les demandes de nouveaux médicaments expérimentaux à la FDA.

Par exemple, LabVantage vous permet non seulement d’ajouter des pièces jointes liées à une feuille de travail particulière à titre de référence dans l’ELN, mais (selon le type de données) vous pouvez ouvrir et capturer les informations de la pièce jointe directement dans la feuille de travail elle-même , ce qui rend les informations de la pièce jointe beaucoup plus accessibles que dans la plupart des autres ELN.

Travailler avec le Big Data est difficile.

Les entreprises sont confrontées à la nécessité de combiner et d’intégrer avec succès plusieurs types de données et d’extrapoler des résultats significatifs. Un ELN, dans le cadre d’une solution informatique plus large, doit être efficace et fournir une extraction d’informations optimisée. Dans l’environnement de données complexe d’aujourd’hui, il doit être disponible pour stocker, accéder et analyser de grandes quantités de données à la fois afin de réduire les coûts et d’accélérer la prise de décision.

Apprenez-en plus sur LabVantage ELN, ou contactez-nous dès aujourd’hui.