¿Qué es un pipeline bioinformático?
Un pipeline bioinformático es una secuencia estructurada de pasos computacionales diseñada para analizar datos biológicos. No se trata de un único programa ni de una receta universal, sino de una línea de trabajo que integra tres pilares fundamentales: las bases de datos biológicas, las herramientas computacionales y los métodos de análisis que permiten interpretar los resultados de manera biológicamente significativa (Luscombe et al., 2001). En otras palabras, un pipeline es el camino que convierte datos crudos en conocimiento científico.
La forma que adopta un pipeline depende de varios factores: la tecnología de secuenciación utilizada, el tipo de material genético analizado y, sobre todo, el objetivo del estudio. No es lo mismo buscar especies en una muestra ambiental que estudiar variaciones genéticas dentro de una población. Cada decisión técnica tiene consecuencias directas en los resultados.
¿Cómo funcionan los pipelines bioinformáticos?
En estudios de biodiversidad que utilizan códigos de barras genéticos, como el gen COI, secuenciados con tecnologías de nanoporo, se ha identificado una estructura común de análisis compuesta por cinco grandes pasos: llamado de bases, demultiplexación, filtrado de tamaño y calidad, asignación de grupo taxonómico y validación de la asignación (Hebert et al., 2024; Martoni et al., 2022, 2024). El primer paso, llamado basecalling, convierte las señales generadas por la máquina en secuencias de ADN, almacenadas en archivos digitales donde cada nucleótido recibe un valor de calidad mediante la puntuación PHRED (Tarozzi, 2024). Además, en esta etapa se realiza la demultiplexación, separando las muestras secuenciadas juntas mediante el reconocimiento de códigos de barra (Hebert et al., 2024; Knot et al., 2020; Koblmüller et al., 2024). Después se filtran las secuencias en bruto por tamaño, calidad o presencia de adaptadores y cebadores, eliminando errores técnicos y datos de baja calidad. Para ello se usan aplicaciones como BBDuk (Bushnell, 2021), Cutadapt (Martin, 2011) o Porechop (Bonenfant et al., 2023) (Abeynayake et al., 2021; Hebert et al., 2024; Martoni et al., 2024). A continuación, las secuencias filtradas se agrupan según su similitud en clusters (VSEARCH) o se identifican secuencias idénticas (ASVs, DADA2) para generar consensos y asignarlas a un taxón mediante bases de datos públicas o personalizadas (Hebert et al., 2024; Martoni et al., 2022). Finalmente, la congruencia de las asignaciones se valida comparando con con baes de datos como GenBank, BOLD o bases de datos morfológicos, entre otros (Abeynayake et al., 2021; Hebert et al., 2024; Martoni et al., 2024).
No todos los pipelines son iguales, ya que las variaciones dependen de los pasos de filtrado, las herramientas bioinformáticas y las bases de datos utilizadas. Más que procesos técnicos, los pipelines representan decisiones científicas que influyen directamente en cómo interpretamos la información genética de la biodiversidad y la confiabilidad de nuestras conclusiones.
Referencias Bibliográficas
Abeynayake, S. W., Fiorito, S., Dinsdale, A., Whattam, M., Crowe, B., Sparks, K., Campbell, P. R., & Gambley, C. (2021). A Rapid and Cost-Effective Identification of Invertebrate Pests at the Borders Using MinION Sequencing of DNA Barcodes. Genes, 12(8), 1138. https://doi.org/10.3390/genes12081138
Bonenfant, Q., Noé, L., & Touzet, H. (2023). Porechop_ABI: Discovering unknown adapters in Oxford Nanopore Technology sequencing reads for downstream trimming. Bioinformatics Advances, 3(1), vbac085. https://doi.org/10.1093/bioadv/vbac085
Bushnell, B. (2021). Bbduk.sh [Software]. https://github.com/BioInfoTools/BBMap/blob/master/sh/bbduk.sh
Hebert, P. D. N., Floyd, R., Jafarpour, S., & Prosser, S. W. J. (2024). Barcode 100K Specimens: In a Single Nanopore Run. Molecular Ecology Resources, e14028. https://doi.org/10.1111/1755-0998.14028.
Knot, I. E., Zouganelis, G. D., Weedall, G. D., Wich, S. A., & Rae, R. (2020). DNA Barcoding of Nematodes Using the MinION. Frontiers in Ecology and Evolution, 8, 100. https://doi.org/10.3389/fevo.2020.00100
Koblmüller, S., Resl, P., Klar, N., Bauer, H., Zangl, L., & Hahn, C. (2024). DNA Barcoding for Species Identification of Moss-Dwelling Invertebrates: Performance of Nanopore Sequencing and Coverage in Reference Database. Diversity, 16(4), 196. https://doi.org/10.3390/d16040196
Luscombe, N., Greenbaum, D., & Gerstein, M. (2001). What is Bioinformatics? A Proposed Definition and Overview of the Field. Methods of information in medicine, 40(4), 346-358.
Martin, M. (2011). Cut adapt removes adapters sequences from high-throughput sequencing reads. EMBnet J, 17, 10-12.
Martoni, F., Muxton, J., Sparks, K., LI, T., Smith, R., Rako, L., & Blacket, M. (2024). A morphological and high throughput sequencing workflow to identify Australian ants (hymenoptera,Formcidae)_a new tool for biosecurity and biodiversity. Metabarcoding and Metagenomics. https://doi.org/10.3897/mbmg.8.130531
Martoni, F., Piper, A. M., Rodoni, B. C., & Blacket, M. J. (2022). Disentangling bias for non-destructive insect metabarcoding. PeerJ, 10, e12981. https://doi.org/10.7717/peerj.12981
Tarozzi, M. (2024). Next Generation Sequencing Technologies, Bioinformatics and Artificial Intelligence: A Shared Timeline. Science Reviews. Biology, 3(2), 13-21.
No Comment