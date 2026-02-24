Estas bases de datos almacenan información muy diversa, como secuencias de ADN, proteínas, genomas completos o datos asociados a organismos específicos, y se han convertido en un pilar fundamental de la biología moderna (Toomula et al., 2012).

¿Cuál es la situación actual de las bases de datos?

En el campo de la biología molecular, el desarrollo de las bases de datos comenzó de forma más visible en la década de 1980, cuando se publicaron los primeros catálogos de datos biológicos y se abrieron al público bases que antes eran privadas, como GenBank. Desde entonces, la recopilación de información genética no ha dejado de crecer, incorporando datos de una enorme diversidad de organismos vivos (Villalba & Matte, 2021).

Este crecimiento se ha acelerado notablemente con la llegada de las tecnologías de secuenciación de alto rendimiento, que generan cantidades masivas de datos en poco tiempo. Como resultado, actualmente vivimos en la era de los macrodatos biológicos, donde las bases de datos cumplen un rol clave para organizar, almacenar y hacer accesible esta información a la comunidad científica a nivel global (Caswell et al., 2019). De acuerdo con registros recientes, hasta el año 2023 existían cerca de 7000 bases de datos biológicas en todo el mundo, que abarcan múltiples categorías y cientos de especies diferentes (Ma et al., 2023).

¿Qué tipos de bases de datos hay?

Las bases de datos biológicas pueden clasificarse según su función. Las bases de datos primarias almacenan datos experimentales en bruto, es decir, información que se deposita directamente tras los experimentos, como las secuencias de ADN. Ejemplos conocidos son GenBank, EMBL y DDBJ. Por otro lado, las bases de datos secundarias contienen información procesada o interpretada a partir de los datos primarios, como RefSeq o TrEMBL, que ofrecen datos revisados y organizados. Finalmente, las bases de datos especializadas están diseñadas para comunidades científicas o grupos biológicos específicos, como el sistema Barcode of Life (BOLD) o bases enfocadas en enfermedades particulares, como el cáncer (Fawzy et al., 2022; Portillo et al., 2022).

Bases de datos en constante mejora

El desarrollo y perfeccionamiento de estas bases de datos ha sido posible gracias a la bioinformática. Sin embargo, como ocurre en toda actividad científica, su generación y mantenimiento no están libres de errores. Entre los más comunes se encuentran los errores originales, relacionados con el proceso de secuenciación; los errores por contaminación, que pueden introducir organismos no deseados durante el trabajo experimental; los errores de metadatos, derivados del uso de programas informáticos o de la interpretación humana; y los errores de entrada, que ocurren durante la transferencia o actualización de la información en las bases de datos (Caswell et al., 2019). Estos errores son ampliamente reconocidos y se depuran a lo largo del procesamiento de los datos, mediante la estandarización de protocolos de secuenciación y pipelines bioinformáticos.

Las bases de datos biológicas son herramientas esenciales para la investigación científica. Su constante revisión, actualización y mejora permiten que el conocimiento biológico sea más accesible, confiable y útil, facilitando avances en áreas como la biodiversidad, la medicina, la conservación y la biotecnología.

