Ricardo J. Chaparro – Tovar, Investigador, Venezuela. / Correo: ricardochaparroinia@gmail.com
https://orcid.org/0000-0003-0749-726X
El presente escrito es una contribución desde la Red Latinoamericana de Divulgación Científica.

El Plan de Gestión de Datos (PGD) es un documento dinámico que describe cómo se recopilarán, organizarán, almacenarán, protegerán, compartirán y preservarán los datos de un proyecto de investigación a lo largo de su ciclo de vida. Lejos de ser una mera formalidad, el PGD es una herramienta estratégica indispensable. Su relevancia radica en que:
- Guía estratégica: Obliga a los investigadores a pensar proactivamente sobre la gestión de sus datos desde el inicio del proyecto, lo que evita problemas futuros y asegura que los datos sean utilizables.
- Requisito de financiamiento: Muchas de financiamiento, como los Institutos Nacionales de Salud (NIH) en EE. UU. o el Consejo Europeo de Investigación (ERC), exigen un PGD detallado como parte de la solicitud de subvención.
- Mejora de la investigación: Al planificar la gestión de datos, se abordan cuestiones como la estandarización, la calidad de los datos y los metadatos, lo que contribuye a la solidez científica del estudio.
- Facilita la colaboración: Un PGD claro y compartido permite que todos los miembros del equipo entiendan y sigan las mismas directrices de gestión de datos.
- Promueve la ciencia abierta: El PGD es un componente clave para la práctica de la ciencia abierta, ya que articula cómo se harán los datos FAIR (Findable, Accessible, Interoperable, Reusable).
Orientaciones para realizar el plan de gestión de datos
La creación de un PGD efectivo requiere una consideración cuidadosa de varios elementos. Aquí se presentan orientaciones clave:
Descripción de los datos:
- Tipo y formato: ¿Qué tipos de datos se generarán (cuantitativos, cualitativos, imágenes, etc.)? ¿En qué formatos se almacenarán (CSV, HDF5, JPEG, etc.)?
- Volumen: Estimar la cantidad de datos que se producirán.
- Origen y recolección: ¿Cómo se recolectarán los datos? ¿Se utilizarán datos existentes?
- Estructura y convenciones: Describir la estructura de los datos (ej. bases de datos, hojas de cálculo) y las convenciones de nomenclatura de archivos y directorios.
Documentación y metadatos:
- Estándares de metadatos: ¿Qué estándares de metadatos se utilizarán (ej. Dublin Core, FGDC, DDI)? Los metadatos son cruciales para que los datos sean comprensibles y reutilizables por otros.
- Información esencial: Qué información se registrará sobre los datos (descripción del estudio, variables, unidades, métodos de recolección, software utilizado, etc.).
- Herramientas de documentación: Cómo se documentarán los datos (libros de códigos, archivos README, cuadernos electrónicos).
Almacenamiento y copia de seguridad:
- Almacenamiento activo: ¿Dónde se almacenarán los datos durante el proyecto (servidores locales, almacenamiento en la nube, repositorios institucionales)?
- Copia de seguridad: ¿Con qué frecuencia se realizarán copias de seguridad? ¿Dónde se almacenarán? ¿Cómo se recuperarán en caso de pérdida?
- Seguridad y acceso: Medidas para proteger los datos contra acceso no autorizado, pérdida o corrupción (cifrado, permisos de acceso).
Cuestiones éticas y legales (si aplica):
- Datos sensibles: Si los datos involucran información personal o confidencial, ¿cómo se protegerá la privacidad (anonimización, seudonimización)?Consentimiento informado: Si aplica, describir cómo se obtuvo el consentimiento para la gestión y posible compartición de datos.
- Derechos de propiedad intelectual: ¿Quién es el propietario de los datos? ¿Cómo se licenciarán para su reutilización?
Compartición y acceso a los datos:
- Disponibilidad pública: ¿Se harán los datos disponibles públicamente? ¿Cuándo y cómo?
- Repositorios de datos: ¿Qué repositorio de datos se utilizará para depositar los datos (ej. Dryad, Zenodo, repositorios específicos de disciplina)? Es fundamental elegir un repositorio que asigne identificadores persistentes (DOIs).
- Condiciones de acceso: ¿Habrá restricciones de acceso (ej. datos solo para uso académico, acceso controlado)?
- Licencias: ¿Qué licencias de datos se aplicarán para permitir la reutilización (ej. Creative Commons)?
Preservación y archivo a largo plazo:
- Período de retención: ¿Cuánto tiempo se conservarán los datos después de la finalización del proyecto?
- Formatos para preservación: Elegir formatos de archivo duraderos y no propietarios que faciliten la preservación a largo plazo.
- Responsabilidad: ¿Quién será responsable de la preservación a largo plazo de los datos?
Roles y responsabilidades:
Asignar claramente las responsabilidades para cada aspecto de la gestión de datos dentro del equipo de investigación. Es importante recordar que el PGD no es un documento estático; debe ser revisado y actualizado a medida que el proyecto avanza y las necesidades de gestión de datos evolucionan.
Capacidades esenciales para el investigador novel en la gestión de datos
Para un investigador novel, dominar la gestión de datos es tan crucial como dominar las técnicas de laboratorio o las habilidades analíticas. Aquí se recomiendan las capacidades fundamentales a desarrollar:
- Fundamentos de datos FAIR: Comprender los principios FAIR (Findable, Accessible, Interoperable, Reusable) y cómo aplicarlos a sus propios datos. Esto implica conocer la importancia de los metadatos, los identificadores persistentes y los formatos abiertos.
- Alfabetización en metadatos: Capacidad para crear metadatos ricos y estandarizados que describan adecuadamente sus datos. Esto incluye comprender los estándares de metadatos relevantes para su disciplina.
- Habilidades de organización y documentación: Desarrollar sistemas robustos para organizar archivos y directorios, utilizar convenciones de nomenclatura consistentes y documentar cada paso del proceso de datos (desde la recolección hasta el análisis). El uso de cuadernos electrónicos de laboratorio (ELN) puede ser de gran ayuda.
- Conocimiento de herramientas y Software: Familiarizarse con software de gestión de datos, herramientas para la limpieza y manipulación de datos (ej. lenguajes de programación como R o Python con librerías como Pandas), y sistemas de control de versiones (ej. Git) para el código y la documentación.
- Conciencia de seguridad y privacidad de datos: Comprender los principios de seguridad de la información y las normativas de privacidad (ej. GDPR si aplica) para proteger los datos sensibles.
- Capacidad de elección de repositorios y licencias: Saber identificar repositorios de datos confiables y apropiados para su disciplina, así como comprender las diferentes licencias de datos y su implicación para la reutilización.
- Habilidades de colaboración: Poder trabajar efectivamente en equipos que requieren el intercambio y la gestión conjunta de datos. Esto incluye el uso de plataformas colaborativas y la adherencia a acuerdos sobre prácticas de datos.
- Pensamiento crítico sobre calidad de datos: Desarrollar la capacidad de evaluar la calidad de los datos, identificar posibles errores o sesgos, y comprender cómo estos pueden afectar los resultados de la investigación.
- Búsqueda y reutilización de datos: Saber cómo encontrar y evaluar conjuntos de datos existentes para su reutilización, ahorrando tiempo y potenciando nuevas investigaciones.
La gestión de datos no es una carga administrativa, sino una inversión estratégica. Para el investigador novel, cultivar estas capacidades no solo garantizará la solidez y el impacto de su propia investigación, sino que también contribuirá a la construcción de un ecosistema científico más abierto, reproducible y eficiente. En la era de la ciencia impulsada por los datos, la gestión de datos se erige como una habilidad indispensable.
Referencias
- BiblioGías (s/f). Datos de Investigación: Plan de Gestión de Datos https://biblioguias.uva.es/datos-investigacion/plan-gestion-datos
- Biblioteca de la Universidad de York (s. f.). ¿Qué es la gestión de datos de investigación?. https://www.york.ac.uk/library/info-for/researchers/data/management/
- FAIR (s/f). Principios FAIR. https://www.go-fair.org/fair-principles/
- Servicios Bibliotecarios de la UCL. (s. f.). Gestión de datos de investigación: mejores prácticas http://www.ucl.ac.uk/library/research-support/research-data/best-practices
- Universidad de Leicester. (s.f.). Qué es la Gestión de Datos de Investigación http://www2.le.ac.uk/services/research-data/rdm/what-is-rdm
- Strasser, C., Cook, R., Michener, W. y Budden, A. (2012). Manual de gestión de datos: Lo que siempre quiso saber. http://escholarship.org/uc/item/7tf5q7n3.pdf