Minería de datos y mapas bibliométricos: visualiza las redes de conocimiento - Petroglifos Revista Crítica Transdisciplinaria

Por: Andreina A. Bendayán Jiménez¹ y Oswaldo D. Bolívar Rodríguez²
¹ Personal de Investigación, Instituto Venezolano de Investigaciones Científicas (IVIC), Centro de Ingeniería de Materiales y Nanotecnología (CIMN), Carretera Panamericana, km 11, Altos de Pipe, Miranda, Venezuela. Cód. Postal, 1020-A. ORCID: https://orcid.org/0009-0006-7822-5316 Correo: dandre.blue@gmail.com
² Personal de Investigación, Fundación Instituto de Estudios Avanzados (IDEA), Dirección de Energía y Ambiente, Carretera Nacional de Hoyo de la Puerta, Miranda, Venezuela. ORCID: https://orcid.org/0009-0009-1053-8158 Oswaldo D. Bolívar Rodríguez. Correo: obolivar@idea.gob.ve

Una vez que has recopilado los artículos relevantes para tu tema (usando las herramientas de búsqueda) y los has seleccionado con criterios claros (siguiendo el método PRISMA), llega el momento de analizarlos en conjunto. Aquí es donde entra la minería de datos y los mapas bibliométricos.

Datos, información y conocimiento

Obtener datos es fundamental en cualquier investigación científica. En biología, por ejemplo, los avances tecnológicos han permitido estudiar el ADN y entender cómo funcionan los sistemas vivos. Hoy existen disciplinas que manejan una cantidad impresionante de datos para analizar procesos tan pequeños que ni siquiera vemos.

Pero vayamos a lo básico: ¿qué es un dato? Un dato es un valor que representa un hecho o un concepto. Cuando lo analizamos, se convierte en información. Y cuando lo interpretamos con nuestra experiencia y criterio, entonces se transforma en conocimiento. Ese paso de dato a conocimiento es el corazón de áreas como la minería de datos, donde se buscan patrones y aprendizajes ocultos en grandes volúmenes de información.

¿Y qué es eso de la “minería de datos”?

La palabra minería te da una pista: igual que un minero busca granitos de oro entre toneladas de tierra, tú buscas hallazgos útiles —patrones, relaciones, tendencias— entre montañas de información. Eso es la minería de datos: usar herramientas para explorar grandes volúmenes de información y encontrar aquello que, a simple vista, pasaría desapercibido. Pero este proceso no es un solo paso. Implica toda una ruta: desde que tienes los datos en bruto hasta que obtienes conocimiento útil. Primero los seleccionas, luego los preprocesas (los limpias y organizas), después los transformas para poder analizarlos, aplicas técnicas para evaluar patrones y, finalmente, obtienes el conocimiento que estabas buscando (Figura 1).

Figura 1. Diagrama circular de procesos involucrados en la minería de datos.

Veamos un ejemplo. Imagina que estudias corales y tienes cien muestras de colonias sanas y cien de colonias enfermas. De cada muestra secuenciaste el ADN de todas las bacterias que viven allí. Al final, te enfrentas a una tabla con millones de datos: qué bacterias están presentes, en qué cantidad, en cada colonia. Revisar fila por fila, buscando patrones a simple vista, es imposible. Ahí es donde la minería de datos hace su trabajo: usas programas que agrupan muestras similares, identifican qué bacterias aparecen sólo en colonias enfermas, y te dicen: “estas tres bacterias son las que marcan la diferencia entre un coral sano y uno enfermo”. En lugar de ahogarte en datos, encuentras lo que realmente importa. Los especialistas le ponen un nombre más técnico a todo esto: descubrimiento de conocimiento en bases de datos (KDD, por sus siglas en inglés). Pero en el fondo es eso: partes de un montón de datos en bruto y terminas con conocimiento para tu investigación.

Mapas bibliométricos: organiza y visualiza

Una vez que entiendes qué es la minería de datos —buscar patrones escondidos entre montañas de información—, el siguiente paso es preguntarte: ¿y cómo hago eso con artículos científicos? Para eso existen los mapas bibliométricos.

Estas herramientas te permiten organizar y visualizar la información de cientos o miles de publicaciones de una sola mirada. Programas como VOSviewer o RStudio (con un paquete llamado bibliometrix) crean mapas que muestran, por ejemplo, qué autores citan a quién, qué términos aparecen juntos con frecuencia o cómo se agrupan los artículos por temas similares (Figura 2). En lugar de leer artículo por artículo tratando de encontrar conexiones, el mapa te las muestra directamente. Luego, tú interpretas esos patrones según lo que necesites para tu investigación.

Figura 2. Ejemplo de mapa bibliométrico. Tomado de Machado (2024). — Figura 2. Ejemplo de mapa bibliométrico. Tomado de Machado (2024)

¿Cómo se construye un mapa bibliométrico?

Aunque cada programa tiene sus particularidades, el proceso sigue más o menos los mismos pasos:

Elegir la fuente de los datos. Bases como Scopus, Web of Science, PubMed o Google Scholar te permiten exportar listas de artículos con toda su información: autores, citas, palabras clave, etc.
Hacer una búsqueda bien afinada. Aquí entran en juego los operadores booleanos (AND, OR, NOT), los paréntesis, las comillas y los filtros de año o tipo de documento. Cuanto más precisa sea tu búsqueda, más limpio será tu mapa.
Limpiar los datos. Revisar que no haya duplicados, unificar términos que significan lo mismo (por ejemplo, “coral bleaching” y “coral whitening”) y corregir errores. Parece un paso tedioso, pero es clave para que el mapa no te muestre elementos extraños.
Construir la red. El programa identifica los elementos que quieres analizar —autores, palabras clave, citas— y calcula cómo se relacionan entre sí. El resultado es una red de nodos (los elementos) y enlaces (las relaciones).
Analizar y sacar conclusiones. El mapa te mostrará grupos de autores que trabajan juntos, términos que aparecen siempre asociados o artículos que han sido muy citados. Tu trabajo es interpretar esas agrupaciones y conectarlas con lo que estás investigando.

Dos herramientas para empezar

Si te animas a probar, te recomendamos dos programas, que son los más utilizados y tienen buena documentación:

Bibliometrix / Biblioshiny: funciona dentro de RStudio. Su interfaz gráfica (Biblioshiny) facilita bastante el trabajo sin necesidad de saber programar. Permite descargar datos desde Scopus, Web of Science, PubMed, Dimensions y Cochrane, y ofrece varios tipos de análisis: descriptivo, de contenido, de redes, mapeo y evolución temática.
VOSviewer: es un software independiente, muy visual y relativamente intuitivo. Te permite importar datos desde Scopus, Web of Science o archivos RIS, elegir qué tipo de red quieres construir (coautoría, co-ocurrencia de términos, citas, etc.), y ajustar parámetros como el número mínimo de ocurrencias para que un término aparezca en el mapa. Además, te permite agrupar por colores los distintos clústeres (comunidades temáticas) y ajustar la visualización para que sea más clara.

Ambas herramientas son gratuitas y tienen tutoriales disponibles. La elección entre una u otra dependerá de lo que necesites: Biblioshiny es más completa en cuanto a variedad de análisis, mientras que VOSviewer es más directa para visualizar redes de forma rápida y atractiva.

Bibliografía consultada

Thesauro de la UNESCO. Disponible en: https://vocabularies.unesco.org/es/
van Eck, N., & Waltman, L. (2010). Software survey: VOSviewer, a computer program for bibliometric mapping. Scientometrics, 84(2), 523–538. https://doi.org/10.1007/s11192-009-0146-3
VOSviewer – Visualizing scientific landscapes (s.f.). Disponible en: https://www.vosviewer.com/