La UPM impulsa datos sintéticos para investigar cáncer
en-GBde-DEes-ESfr-FR

La UPM impulsa datos sintéticos para investigar cáncer


La inteligencia artificial (IA) necesita datos para aprender. En medicina, sin embargo, esos datos suelen ser escasos, heterogéneos y difíciles de compartir por razones éticas, legales y de privacidad. El problema es especialmente acusado en ámbitos como el cáncer, las enfermedades raras o los estudios de supervivencia, donde reunir grandes colecciones de pacientes no siempre es posible.

En este contexto, un equipo de la Universidad Politécnica de Madrid (UPM) ha desarrollado dos trabajos complementarios para mejorar la generación de datos sintéticos, es decir, registros artificiales que reproducen patrones estadísticos de los datos reales sin copiar pacientes concretos. En base a los resultados obtenidos, los autores subrayan una idea relevante para el futuro de la IA médica, no basta con comprobar si los datos sintéticos sirven para entrenar un modelo en una tarea concreta, también es necesario medir hasta qué punto se parecen realmente a los datos originales y si conservan relaciones complejas entre variables. Por eso, ambos trabajos insisten en la necesidad de combinar métricas de utilidad con métricas de similitud, lo que permite validar mejor la calidad real del dato sintético.

El primero de los estudios, publicado en la revista Neurocomputing, plantea una metodología para que los modelos generativos aprendan mejor con pocos ejemplos reales. La clave es introducir un “sesgo inductivo artificial”, una especie de guía matemática previa que orienta al modelo en escenarios con muy pocos datos.

Para lograrlo, los investigadores combinaron técnicas de transferencia de aprendizaje y de metaaprendizaje y compararon varias estrategias, como el preentrenamiento, el promedio de modelos, el denominado model-agnostic meta-learning (MAML) y el domain randomized search (DRS). Los resultados muestran que, en general, las estrategias de transferencia de aprendizaje ofrecieron el mejor desempeño y mejoraron de manera muy notable la calidad de los datos sintéticos generados. En algunos experimentos, la mejora alcanzó hasta un 60% en la divergencia de Jensen-Shannon, una métrica que permite estimar hasta qué punto la distribución de los datos sintéticos se asemeja a la de los datos reales.

El segundo estudio, publicado en el IEEE Journal of Biomedical and Health Informatics, traslada esa metodología al ámbito biomédico y la pone a prueba en investigación oncológica y en análisis de supervivencia. Este tipo de análisis permite estimar el tiempo hasta que ocurre un evento clínico relevante, por ejemplo, una recaída, una progresión de la enfermedad o el fallecimiento, y es especialmente sensible a la falta de datos. El trabajo muestra que la metodología también resulta útil en este complejo contexto y ayuda a generar datos sintéticos de alta calidad incluso en condiciones muy restrictivas.

Las implicaciones de esta línea de investigación son amplias. En opinión de Patricia Alonso, investigadora de la UPM: “Disponer de datos sintéticos fiables puede, por un lado, facilitar el desarrollo y la validación de herramientas de IA en hospitales y centros de investigación con escasos datos y, por otro, favorecer estudios en cohortes pequeñas, así como también abrir nuevas vías de colaboración y de ciencia abierta sin comprometer la privacidad de los pacientes.”

Estos trabajos se han desarrollado en la UPM en el marco de los proyectos europeos GenoMed4All (grant agreement nº 101017549) y SYNTHEMA (grant agreement nº 101095530).

Patricia A. Apellániz, Ana Jiménez, Borja Arroyo Galende, Juan Parras, Santiago Zazo, Artificial inductive bias for synthetic tabular data generation in data-scarce scenarios,

Neurocomputing, 652, 2025, 131122, ISSN 0925-2312 https://doi.org/10.1016/j.neucom.2025.131122

Patricia A. Apellániz, B. A. Galende, A. Jiménez, J. Parras and S. Zazo, Advancing Cancer Research With Synthetic Data Generation in Low-Data Scenarios, IEEE Journal of Biomedical and Health Informatics, 30, no. 2, pp. 1666-1679, Feb. 2026

https://doi.org/10.1109/JBHI.2025.3595371

Repositorio asociado: github.com/Patricia-A-Apellaniz/medical_low_sample_generator

GAPS: https://www.gaps.ssr.upm.es/

Patricia A. Apellániz: https://patricia-a-apellaniz.github.io/

Juan Parras: https://jparras.github.io/

Estos trabajos se han desarrollado en la UPM en el marco de los proyectos europeos GenoMed4All (grant agreement nº 101017549) y SYNTHEMA (grant agreement nº 101095530).

Patricia A. Apellániz, Ana Jiménez, Borja Arroyo Galende, Juan Parras, Santiago Zazo, Artificial inductive bias for synthetic tabular data generation in data-scarce scenarios,

Neurocomputing, 652, 2025, 131122, ISSN 0925-2312 https://doi.org/10.1016/j.neucom.2025.131122

 Patricia A. Apellániz, B. A. Galende, A. Jiménez, J. Parras and S. Zazo, Advancing Cancer Research With Synthetic Data Generation in Low-Data Scenarios, IEEE Journal of Biomedical and Health Informatics, 30, no. 2, pp. 1666-1679, Feb. 2026

https://doi.org/10.1109/JBHI.2025.3595371

Repositorio asociado: github.com/Patricia-A-Apellaniz/medical_low_sample_generator

GAPS: https://www.gaps.ssr.upm.es/

Patricia A. Apellániz: https://patricia-a-apellaniz.github.io/

Juan Parras: https://jparras.github.io/
Fichiers joints
  • Fuente: Pixabay
Regions: Europe, Spain
Keywords: Applied science, Artificial Intelligence, Technology, Health, Medical

Disclaimer: AlphaGalileo is not responsible for the accuracy of content posted to AlphaGalileo by contributing institutions or for the use of any information through the AlphaGalileo system.

Témoignages

We have used AlphaGalileo since its foundation but frankly we need it more than ever now to ensure our research news is heard across Europe, Asia and North America. As one of the UK’s leading research universities we want to continue to work with other outstanding researchers in Europe. AlphaGalileo helps us to continue to bring our research story to them and the rest of the world.
Peter Dunn, Director of Press and Media Relations at the University of Warwick
AlphaGalileo has helped us more than double our reach at SciDev.Net. The service has enabled our journalists around the world to reach the mainstream media with articles about the impact of science on people in low- and middle-income countries, leading to big increases in the number of SciDev.Net articles that have been republished.
Ben Deighton, SciDevNet
AlphaGalileo is a great source of global research news. I use it regularly.
Robert Lee Hotz, LA Times

Nous travaillons en étroite collaboration avec...


  • The Research Council of Norway
  • SciDevNet
  • Swiss National Science Foundation
  • iesResearch
Copyright 2026 by DNN Corp Terms Of Use Privacy Statement