Investigadores del IBB han generado un conjunto de datos de alta calidad para comprender mejor las proteínas implicadas en un proceso biológico por el que forman condensados y el papel que estos tienen en condiciones funcionales, de envejecimiento y de enfermedad. Los recursos generados, disponibles en una plataforma abierta y en línea, permitirán mejorar los modelos predictivos actuales, que presentan carencias importantes.
Muchas proteínas tienen la capacidad de reorganizarse espontáneamente dentro de las células para formar condensados moleculares (estructuras intracelulares sin membrana compuestas por una o múltiples proteínas) mediante un proceso conocido como
separación por fases líquido-líquido (LLPS por las siglas en inglés). Este proceso biológico es clave, ya que permite a las proteínas organizarse, interactuar y funcionar de manera eficiente y regulada en el entorno celular. Cuando este mecanismo falla, pueden aparecer enfermedades neurodegenerativas, cánceres o trastornos del desarrollo.
Un equipo de investigación del Instituto de Biotecnología y Biomedicina (IBB) de la UAB ha creado ahora el conjunto de datos más exhaustivo y fiable de proteínas que participan en la LLPS. Su propuesta ofrece un protocolo que permite superar las limitaciones de los algoritmos que se han desarrollado hasta ahora para obtener modelos predictivos, en los que han identificado carencias que impiden analizar los datos de manera conjunta y precisa.
El estudio, publicado en la revista
Genome Biology, ha sido liderado por Salvador Ventura, catedrático del Departamento de Bioquímica y Biología Molecular de la UAB y director del Instituto de Investigación e Innovación Parc Taulí (I3PT-CERCA); Michał Burdukiewicz, investigador María Zambrano del IBB y director del grupo de bioinformática de la Universidad Médica de Białystok (Polonia), y Carlos Pintado Grima, investigador del IBB y primer autor del trabajo.
El equipo de investigación ha clasificado con precisión los dos grandes tipos de proteínas implicadas en la LLPS: las que pueden formar los condensados por sí mismas (
drivers) y las que solo forman parte de ellos (
clientes). Además, han desarrollado el primer conjunto estándar de proteínas que no participan en este proceso, que comprende tanto proteínas con estructuras definidas como proteínas desordenadas, «un elemento clave para entrenar sistemas de inteligencia artificial de manera justa y eficaz», afirma Salvador Ventura, que coordina también el grupo de investigación Plegamiento de Proteínas y Enfermedades Conformacionales en el IBB.
Para validar su trabajo, los científicos han investigado rasgos fisicoquímicos específicos implicados en la LLPS en diferentes subconjuntos de secuencias proteicas y han identificado diferencias significativas entre ellas. Además, han evaluado la predicción de LLPS en dieciséis herramientas bioinformáticas existentes, lo que supone la comparación más exhaustiva realizada hasta el momento.
El conjunto de datos generados en el estudio permite asociar de manera precisa el papel de una determinada proteína en la LLPS. En total, los investigadores han clasificado 2.876 proteínas diferentes. «Los datos que hemos generado han sido creados para garantizar la fiabilidad y la interoperabilidad entre ellos, a partir de criterios estandarizados para su selección y categorización. Hasta ahora no teníamos suficientes datos de confianza para hacer predicciones meticulosas. Con este nuevo recurso, abrimos la puerta a desarrollar nuevas herramientas computacionales más precisas», señala Salvador Ventura.
Los conjuntos de datos y todas las herramientas asociadas del estudio están disponibles en abierto en
llpsdatasets.ppmclab.com.