Capítulo 6 Conclusiones y trabajo futuro

En esta tesis se presentó la problemática que presenta el Análisis Funcional (AF) frente a grandes cantidades de bases de datos provenientes de diversas fuentes ómicas. Dicha problemática surge debido a la falta de actualización de las metodologías de AF existentes, en contraste con el rápido avance de las tecnologías de obtención de datos de muestras biológicas. Con el surgimiento de tecnologías para obtener datos biológicos de nuevas fuentes, las técnicas de AF quedan obsoletas u otorgan resultados incorrectos. Por otra parte, al disminuir los costos de obtención de datos, la disponibilidad de grandes cantidades de bases de datos es desaprovechada por las metodologías de AF.

En el Capítulo 1 se introdujo al lector en el concepto del análisis funcional. Para ello, en la Sección 1.1, se presentó la noción de Ontología en el contexto de la biología. Se detallaron varios grupos conocidos de ontologías, como KEGG, BioCarta, Reactome, MSigDB, y Gene Ontology, donde se mostró cómo se estructura su información en conceptos, categorías, términos o vías metabólicas. Luego, en la Sección 1.2, se presentaron las distintas metodologías de AF existentes. Se explicó, a grandes rasgos, la idea subyacente a las metodologías de Análisis de Sobre-Representación (ASR) y de Puntuación Funcional de Clase (PFC) detallando sus ventajas y limitaciones.

El Capítulo 2 presentó diversas fuentes de datos biológicas que la tecnología permite cuantificar y que son objeto de análisis. En la Sección 2.1 se profundizó en las tecnologías de Microarreglos de ADN, iTRAQ, y Secuenciación de ARN, ya que permiten obtener matrices de expresión, las cuáles son utilizadas como input del AF. Para cada tecnología se especificó la forma en la que obtienen los valores de expresión, y el tipo de dato que devuelven. Luego, en la Sección 2.2, se comentó sobre los diversos repositorios de libre acceso a bases de datos de expresión, la cantidad de sujetos que presenta cada uno y las ómicas que analizan. Finalmente, se mencionaron las condiciones experimentales que resultaban de interés en estos repositorios, para ser inspeccionadas bajo AF.

En el Capítulo 3 se llevó a cabo un comparación exhaustiva de diversos algoritmos pertenecientes a las metodologías tanto de ASR como de PFC, junto con combinaciones de sus parámetros. Se mostró que los resultados del AF pueden variar notablemente dependiendo del método y los parámetros utilizados. Lo cual puede influir negativamente en la interpretación biológica si no se aborda adecuadamente. De este capítulo concluimos que tanto el ASR como la PFC proporcionan resultados complementarios que pueden integrarse para obtener una visión biológica más amplia del experimento en estudio. Por ende, presentamos un pipeline de Análisis Funcional Integrador, IFA, que realiza análisis simultáneos de ASR y PFC, proporcionando un marco completo y unificado de AF. Finalmente, se evaluó desde el punto de vista de la biología, los resultados que obtiene este pipeline IFA, lo cual demostró su capacidad de detección de funciones biológicas adecuadas para el fenómeno bajo estudio, además de presentar resultados concordantes entre diversos experimentos.

En el Capítulo 4 se presentó el paquete R desarrollado para la presente tesis, MIGSA. Esta herramienta permite realizar un AF completo, integrador, y masivo sobre grandes cantidades de bases de datos. MIGSA posibilita detectar genes y patrones funcionales biológicos, por medio de herramientas exploratorias y gráficas, que caracterizan poblaciones, fenotipos, o grupos de interés. La utilidad de MIGSA quedó demostrada debido a la caracterización funcional de los subtipos de cáncer de mama, donde se logró definir un perfil funcional para cada subtipo. MIGSA efectivamente permitió integrar múltiples bases de datos, y múltiples fuentes de datos (ómicas).

Finalmente, en el Capítulo 5 se introdujeron aquellos desafíos que surgieron durante el transcurso de la investigación de la presente tesis, pero que no estaban relacionados directamente con el objetivo bajo estudio. Al notar la lentitud del algoritmo de PFC utilizado por el pipeline IFA y el paquete MIGSA, el desafío principal consistió en disminuir su tiempo de ejecución. En este sentido, luego de un extenso trabajo de optimización y paralelización del algoritmo, se logró un notable speedup de 10,8X en el mejor de los casos.

Como propuesta de trabajo a futuro, se desprenden dos líneas de estudio a contemplar. Por una parte, como se mencionó en la Sección 4.2, se debió adaptar el algoritmo mGSZ para que resultara adecuado para analizar datos provenientes de secuenciación de ARN. Para esta adaptación se propuso utilizar la metodología voom, la cuál modela este tipo de datos mediante mínimos cuadrados generalizados (Law et al., 2014). Sin embargo, resulta necesario llevar a cabo una comparación y evaluación extensiva de otras propuestas de manejo de datos de secuenciación de ARN frecuentemente mencionadas por la comunidad científica, entre ellas, edgeR (Robinson, McCarthy, & Smyth, 2010) y DESeq2 (Love, Huber, & Anders, 2014).

Por otra parte, el paquete MIGSA presenta varios aspectos que pueden ser extendidos, y de los cuales creemos que continuar su desarrollo resultará en notables beneficios para la comunidad científica. Por una parte, con el continuo avance de las tecnologías de obtención de datos ómicos, resulta fundamental actualizar constantemente la herramienta MIGSA de manera que permita el análisis de tipos de datos con diversos supuestos estadísticos subyacentes, como ejemplo de esto, un desafío pendiente es lograr analizar datos de transcriptos de genes. Como segundo objetivo, resultaría interesante poder extender MIGSA al análisis de nuevos diseños experimentales. En la actualidad, MIGSA permite utilizar cualquier diseño experimental, sin embargo no se ha evaluado la correctitud estadística de utilizar otros diseños -aparte de caso vs. control- en este tipo de AF. Como tercer objetivo a futuro, proponemos idear e implementar nuevas técnicas de exploración y visualización de los resultados de MIGSA, esto permitirá nuevas estrategias para inspeccionar resultados y generar nuevas hipótesis. Finalmente, creemos que extender MIGSA de manera que incluya una interfaz gráfica de usuario, aumentará el público de la herramienta, incorporando aquellos usuarios no tan acostumbrados al ambiente de la programación. Mediante la librería de R shiny, crear interfaces que corren código R resulta sencillo (Rodriguez, Vargas, & Fernández, 2018) y extremadamente útil.