Buscar

2007/12/22

Desarrollan una técnica que permite consultar bases de datos heterogéneas en lenguaje XML

Fuente: Solo Ciencia.

La consulta de bases de datos informáticas con información heterogénea puede resultar muy provechosa en campos como el biomédico. La posibilidad de cruzar datos de diferente naturaleza procedentes de fuentes distintas puede desvelar relaciones inéditas entre informaciones médicas alejadas, como las epidemiológicas y las secuencias genéticas. Hasta ahora, estas búsquedas han sido imposibles dada la dificultad de combinar datos estructurados de manera diferente. Un investigador de la UJI ha dado un paso en ese sentido al crear un conjunto de algoritmos que permiten consultar bases de datos heterogéneas y obtener conocimientos novedosos

El trabajo se recoge en la tesis del profesor del Departamento de Ingeniería y Ciencia de los Computadores Ismael Sanz, titulada Flexible techniques for heterogeneous XML data retreival. «La contribución central de la tesis son los algoritmos para la consulta flexible de colecciones XML definidos a través de fragmentos. Estos algoritmos y las técnicas asociadas permiten trabajar con bases de datos que por su heterogeneidad están fuera del alcance de las aproximaciones existentes, como XQuery, TeXQuery, y los diversos sistemas académicos para la recuperación aproximada de XML», explica Ismael Sanz.

Para ello, el profesor de la UJI ha desarrollado una técnica que permite realizar consultas aproximadas. La multiplicidad de las bases de datos distintas impide que se puedan realizar búsquedas exactas, y es necesario desarrollar fórmulas que permitan rastrear datos que ofrezcan alguna similitud con los términos introducidos en la consulta.

«Este punto es particularmente importante si se tiene en cuenta que, incluso dentro de un mismo proyecto, a menudo diferentes usuarios requieren diferentes medidas de similitud. Por ejemplo, un biólogo puede necesitar recuperar proteínas basándose en una comparación con una secuencia de aminoácidos, mientras que otro puede buscar "antígeno de la malaria" dentro de las descripciones textuales de la colección, y un tercero puede querer combinar ambos tipos de consulta», explica Sanz.

La solución propuesta en su tesis para estos problemas está basada en la búsqueda de patrones. Los patrones son una manera concisa de expresar los requisitos de información del usuario que hace una consulta.

La técnica desarrollada por el profesor de la UJI va a permitir integrar informaciones diversas sobre una misma enfermedad alojadas en bases de datos de naturaleza distinta, de modo que en una consulta se podrán combinar datos epidemiológicos, clínicos, celulares y genéticos, con el fin de hallar nuevas pistas que ayuden a mejorar el diagnóstico y tratamiento de determinadas patologías.

El trabajo de Ismael Sanz se inscribe dentro de un proyecto en el que colabora el grupo de investigación de la UJI Grupo de bases de conocimiento temporales (TKBG, en sus siglas en inglés) junto con la empresa Maat Gknowledge. Se trata de Health-e-Child, un proyecto que tiene como objetivo desarrollar una plataforma integrada de servicios médicos para pediatría a nivel europeo, a través de la integración de fuentes tradicionales y emergentes de información biomédica. Este programa, pretende, a largo plazo, dar acceso a todos los informes biomédicos disponibles, así como ser base para la investigación y la educación biomédica de apoyo a las decisiones del médico.

Al final, lo que se pretende con el proyecto Health-e-Child, a través de herramientas como la desarrollada por Ismael Sanz, es conseguir una visión global de la salud del niño a través de la integración vertical de datos y conocimientos biomédicos (genético, clínico, epidemiológico).

No hay comentarios: