Resumen
El campo de la informática de la salud está en la cúspide de su período más emocionante hasta la fecha. Las tecnologías de big data, IA y data science están ayudando a tomar decisiones relativas a diagnóstico, tratamiento… La alta implantación de la historia clínica digital es un hecho. El análisis de los datos de la historia clínica permitirá definir nuevas soluciones para todos los integrantes del sistema sanitario. Es necesaria la cobertura de todos los datos posibles para desarrollar nuevos servicios con el objetivo de mejorar el seguimiento y la prevención de enfermedades, y generar valor a partir de ellos. No obstante, el proceso de aplicación de las tecnologías tiene que afrontar todavía retos como el de integración de la información, aplicación de técnicas de lenguaje natural, y elección de las técnicas mas apropiadas dependiendo del problema y de la naturaleza de los datos. En este artículo nos planteamos los retos que tiene la aplicación de estas técnicas en el caso particular del paciente oncológico.
Abstract
This work wants to specify preliminary data of the design process of an instrument adapted to a Spanish population based on different questionnaires to evaluate the attributes of entrepreneurial skills of university students, and to contribute a valid and reliable measure that serves as a reference for effective intervention programs in the university environment, and for the development of employability. The instrument provides students with the possibility of discovering their strengths and opportunities related to the sub-competences evaluated: the identification of opportunities, the development of innovative solutions, the ability to learn from failure, and their awareness of their entrepreneurship. An initial content validity study was carried out through the trial of 13 experts, all of them university professors expert of the subject, which determined the development of the questionnaire that was subsequently tested on a pilot sample of 350 students. It concludes to the suitability and usefulness of the instrument, and discusses the importance of the intervention for the development of entrepreneurial competence in the University.
1. Big data en el ámbito sanitario
1.1. BIg Data. DefInIcIón y CaracterístIcas
El campo de la informática de la salud está en la cúspide de su período más emocionante hasta la fecha, entrando en una nueva era donde la tecnología está empezando a manejar grandes volúmenes de datos, dando lugar a un potencial ilimitado para el crecimiento de la información. La minería de datos y análisis masivo de datos están ayudando a tomar decisiones relativas a diagnóstico, tratamiento… Y todo finalmente enfocado a una mejor atención al paciente.
El uso de la minería de datos en salud en Estados Unidos puede ahorrar a la industria de la salud hasta 450 mil millones de dólares cada año (Kayyali, Knot y Van Kuiken, 2013). Esto se debe a los volúmenes crecientes de datos generados y de las tecnologías para analizarlos.
El crecimiento explosivo de datos generó, ya en la década de los 80, la aparición de un nuevo campo de investigación que se denominó KDD o Knowledge Discovery in Databases. Bajo estas siglas se esconde el proceso de descubrimiento de conocimiento en grandes volúmenes de datos (Fayyad, Piatetsky-Shapiro y Smith, 1996). El proceso de KDD ha servido para unir a investigadores de áreas como la inteligencia artificial, estadística, técnicas de visualización, aprendizaje automático o bases de datos en la búsqueda de técnicas eficientes y eficaces que ayuden a encontrar el potencial conocimiento que se encuentra inmerso en los grandes volúmenes de datos almacenados por las organizaciones diariamente.
Si bien el nombre con el que apareció esta área de investigación fue el de KDD, más adelante se sustituyó por términos como data mining, data analytics, business intelligence y hoy en día Inteligencia Artificial. Si bien es verdad que el énfasis de estos términos es diferente, en lo que están todos de acuerdo es en la extracción de conocimiento de los datos.
Aunque no hay una única definición de data mining, la siguiente es, posiblemente, la más aceptada: «proceso de extracción de información desconocida con anterioridad, válida y potencialmente útil de grandes bases de datos para usarla con posterioridad para tomar decisiones importantes de negocio» (Witten, Frank y Hall, 2011).
El término proceso implica que la extracción de conocimiento es la conjunción de muchos pasos repetidos en múltiples iteraciones. Se dice, por otra parte, que es no trivial, porque se supone que hay que realizar algún tipo de proceso complejo. Los patrones deben ser válidos, con algún grado de certidumbre, y novedosos, por lo menos para el sistema y, preferiblemente, para el usuario, al que deberán aportar alguna clase de beneficio (útil). Por último, está claro que los patrones deben ser comprensibles, si no de manera inmediata, sí después de ser pre-procesados.
Por su parte, el término Inteligencia Artificial (AI) ha sido definido (BDVA, EU Robotics, 2019) como un término global que cubre la inteligencia tanto digital como física, datos y robótica, y tecnologías inteligentes relacionadas.
Los problemas que se pueden abordar desde la perspectiva de data mining a menudo se agrupan en las siguientes categorías:
- Problemas cuyo objetivo es predecir el valor de un atributo en particular basado en los valores de otros atributos. El atributo que se predice se denomina comúnmente atributo objetivo (o variable dependiente), mientras que los atributos que se utilizan para la predicción son conocidos como atributos explicativos (o variables independientes). Destacan aquí los problemas de clasificación o de estimación de valor y como técnicas podemos destacar los enfoques basados en estadística, regresión, árboles de decisión y redes neuronales.
- Problemas descriptivos cuyo objetivo es derivar patrones (correlaciones, tendencias, agrupaciones o clústeres, trayectorias y anomalías) que resuman las características inherentes a los datos. Dentro de este grupo, cabe destacar el análisis de reglas de asociación para el que el algoritmo “A priori” (Agrawal y Srikant, 1994) es el más conocido, así como los problemas de segmentación o clustering.Las nuevas características de las tecnologías de la información y las comunicaciones han provocado la aparición de multitud de aplicaciones donde se generan, computan y almacenan data streams (Aguilar-Ruiz y Gama, 2005; Gaber, Krishnaswamy y Zaslavsky, 2005). Estos datos tienen características concretas: flujos de datos continuos en el tiempo, sin límites de tamaño, que aparecen a gran velocidad y cuya distribución evoluciona a lo largo del tiempo. Existen múltiples aplicaciones y ejemplos que generan datos de estas características en el entorno de la salud y en otros entornos: monitores de la UCI, redes de sensores, monitorización de sensores ambientales.Para diseñar algoritmos eficientes que se adecuen de manera eficaz es necesario establecer qué características identifican a los data streams. En concreto, en Aguilar-Ruiz y Gama (2005) y Domingos y Hulten (2000) se identifican las siguientes:
- Cantidad de datos ilimitados.
- Alta velocidad de llegada de datos.
- Búsqueda de modelos a lo largo de un gran período de tiempo.
- El modelo subyacente cambia a lo largo del tiempo (dicho efecto se conoce
- como “evolución del modelo”).
Las características propias de los data streams provoca que el enfoque clásico utilizado para el análisis de datos no sea aplicable porque la naturaleza de aparición y características en el análisis difiere en ambos casos. De manera general, los algoritmos clásicos de data mining no son capaces de analizar los datos de esta naturaleza puesto que asumen que todos los datos se encuentran cargados en una base de datos estable y raramente actualizada. Es también importante destacar que el proceso de análisis puede llevar días, semanas o incluso meses, después del cual los resultados son estudiados y, en caso de no ser satisfactorios, dicho análisis se reproduce modificando alguno de las características utilizadas (Domingos y Hulten, 2000).
En el caso de los algoritmos para data streams deben hacer uso limitado de memoria (e incluso de un tamaño fijo) (Aggarwal, Han, Wang y YU, 2003). Además, el hecho de no poder revisar elementos que han aparecido en el pasado produce que estos algoritmos deban ser capaces de generar modelos de una única pasada.
Es importante destacar en este punto que el desarrollo de tecnologías en los últimos 20 años permite contar hoy en día con numerosas soluciones para aplicar dependiendo del tipo de datos, ya sean éstos de índole estática o dinámica (streams de datos). El reto, no obstante, radica en entender los problemas y entender cómo integrar, procesar y limpiar los datos, y en aquellos casos en que los datos no están estructurados, como el caso de los textos, estructurarlos.
Como consecuencia de la complejidad del desarrollo de proyectos de minería de datos, a comienzos de los 90 surge el estándar de modelo de proceso denominado CRISP-DM (Wirth, 2000) que divide el proceso en las siguientes fases:
- Comprensión del negocio: se pretende aquí comprender los objetivos del proyecto y sus requerimientos desde la perspectiva del negocio, convirtiendo este conocimiento en un problema de data mining y un plan preliminar para cumplir dichos objetivos.
- Comprensión de los datos: se cuenta en un principio con una colección de datos, se deben identificar los problemas de calidad de los datos, detectar subconjuntos de interés, etc.
- Preparación de los datos: mediante esta fase se construye el conjunto de datos final obtenido de la colección inicial de datos que será proporcionada a las herramientas de modelado.
- Modelado: se seleccionan y aplican varias técnicas de modelado, ajustándolas para obtener valores óptimos.
- Evaluación: una vez construido un modelo se debe evaluar y revisar los pasos ejecutados para construir un modelo que consiga los objetivos de negocio.
- Despliegue: aplicación de los modelos validados para la toma de decisión como parte de algún proceso en la organización.