Universidad Nacional Experimental del Táchira Vice-Rectorado Académico Decanato de Postgrado Maestría en Informática Trabajo de Grado
Modelo predictivo para la toma de decisiones en la gestión de insumos y medicamentos para el Hospital General de Táriba
Autor: Zambrano Rodríguez, Hernán Alfonso. Cédula de Identidad: V-21.766.033 Teléfono: 0414-7534883 Correo Electrónico:
[email protected] Tutor: Molina Monsalve, Marcel Mauricio. Correo Electrónico:
[email protected] Trabajo de Grado, presentado como requisito para optar al Título de Magíster en Informática.
San Cristóbal, Junio de 2.016
ii
DEDICATORIA A mi madre María Gladys Rodríguez de Zambrano, por sus años de lucha, su infinito amor, sus sabios consejos. Mis logros en la vida se los debo a mi madre, siempre vivirás en mi mente y corazón.
Te Amo Mamá.
iii
RECONOCIMIENTOS A Dios, por sus eternas bendiciones. A mi padre Pablo Alfonso Zambrano Cuervo, por ser un excelente ser humano. A mis hijas Heliany Yineth y María Fernanda, por representar los amores de mi vida. A mi tutor MSc. Marcel Molina, por su apoyo y orientación. Al Hospital General de Táriba, por su significativa colaboración. A la Universidad Nacional Experimental del Táchira (UNET). En especial a los profesores que me impartieron clases, por su extraordinario profesionalismo.
iv
Universidad Nacional Experimental Del Táchira Vice-Rectorado Académico Decanato de Postgrado Maestría en Informática Modelo predictivo para la toma de decisiones en la gestión de insumos y medicamentos para el Hospital General de Táriba Autor: Zambrano Rodríguez Hernán Alfonso. Tutor: Molina Monsalve Marcel Mauricio. Fecha: Junio 2.016
RESUMEN El presente estudio se desarrolló en el Hospital General de Táriba ubicado en el Estado Táchira – Venezuela, donde el departamento de almacén no cuenta con un sistema de información predictivo que le brinde estadísticas y proyecciones de los insumos y medicamentos, información necesaria para la toma de decisiones, principalmente en la cantidad de insumos y medicamentos que correspondían adquirir. Partiendo de la necesidad en la institución, se propuso desarrollar un modelo predictivo para la toma de decisiones en la gestión de insumos y medicamentos, cuya propuesta representó el objetivo general de esta investigación. Con la finalidad de lograr lo planteado, el estudio se centró en la inteligencia de negocios y la minería de datos, desarrollando la investigación de acuerdo con la metodología: KDD (Descubrimiento de conocimiento en bases de datos - Knowledge Discovery in Databases). Se empleó como herramienta para el proceso de minería de datos Weka (Entorno para análisis del conocimiento de la Universidad de Waikato - Waikato Environment for Knowledge Analysis) para extraer conocimiento desde la base de datos del sistema transaccional SAISYS, y el desarrollo de la herramienta informática se ejecutó con la metodología RAD (Desarrollo rápido de aplicaciones). Como resultado de la investigación, se determinó que el modelo encontrado permitirá realizar las gestiones pertinentes de los insumos y medicamentos, a través de consultas y reportes de forma eficiente y eficaz que apoyan la toma las decisiones. Palabras clave: Inteligencia de negocios, minería de datos, modelos predictivos, weka. v
ÍNDICE Pág. Dedicatoria ................................................................................................................... iii Reconocimientos .......................................................................................................... iv Resumen ........................................................................................................................ v Índice ............................................................................................................................ vi Lista de tablas ............................................................................................................... xi Lista de figuras ........................................................................................................... xiii Lista de abreviaturas .................................................................................................. xiv Introducción ................................................................................................................ xv
CAPÍTULO I EL PROBLEMA 1.1. Planteamiento del Problema. .............................................................................. 1 1.2. Formulación del Problema. ................................................................................ 3 1.3. Hipótesis. ............................................................................................................ 4 1.4. Objetivos. ........................................................................................................... 5 Objetivo General. ................................................................................................... 5 Objetivos Específicos. ........................................................................................... 5 1.5. Justificación. ....................................................................................................... 5 1.6. Alcance. .............................................................................................................. 6
vi
CAPÍTULO II MARCO TEÓRICO 2.1. Antecedentes de la Investigación. ...................................................................... 8 2.2. Bases Teóricas. ................................................................................................. 11 2.2.1. Inteligencia de Negocios - Business Intelligence (BI)............................... 11 2.2.2. Minería de Datos - Data Mining (DM). ..................................................... 12 2.2.3. Gestión de Inventarios. .............................................................................. 13 2.2.4. Proceso KDD. ............................................................................................ 15 2.3. Aspectos Legales. ............................................................................................. 17 2.3.1. Constitución de la República Bolivariana de Venezuela. (2000). Artículo 83. ........................................................................................................................ 17 2.3.2. Ley Orgánica de la Administración Pública. (2008). Artículo Nº 6. ......... 18 2.3.3. Ley de Infogobierno. (2013). Artículo Nº 34. ........................................... 18 2.3.4. Decreto Nº 1.399, con Rango, Valor y Fuerza de Ley de Contrataciones Públicas. (2014). Artículo Nº 1. ........................................................................... 18 2.4. Definición de Términos. ................................................................................... 19 2.4.1. Toma de Decisiones. .................................................................................. 19 2.4.2. Sistema Operacional o Transaccional. ....................................................... 19 2.4.3. Sistema de Información Gerencial. ............................................................ 20 2.4.4. Software Libre. .......................................................................................... 20 2.4.5. Base de Datos............................................................................................. 20 2.4.6. Repositorio de Información. ...................................................................... 21 2.4.7. MySQL. ..................................................................................................... 21 2.4.8. PHP. ........................................................................................................... 21 vii
2.4.9. Proceso ETL. ............................................................................................. 22 2.4.10. Weka. ....................................................................................................... 22 2.5. Sistema de Variables y Operacionalización. .................................................... 23
CAPÍTULO III MARCO METODOLÓGICO 3.1. Contexto de la Investigación. ........................................................................... 26 3.2. Nivel de Investigación. ..................................................................................... 26 3.3. Diseño de la Investigación. .............................................................................. 27 3.4. Población. ......................................................................................................... 27 3.5. Técnicas e Instrumentos de Recolección de Datos........................................... 28 Análisis de Contenido. ......................................................................................... 28 La Observación. ................................................................................................... 28 3.6. Validez y Confiabilidad.................................................................................... 29 3.7. Técnicas de Procesamiento y Análisis de Datos. ............................................. 30
CAPÍTULO IV ANÁLISIS E INTERPRETACIÓN DE RESULTADOS 4.1. Selección e Integración de los Datos. ............................................................... 32 4.2. Preparación de los Datos. ................................................................................. 32 4.3. Transformación. ............................................................................................... 34 Descripción de las Variables No Nominales Seleccionadas. ............................... 35 Descripción de las Variables Nominales Seleccionadas...................................... 36 4.4. Selección y Aplicación de Algoritmos de Minería de Datos. .......................... 39 viii
Factores Determinantes en la Selección de las Técnicas de Minería de Datos. .. 39 Breve Descripción de los Modelos Seleccionados. ............................................. 41 Preprocesamiento con Weka. ............................................................................... 42 Opciones de Prueba Realizadas a cada Técnica Seleccionada. ........................... 42 Criterios a Evaluar. .............................................................................................. 43 Pruebas Realizadas a las Técnicas Seleccionadas. .............................................. 45 4.5. Interpretación y Evaluación de los Patrones Encontrados. .............................. 68 Relación de las Variables. .................................................................................... 68 Análisis de los Diagramas de Dispersión y el Coeficiente de Correlación. ........ 72 Optimizando los Modelos Encontrados. .............................................................. 78 4.6. Desarrollo de la Herramienta Informática para Consultar el Modelo Predictivo Encontrado............................................................................................................... 81
CAPÍTULO V CONCLUSIONES Y RECOMENDACIONES 5.1. Conclusiones. ................................................................................................... 95 5.2. Recomendaciones. ............................................................................................ 97
REFERENCIAS BIBLIOGRÁFICAS LIBROS ................................................................................................................... 98 TRABAJOS ACADÉMICOS ................................................................................. 98 Trabajos de grado y tesis doctorales .................................................................... 98 Documentos y reportes técnicos .......................................................................... 98 Documentos de tipo legal .................................................................................... 98 ix
FUENTES ELECTRÓNICAS ................................................................................ 99 Tesis en línea ....................................................................................................... 99 Artículo de revista electrónica ........................................................................... 100
ANEXOS 1. Clasificación de los listados por tipo de producto. ............................................ 102 2. Sistema Actual SAISYS. ................................................................................... 103 3. Estructura de la Base de Datos Actual. ............................................................. 104 4. Solicitud de Compra Actual. ............................................................................. 108
x
LISTA DE TABLAS Pág. Tabla 2.1. Operacionalización de variables. ............................................................... 24 Tabla 3.1. Sistemas de información utilizados............................................................ 31 Tabla 4.1. Simbología empleada en el capítulo. ......................................................... 32 Tabla 4.2. Matriz análisis de la base de datos de SAISYS. ........................................ 33 Tabla 4.3. Selección de las variables de estudio. ........................................................ 34 Tabla 4.4. Variable código del departamento por productos (dpto). .......................... 36 Tabla 4.5. Variable prioridad de adquisición (prioridad). ........................................... 36 Tabla 4.6. Variable necesidad de refrigeración (refrigerado). .................................... 37 Tabla 4.7. Variable restricciones en almacenaje (almacenaje). .................................. 37 Tabla 4.8. Variable estatus del registro (estatus). ....................................................... 37 Tabla 4.9. Variable código del servicio destinatario (servicio). ................................. 37 Tabla 4.10. Evaluación para determinar el tipo de rango. .......................................... 39 Tabla 4.11. Matriz selección de técnicas de minería de datos orientadas a modelos predictivos. .................................................................................................................. 40 Tabla 4.12. Valoración estadística kappa. ................................................................... 44 Tabla 4.13. Variables de entrada para las pruebas de la fase N° 1. ............................ 46 Tabla 4.14. Prueba N° 1. Fase N° 1. Técnica clustering. ............................................ 46 Tabla 4.15. Prueba N° 2. Fase N° 1. Técnica J48. ...................................................... 47 Tabla 4.16. Prueba N° 3. Fase N° 1. Técnica JRip. .................................................... 48 Tabla 4.17. Prueba N° 4. Fase N° 1. Técnica Naïve Bayes ........................................ 49 Tabla 4.18. Prueba N° 5. Fase N° 1. Técnica OneR. .................................................. 50 Tabla 4.19. Prueba N° 6. Fase N° 1. Técnica perceptrón multicapa. .......................... 51 Tabla 4.20. Prueba N° 7. Fase N° 1. Técnica REPTree. ............................................. 52 Tabla 4.21. Variables de entrada para las pruebas de la fase N° 2. ............................ 53 Tabla 4.22. Prueba N° 1. Fase N° 2. Técnica clustering. ............................................ 53 Tabla 4.23. Prueba N° 2. Fase N° 2. Técnica J48. ...................................................... 54
xi
Tabla 4.24. Prueba N° 3. Fase N° 2. Técnica JRip. .................................................... 55 Tabla 4.25. Prueba N° 4. Fase N° 2. Técnica Naïve Bayes ........................................ 56 Tabla 4.26. Prueba N° 5. Fase N° 2. Técnica OneR. .................................................. 57 Tabla 4.27. Prueba N° 6. Fase N° 2. Técnica perceptrón multicapa. .......................... 58 Tabla 4.28. Prueba N° 7. Fase N° 2. Técnica REPTree. ............................................. 59 Tabla 4.29. Variables de entrada para las pruebas de la fase N° 3. ............................ 60 Tabla 4.30. Prueba N° 1. Fase N° 3. Técnica clustering. ............................................ 60 Tabla 4.31. Prueba N° 2. Fase N° 3. Técnica J48. ...................................................... 61 Tabla 4.32. Prueba N° 3. Fase N° 3. Técnica JRip. .................................................... 62 Tabla 4.33. Prueba N° 4. Fase N° 3. Técnica Naïve Bayes ........................................ 63 Tabla 4.34. Prueba N° 5. Fase N° 3. Técnica OneR. .................................................. 64 Tabla 4.35. Prueba N° 6. Fase N° 3. Técnica perceptrón multicapa. .......................... 65 Tabla 4.36. Prueba N° 7. Fase N° 3. Técnica REPTree. ............................................. 66 Tabla 4.37. Matriz pruebas de validación a las técnicas seleccionadas. ..................... 67 Tabla 4.38. Relación entre los modelos encontrados. ................................................. 68 Tabla 4.39. Coeficiente de correlación entre las variables.......................................... 72 Tabla 4.40. Prueba Nº 1. Fase Nº 4. ............................................................................ 74 Tabla 4.41. Prueba N° 2. Fase N° 4. ........................................................................... 74 Tabla 4.42. Prueba N° 3. Fase N° 4. ........................................................................... 75 Tabla 4.43. Prueba N° 4. Fase N° 4. ........................................................................... 75 Tabla 4.44. Prueba N° 5. Fase N° 4. Técnica J48. ...................................................... 76 Tabla 4.45. Prueba N° 6. Fase N° 4. Técnica OneR. .................................................. 78 Tabla 4.46. Resultados luego de las pruebas de la fase N° 4. ..................................... 79 Tabla 4.47. Descripción del modelo predictivo definitivo encontrado. ...................... 80 Tabla 4.48. Lista de cotejo. Descripción de la herramienta informática. .................... 82
xii
LISTA DE FIGURAS Pág. Figura 2.1. Ilustración de un sistema de inteligencia de negocios. ............................. 12 Figura 2.2. Fases de la gestión de inventarios hospitalarios. ...................................... 14 Figura 2.3. Etapas del proceso KDD. .......................................................................... 16 Figura 3.1. Procedimiento para el análisis de los datos. ............................................. 30 Figura 4.1. Diagrama de dispersión, X = codigo, Y = cantidad. ................................. 69 Figura 4.2. Diagrama de dispersión, X = dpto, Y = cantidad. .................................... 69 Figura 4.3. Diagrama de dispersión, X = costo, Y = cantidad. ................................... 70 Figura 4.4. Diagrama de dispersión, X = stockMin, Y = cantidad. ............................ 70 Figura 4.5. Diagrama de dispersión, X = stockMax, Y = cantidad. ............................ 71 Figura 4.6. Diagrama de dispersión, X = prioridad, Y = cantidad. ............................. 71 Figura 4.7. Pantalla iniciar sesión. .............................................................................. 83 Figura 4.8. Pantalla inicio de la herramienta informática. .......................................... 84 Figura 4.9. Pantalla predecir individual. ..................................................................... 85 Figura 4.10. Pantalla predecir categorizada. ............................................................... 86 Figura 4.11. Pantalla predecir general......................................................................... 87 Figura 4.12. Pantalla estadística individual. ............................................................... 88 Figura 4.13. Pantalla estadística por fecha. ................................................................. 89 Figura 4.14. Pantalla estadística en histogramas. ........................................................ 90 Figura 4.15. Pantalla actualización de usuarios. ......................................................... 91 Figura 4.16. Reporte predicción de consumo mensual categorizada. ......................... 92 Figura 4.17. Reporte predicción de consumo mensual general. ................................. 93 Figura 4.18. Reporte estadística de consumo mensual. .............................................. 94
xiii
LISTA DE ABREVIATURAS BI
Inteligencia de Negocios (Business Intelligence).
BPM
Gestión de Procesos de Negocios (Business Process Management).
DBF
Archivo de base de datos (Data Base File)
DM
Minería de Datos (Data Mining).
ETL
Extracción, Transformación y Cargar (Extract, Transform and Load).
GPL
Licencia Pública General.
KDD
Descubrimiento de Conocimiento en Bases de Datos (Knowledge Discovery in Databases).
MSDOS
Sistema Operativo de Disco de Microsoft (Microsoft Disk Operating System).
MySQL
Lenguaje de Consulta Estructurado (My Structured Query Language).
PEPS
Primero en Entrar Primero en Salir.
PHP
Procesador de Hipertexto (Hypertext Preprocessor).
RAD
Desarrollo Rápido de Aplicaciones.
SAISYS
Sistema Administrativo e Inventario.
WEKA
Entorno para Análisis del Conocimiento de la Universidad de Waikato (Waikato Environment for Knowledge Analysis).
xiv
INTRODUCCIÓN
La inteligencia de negocios en la actualidad se presenta como una herramienta indispensable para las organizaciones que quieran estar en la vanguardia que requiere la sociedad. La inteligencia de negocios permite a través de su diversidad de instrumentos y técnicas analizar los datos fundamentales de la empresa y emplearlos en la generación de conocimiento, para mejorar la toma de decisiones y la planificación estratégica. En relación con lo anteriormente expuesto, la presente investigación comprende el desarrollo de la inteligencia de negocios, y por medio de uno de sus principales instrumentos como lo es la minería de datos, buscar un modelo predictivo que permita construir una herramienta informática para la gestión de insumos y medicamentos en el Hospital General de Táriba. En el marco del problema, surge como necesidad desarrollar una herramienta informática fundamentada por un modelo predictivo, que permita el soporte en la toma de decisiones para la gestión de insumos y medicamentos, primordialmente en la cantidades que se deben adquirir, con el objetivo de optimizar los recursos y lograr bienestar social. La presente investigación tiene un nivel de conocimiento de tipo proyectiva, en virtud que tiene como propósito la elaboración de una propuesta o modelo como solución a un problema o necesidad de tipo práctico. De igual forma, es una investigación mixta, donde participan elementos de la investigación documental e investigación de campo, entre los elementos empleados destacan los siguientes: Libros, tesis, trabajos de grado, decretos, artículos científicos, documentos digitalizados, análisis de contenido y la observación. El proyecto inicia con el capítulo I, el cual describe el planteamiento, formulación del problema, hipótesis, objetivos de la investigación, la justificación y xv
el alcance. El capítulo II, presenta los antecedentes de la investigación, las bases teóricas, los aspectos legales, la definición de términos, por último, el sistema de variables y operacionalización. En el capítulo III, se indican el contexto, nivel y diseño de la investigación, de igual manera en el este apartado, se define la población objeto de estudio, las técnicas e instrumentos de recolección de datos, la validez y confiabilidad, para cerrar el capítulo, se establecen las técnicas de procesamiento y análisis de datos. El capítulo IV, comprende el análisis e interpretación de resultados, desarrollado a través de los siguientes procesos: Selección e integración de datos, preparación de los datos, transformación, selección y aplicación de algoritmos de minería de datos, interpretación y evaluación de los patrones encontrados, para finalizar con, el desarrollo de la herramienta informática para consultar el modelo predictivo encontrado. En el capítulo V, se presentan las conclusiones y recomendaciones de la investigación.
xvi
CAPÍTULO I EL PROBLEMA
1.1. Planteamiento del Problema. En la actualidad la inteligencia de negocios, entendida según Recasens (2011) como el conjunto de tecnologías que permiten interactuar con una diversidad de datos, para ofrecer a los gerentes información relevante para mejorar el rendimiento de la empresa. En tal sentido, la inteligencia de negocios constituye un área de conocimiento importante en la organización debido que aporta estrategias para la eficiente y eficaz gestión de las organizaciones. Los sistemas de información gerencial basados en inteligencia de negocios se han convertido en factor fundamental en los logros empresariales. De acuerdo con Martínez (2012) los mismos apoyan a la empresa en decisiones de alto nivel, gestionando los procesos de negocio al satisfacer las necesidades de información de la organización. Dentro de los sistemas de información gerencial, existen los basados en modelos predictivos, los cuales constituyen la búsqueda del conocimiento en los datos históricos relevantes, para pronosticar situaciones futuras (Bayter, 2008). Las sociedades evolucionan a través del avance de una serie de elementos, entre los cuales se encuentra la salud. En Venezuela desde el año de 1.911 se emprendió un proceso que sentó las bases con la finalidad de construir y preservar un sistema de salud integral. A través de lo que en la actualidad es el Ministerio del Poder Popular para la Salud MPPS. Según Hernández (2010) en la constitución de 1.999 se impulsaron políticas para disminuir los determinantes sociales con la intención de reducir las desigualdades, con base a principios de equidad y justicia social.
2
Bajo el marco de referencia expuesto, en Venezuela existen un sistema de salud pública con hospitales tipo I, II, III y IV, que tienen sus propias características según la capacidad de los servicios que presta y la población servida (Decreto Nº 1798, 1983). De acuerdo con esta clasificación el Hospital General de Táriba, es tipo II, el cual tiene como misión: Prestar servicios de promoción, prevención y recuperación de enfermedades en el área de la salud a la comunidad del Municipio Cárdenas y sus adyacencias, teniendo como prioridad el respeto, humanización, ética y calidad en la prestación de cada uno de nuestros servicios, garantizando una docencia y capacitación de alto nivel, contando con talento humano altamente capacitado y comprometido en prestar un servicio eficiente e idóneo en todas las áreas funcionales del Hospital (Hospital General de Táriba, 2015, p. 19). Durante los últimos años este centro dispensador de salud ha crecido notablemente, en su organización y por ende en la cantidad en cuanto a la atención de pacientes. En las diferentes áreas que conforman la organización existe un gran número de necesidades de automatización y optimización de procesos, que requieren adaptarse a la evolución que ha tenido la institución. Dentro de la perspectiva antes mencionada y de acuerdo con la experiencia laboral del autor de esta investigación que es funcionario del Hospital General de Táriba, la institución requiere de manera fundamental la incorporación de nuevas tecnológicas a fin de poder marchar dentro del tipo de desarrollo que tiene trazado, caso específico el departamento de almacén, donde entre otras actividades se realizan las solicitudes de compras para la adquisición de insumos y medicamentos necesarios para el funcionamiento del hospital. Las solicitudes de compra son listados realizados por tipo de producto, (Ver Anexo 1). Las mencionadas solicitudes también llamadas fallas contienen entre otros datos, la cantidad solicitada y la descripción del insumo o medicamento requerido, principal información para su elaboración, y la misma se obtiene de forma manual desde un sistema de inventario llamado Sistema Administrativo e Inventario
3
SAISYS, el cual está realizado en el lenguaje de programación clipper, con el sistema operativo de disco de Microsoft MSDOS (Ver Anexo 2). El actual sistema procesa la información de primer nivel como son: compras (entradas), consumos (salidas), posee una base de datos (Ver Anexo 3) con registros desde enero de 2.010 hasta diciembre de 2.015. Pero el mencionado software no presta todas las funcionalidades de un sistema de información requeridas por el departamento, entre las que destacan estadísticas, proyecciones y principalmente el estimado que se debe adquirir por cada insumo o medicamento. La otra parte de la información para elaborar las solicitudes de compras las aporta el supervisor de almacén de manera empírica, de acuerdo con sus conocimientos por los años de experiencia en el cargo, situación que no brinda estabilidad al proceso debido que el mismo está dependiendo de una sola persona y no está fundamentado en patrones de consumo y estadísticas. En la actualidad el procedimiento para realizar las solicitudes es de la siguiente forma: El supervisor de almacén utilizando una hoja de cálculo (Excel, Calc) donde están separadas las solicitudes por tipo de producto, y siguiendo el orden de los artículos registrados por cada tipo, procede a consultar en el sistema SAISYS la existencia de ese artículo, para luego de acuerdo con su experiencia colocar la cantidad a solicitar por cada producto en la hoja de cálculo. Y así elabora la solicitud de fallas (Ver Anexo 4), siguiendo lo pautado en el Decreto Nº 1.399, con Rango, Valor y Fuerza de Ley de Contrataciones Públicas del estado venezolano.
1.2. Formulación del Problema. Actualmente en el Hospital General de Táriba las solicitudes de compras o fallas de insumos y medicamentos se realizan de forma manual, lo que origina un proceso lento, tedioso, produciendo solicitudes con información poco veraz e inconsistente, lo que trae como consecuencia la adquisición de insumos y
4
medicamentos, sin seguir un patrón de consumo por parte de las áreas del hospital, causando en ocasiones desabastecimiento en algunos rubros y sobreabastecimiento en otros. En el mismo sentido el departamento de almacén no cuenta con un sistema de información predictivo que le brinde estadísticas y proyecciones de los insumos y medicamentos, información necesaria para la toma de decisiones, principalmente en la cantidad de insumos y medicamentos que se deben adquirir. De acuerdo con lo anterior, surge la siguiente interrogante ¿Es necesario realizar un modelo predictivo que proporcione la información necesaria para la toma de decisiones en la gestión de insumos y medicamentos?, a partir de lo anterior, se formulan las siguientes sub interrogantes: ¿Cómo se obtendrán los datos necesarios para generar la información que servirá en la toma de decisiones?, ¿Cuál técnica será la más idónea para encontrar patrones en los datos?, y ¿Qué información será necesaria para la toma de decisiones?. Partiendo de la necesidad que existe actualmente en la institución y tomando en consideración lo que puede llegar a proporcionar la propuesta planteada en cuanto a optimizar las solicitudes de compras en el Hospital General de Táriba, surge la necesidad de desarrollar un modelo predictivo que genere la información requerida para la toma de decisiones, primordialmente la solución tecnológica debe predecir la cantidad de insumos y medicamentos que se deben adquirir para un tiempo determinado.
1.3. Hipótesis. Es posible obtener un modelo predictivo para la gestión de insumos y medicamentos, a partir de los datos históricos disponibles en la base de datos del sistema SAISYS del Hospital General de Táriba, mediante el uso de técnicas de minería de datos.
5
1.4. Objetivos.
Objetivo General. Implementar un modelo predictivo para la toma de decisiones en la gestión de insumos y medicamentos para el Hospital General de Táriba.
Objetivos Específicos. 1.
Analizar la base de datos del Sistema Administrativo e Inventario (SAISYS).
2.
Seleccionar técnicas de minería de datos orientadas a modelos predictivos.
3.
Realizar pruebas de validación de las técnicas seleccionadas.
4.
Desarrollar una herramienta informática para la consulta del modelo predictivo, como apoyo en la toma de decisiones.
1.5. Justificación. La inteligencia de negocios empleando modelos predictivos realizados por medio de la minería de datos, ofrece ventajas competitivas a las organizaciones, fortaleciéndolas y logrando que se mantengan en el tiempo dentro de escenarios exitosos. Recasens (2011) afirma que los pronósticos revelan relaciones y tendencias que permiten tomar decisiones creadas desde una base científica, generando beneficios para las empresas, entre los que destacan: Incremento del volumen de negocio, logro de objetivos, optimizar recursos y aumento de ingresos. La implementación del modelo predictivo propuesto podrá realizar las gestiones pertinentes de los insumos y medicamentos, a través de reportes estadísticos
6
y proyecciones de forma sencilla, flexible, eficiente y eficaz que apoyarán a las personas encargadas de tomar las decisiones en el hospital, contexto necesario para mejorar el proceso de adquisición de insumos y medicamentos, situación que originará solicitar las cantidades de artículos idóneas para el óptimo funcionamiento del hospital, generando principalmente beneficios económicos y de bienestar social tanto para la institución como para sus pacientes. El modelo planteado concede aportes a diferentes niveles, entre los que destacan: El aporte teórico, metodológico, académico, práctico y social, donde las metodologías, y técnicas utilizadas para llevar a cabo el mismo, servirán de base para futuras investigaciones, En consecuencia los aportes teóricos, metodológicos y académicos se verán reflejados en aspectos relacionados con la inteligencia de negocios haciendo énfasis en el área de la minería de datos y sus diferentes herramientas que conllevan al desarrollo e implementación de sistemas que generan conocimientos, de igual forma se proporcionarán aportes en el área de inventarios de hospitales, entre otros. Los aspectos prácticos serán observables en la aplicabilidad, teniendo en cuenta la utilidad que ofrece un modelo con las condiciones planteadas y con la proyección de instalarse en otros centros de salud, pero sin duda alguna es el aporte social el de mayor impacto que se producirá con el actual proyecto, debido que el modelo propuesto está orientado a proporcionar un máximo beneficio a la sociedad involucrada en el desenvolvimiento cotidiano del hospital.
1.6. Alcance. El propósito fundamental de la investigación consiste en analizar la base de datos del sistema transaccional SAISYS, para luego aplicarle técnicas de minería de datos, con el objetivo de generar un modelo predictivo. Una vez se tenga establecido y probado el modelo predictivo se procede a desarrollar una sistema de consulta que
7
facilite a la alta gerencia la toma de decisiones en la gestión de insumos y medicamentos en el Hospital General de Táriba. Con la finalidad de lograr lo planteado, el estudio se centrará en la inteligencia de negocios y la minería de datos, las herramientas y metodologías a utilizar son las siguientes: KDD (Descubrimiento de conocimiento en bases de datos - Knowledge Discovery in Databases) se empleará como herramienta para el proceso de minería de datos, se utilizará Weka (Entorno para análisis del conocimiento de la Universidad de Waikato - Waikato Environment for Knowledge Analysis) como sistema para extraer conocimiento desde la base de datos del sistema transaccional SAISYS, y el desarrollo de la herramienta informática se ejecutará con la metodología RAD (Desarrollo rápido de aplicaciones).
CAPÍTULO II MARCO TEÓRICO
2.1. Antecedentes de la Investigación.
Martha Hernández R. (2011) En su trabajo: Procedimiento para el desarrollo de un sistema de inteligencia de negocios en la gestión de ensayos clínicos en el Centro de Inmunología Molecular. Investigación que surgió como parte de la colaboración existente entre la Universidad de las Ciencias Informáticas y el Centro de Inmunología Molecular en la Habana Cuba. El objetivo fue desarrollar un procedimiento que auxiliara en el almacenamiento y análisis de los ensayos clínicos y que facilitara la aplicación integral de la inteligencia de negocios en esta actividad. Se realizó una propuesta de procedimiento para conducir el desarrollo de soluciones de inteligencia de negocios en el centro. El procedimiento fue evaluado a partir del método de experto Delphi y se obtuvo el resultado de "Muy adecuado". Se contó además con un aval del centro cliente, donde se valoró de satisfactorio el trabajo realizado. La implementación de este procedimiento permitirá almacenar toda la información que se gestiona, de manera íntegra y estándar, con lo que se logrará viabilizar los análisis estadísticos que se necesitan realizar por parte de los especialistas de la institución. El aporte del trabajo para la investigación, se fundamenta en la aplicación de la inteligencia de negocios con el fin de mejorar el desempeño y por ende los procesos de la organización, entre las herramientas y técnicas empleadas, destaca el procedimiento de inteligencia de negocios, a través de la etapa de extracción, transformación y carga de los datos, es decir, el proceso ETL.
9
Juan Soria Q. y Guillermo Mamani A. (2013). En su investigación: Modelo de simulación de inventario basado en redes neuronales artificiales supervisadas y algoritmos genéticos para optimizar el stock de medicamentos de la Clínica Ricardo Palma. Estudio mediante el cual se desarrolló un modelo analítico de abastecimiento de medicamentos basado en redes neuronales artificiales que optimiza el inventario de los medicamentos del sector privado de salud, caso Clínica Ricardo Palma ubicada en San Isidro, Lima Perú. El tipo de investigación fue aplicada, descriptiva y propositiva. Los datos analizados correspondieron al volumen de las ventas semanales de medicamentos de los años 2.005 al 2.009. El objetivo era minimizar la incertidumbre al momento de decidir la cantidad de medicamentos a pedir, estimando la demanda semanal del medicamento. Los resultados afirman que el modelo de red neuronal artificial concurrente tiene mayor precisión en el pronóstico frente a los modelos estadísticos, series de tiempo y regresión lineal, lo cual permite planificar las compras de medicamentos y reducir el costo total. La contribución que ofrece este estudio radica en la optimización de los inventarios en los centros de salud, basado en modelos de gestión de inventario y utilizando el módulo de OptQuest de la herramienta Crystal Ball. Donde a través de la construcción de un modelo de simulación, se busca predecir la cantidad optima de medicamentos a requerir.
Isidora Vielma G. (2013). En su tesis: Mejoramiento de la gestión de insumos de pabellón del Hospital Exequiel González Cortés. Proyecto que propone un diseño para el proceso de adquisición e inventario de los insumos de pabellón en el hospital pediátrico Exequiel González Cortés, situado en Santiago de Chile, a partir de patrones de procesos de negocio, desde la arquitectura empresarial del hospital, hasta el diseño de los diagramas en Gestión de Procesos de Negocios (Business Process
10
Management) BPM. Finalmente, se generaliza la experiencia en base a la construcción de un framework, para cualquier tipo de empresa que requiera generar un plan de insumos a partir de un plan de producción definido. El proyecto es probado mediante un piloto, el cual contempla la implementación de acuerdos de abastecimiento para 3 grupos de productos, que representan el 15% del gasto en insumos del hospital. Las cantidades se determinan en base a las lógicas de negocio. El ahorro promedio calculado con los precios de las ofertas presentadas es de 36%, siendo de 68% en el mejor escenario y de 10% en el peor, lo que permite ahorrar recursos o bien acceder a productos de mayor calidad y precio, sin aumentar el presupuesto, asegurando la provisión de insumos y evitando quiebres de inventario. Con lo antes mencionado, el aporte de la investigación se fundamenta en establecer un modelo de inventario que garantiza un óptimo abastecimiento, a través de la implementación de un software que permite reducir costos, proveer mecanismos de control y un proceso flexible de las compras. Contexto requerido en la gestión de insumos y medicamentos en el Hospital General de Táriba.
Juan Sánchez R. (2010). En su trabajo de grado: Sistema web para diagnóstico de enfermedades prevalentes en la infancia mediante técnicas de minería de datos y aprendizaje automático. Estudio que se realizó en la Universidad Nacional Experimental del Táchira, Municipio San Cristóbal, Venezuela. Proyecto que consistió en desarrollar un sistema web, fundamentado en técnicas de minería de datos para producir modelos predictivos que permitan apoyar en el diagnóstico de enfermedades prevalentes en la infancia. Actualmente la sociedad se está viendo afectada por la mortalidad infantil, ocasionada por enfermedades recurrentes. El sistema desarrollado maneja dos componentes principales, el primero sistematiza la aplicación de la estrategia
11
“Atención Integral a las Enfermedades Prevalentes de la Infancia” la cual brinda lineamientos de trabajo para enfrentar las principales enfermedades que afectan a los niños, el segundo componente lo constituye una plataforma inteligente para el desarrollo de modelos predictivos que permite determinar posibles diagnósticos. El aporte ofrecido para la presente investigación, se basa en la utilización de técnicas de minería de datos para elaborar modelos predictivos que faciliten la toma de decisiones. Entre las técnicas empleadas presenta: Arboles de decisión, reglas de clasificación, clustering y redes bayesianas. Empleando Weka como herramienta para el análisis de los datos.
2.2. Bases Teóricas.
2.2.1. Inteligencia de Negocios - Business Intelligence (BI). Los tiempos de vida de los negocios son cada vez más vertiginosos por lo que se deben tomar decisiones muy veloces, por lo tanto se requiere de la información oportuna en el momento y el lugar correcto. La inteligencia de negocios consiste en un conjunto de herramientas que son usadas para obtener, y analizar datos sobre el funcionamiento de la empresa, los cuales pueden ayudar a lograr un conocimiento amplio de los factores que afectan su desempeño (Ventas, producción, operaciones internas, entre otras) y de esa manera tomar decisiones para lograr mejores resultados. La recolección y procesamiento de los datos produce información, y es la mente humana la que la convierte en inteligencia al adecuarla con un contexto específico para un individuo o caso en particular. “El proceso que produce inteligencia es la colección continua con verificación y análisis de la información que permite comprender el problema o la situación de una manera accionable de acuerdo a un usuario final.” (Gonzales, 2012, p. 9).
12
Figura 2.1. Ilustración de un sistema de inteligencia de negocios. Fuente: (Recasens, 2011, p. 24).
2.2.2. Minería de Datos - Data Mining (DM). Consiste en un conjunto de técnicas y algoritmos que sirven para hacer análisis de grupos de datos, extrayendo patrones y relaciones entre ellos, convirtiéndolos en información útil para quienes toman las decisiones, concepción según Martínez (2012). El empleo de la minería de datos en las empresas se realiza para identificar nuevas oportunidades de negocio, adecuar los productos ofrecidos o encontrar los clientes más valiosos con el fin de retenerlos, para de esta manera aumentar los ingresos y reducir las pérdidas o costos de las empresas. La minería de datos se debe entender como un soporte para los analistas, y no reemplaza el conocimiento que tienen los especialistas del negocio, tampoco descarta la necesidad de entender los datos. Para Martínez (2012) no funciona por sí sola, ya que los patrones que se encuentren en los datos deben ser interpretados y validados para ver si responden a las consultas del negocio, y si son aplicables en el mundo real. Los modelos de minería de datos se clasifican como predictivos y descriptivos. En el primer caso, se tiene una variable con valor desconocido, y la
13
finalidad es determinarlo. Esta variable se llama respuesta, dependiente u objetivo, mientras que aquellas utilizadas para hacer la predicción son los predictores o variables independientes. Los modelos predictivos requieren ser entrenados, utilizando un conjunto de datos de entrenamiento cuyo valor de variable dependiente es conocido. La idea es que el modelo permita resultados en base a un aprendizaje, y así se vaya ajustando con la realidad conocida. A este tipo de modelos se les conoce además como modelos de aprendizaje supervisado. Por otra parte, se tienen los modelos descriptivos, en los cuales no se cuenta con un resultado conocido para poder guiar a los algoritmos, y por ello se conocen como modelos de aprendizaje no supervisado, donde el modelo se va ajustando de acuerdo con las observaciones o datos entregados, y se acude muchas veces a argumentos heurísticos para evaluar la calidad de los resultados. Tanto para los modelos predictivos y como para los modelos descriptivos existen una variedad de métodos de minería de datos que se pueden utilizar, con el fin de buscar conocimiento. Dentro de los métodos predictivos se encuentran la clasificación y regresión, Entre los descriptivos existen el clustering y las reglas de asociación.
2.2.3. Gestión de Inventarios. Por lo general en las empresas exitosas, utilizan el criterio que dice: "quien compra bien, vende o produce bien". El tener una buena política de compras, permite un manejo fluido a la organización y una disminución en sus costos, lo que obviamente mejorará su rentabilidad. A juicio de Aldas (2013) debido a lo anterior es necesario estudiar los inventarios desde el instante en que se proyecta la compra, es decir involucrarlos en los procesos de planeación de la compañía y en su contrapartida obligatoria, el control. Los inventarios básicamente son recursos utilizables que se encuentran almacenados para su uso posterior en un momento determinado. Gestionar un
14
inventario, es la administración eficiente del mismo, a través de un manejo adecuado de la planificación, rotación y control, que incluye desde la negociación con el proveedor hasta la venta del producto. Los principales objetivos de la gestión de inventarios son: Minimizar los costos y riesgos de mantener inventarios, minimizar costos y riesgos de adquirir inventarios, maximizar el rendimiento sobre la inversión en inventario, optimizar el nivel de producción cuando estos sean fabricados en la empresa, maximizar la eficiencia de los departamentos de compras, producción y ventas, permitir mantener un nivel óptimo de inventario.
Figura 2.2. Fases de la gestión de inventarios hospitalarios.
Las fases que comprende la gestión de inventarios hospitalarios se especifican a continuación. 1.
Planificación: Etapa en la cual se analizan las cantidades a solicitar de acuerdo con las existencias y rotación de los insumos y medicamentos.
2.
Prioridades: Se identifican los insumos y medicamentos a requerir, tomando en cuenta los productos primordiales para el funcionamiento del hospital, en función de los recursos económicos disponibles para la compra.
15
3.
Registro: Se deben realizar los asientos de los registros de las entradas y salidas de todos los productos.
4.
Almacenamiento: Empleando la técnica primero en entrar primero en salir (PEPS) se almacenan los insumos y medicamentos.
5.
Suministro: Fase en la cual se realiza la entrega de los productos a cada departamento de la institución, de acuerdo con su consumo.
6.
Control: Etapa donde se revisan periódicamente los artículos, para determinar los que están próximos a vencer y los de poca rotación, y de esta forma dinamizar los productos que estén dentro de estos parámetros.
7.
Auditoria: A través de chequeos quincenales e inventarios semestrales entre la existencia física y la presentada por los registros, se constata la integridad del inventario.
2.2.4. Proceso KDD. Etapa mediante la cual se localiza información en un gran grupo de datos para producir conocimiento. “El objetivo principal de esta metodología es automatizar el procesamiento de los datos, permitiendo a los usuarios dedicar más tiempo a las tareas de análisis y al descubrimiento de relaciones entre los datos.” (Martínez, 2012, p. 26).
16
Figura 2.3. Etapas del proceso KDD. Fuente: (Martínez, 2012, p. 26).
1.
Identificación de la situación en estudio: Establecer el problema a resolver, entendiendo las metas del proceso y cuáles son los objetivos.
2.
Selección e integración de los datos: Se obtienen los datos desde los sistemas transaccionales, los cuales pueden venir en diferentes formatos y en algunas oportunidades con errores.
3.
Preparación de los datos: Etapa de limpieza y pre-procesamiento, donde se escogen técnicas y estrategias para corregir errores en el conjunto de datos seleccionados, se trata la información faltante y unifican formatos.
4.
Transformación: Lapso en el que se pueden reducir o agrupar los datos en las características de interés. Se consolida la información y se escoge una estructura acorde con las necesidades del problema que permita almacenarla, por ejemplo un data mart.
17
5.
Selección y aplicación de algoritmos de Minería de Datos (Data Mining) DM: Empleando técnicas según la situación planteada y el análisis que se quiera hacer. Las técnicas seleccionadas permitirán generar modelos de minería de datos, y con ello revelar patrones de información implícitos en los datos.
6.
Interpretación y evaluación de los patrones encontrados: Identificando los nuevos conocimientos y auxiliándose en los expertos del negocio para ver si se pueden tomar acciones con estos resultados. Para interpretarlos, es necesario visualizarlos de varias formas, validando los patrones y modelos de datos, documentando los procedimientos y consideraciones de manera que se formen propuestas de valor para el negocio.
(Martínez, 2012) “Las etapas iniciales del proceso KDD son muy importantes porque serán la base sobre la cual se hará minería de datos. Si la preparación de los datos no está bien hecha, los resultados obtenidos en los análisis no serán confiables.” (p. 27). La relación entre el proceso KDD y los Data Warehouses, sucede cuando el primero busca contar con datos procesados, limpios y consolidados, mientras que los segundos brindan una arquitectura bien definida en donde almacenar la información con esas características.
2.3. Aspectos Legales.
2.3.1. Constitución de la República Bolivariana de Venezuela. (2000). Artículo 83. Apartado de la constitución que estable la salud como un compromiso social esencial, es un derecho a la vida que el gobierno debe garantizar. Para ello el Estado desarrollará políticas destinadas a satisfacer las necesidades que tienen todas las personas en el sector salud, dentro de ese marco el gobierno debe participar
18
activamente en la promoción, defensa y cumplimiento de las medidas establecidas relacionadas con la salud de todos los ciudadanos del país. Considerando lo anterior, se establece que la realización del actual proyecto promoverá en gran medida la participación que debe tener el Estado, para brindar un eficiente servicio de salud a su población.
2.3.2. Ley Orgánica de la Administración Pública. (2008). Artículo Nº 6. Artículo mediante el cual se fija la actuación de la administración pública nacional, la cual debe estar al servicio de las personas, para atender y satisfacer sus necesidades, en áreas prioritarias como la salud, Para tal efecto la administración debe mejorar continuamente sus procesos, servicios y prestaciones públicas. Contexto que se logrará en el Hospital General de Táriba a través del desarrollo tecnológico planteado.
2.3.3. Ley de Infogobierno. (2013). Artículo Nº 34. Sección donde se estable que la administración pública nacional utilizará en su gestión a través de las tecnologías de la información, solo programas informáticos en software libre y estándares abiertos. Sobre la base de las consideraciones expuestas el presente proyecto debe ser desarrollo en software libre, debido que el Hospital General de Táriba es un organismo de la administración pública nacional.
2.3.4. Decreto Nº 1.399, con Rango, Valor y Fuerza de Ley de Contrataciones Públicas. (2014). Artículo Nº 1. El objeto del Decreto se encuentra expresado en este, su primer artículo, el cual establece la regularización de las actividades del Estado en la adquisición de
19
bienes, prestación de servicios y ejecución de obras, con el propósito de resguardar el patrimonio público, fortalecer la soberanía, incrementar la capacidad productiva y asegurar la transparencia en las actuaciones de los contratantes, para propiciar el crecimiento de la economía. Las solicitudes de compra del Hospital, se realizan siguiendo lo establecido en el presente Decreto (Ver Anexo Nº 4).
2.4. Definición de Términos.
2.4.1. Toma de Decisiones. En el ambiente empresarial resaltan aquellos empresarios que se han destacado por el éxito alcanzado en el manejo de sus organizaciones, escenarios que se materializan a través de la oportuna y acertada toma de decisiones. La cual según Guillén (2012), consiste básicamente en elegir una opción entre las disponibles, evaluando previamente las alternativas a los efectos de resolver un problema, para tomar una decisión, es necesario conocer, comprender y analizar el problema para así poder darle solución.
2.4.2. Sistema Operacional o Transaccional. Los sistemas de información operacionales o transaccionales se encargan de automatizar tareas y procesos que se efectúan a diario en la empresa, manejando datos del funcionamiento de la organización. Sus principales prioridades son la disponibilidad y el rendimiento en el procesamiento a un nivel detallado. A pesar de ser una fuente de datos completa, este tipo de sistema no se emplea en la toma de decisiones de alto nivel, porque al procesar una gran cantidad de datos tarda en entregar las respuestas, tampoco responden a todas las preguntas que puede tener el negocio ya que sólo cuenta con cálculos simples.
20
2.4.3. Sistema de Información Gerencial. Un sistema de información es un grupo organizado de elementos (Hardware, software, recurso humano, entre otros) que interactúan entre sí procesando datos, dando lugar a información en función de los objetivos o necesidades de una organización, así lo indica Aldas (2013). Partiendo de lo anterior, un sistema de información gerencial es una herramienta informática que apoya la toma de decisiones en la empresa, con información confiable y oportuna, permitiendo lograr ventajas competitivas, impulsos estratégicos y control gerencial.
2.4.4. Software Libre. Es el software que respeta la libertad de los usuarios para ejecutarlo, copiar, distribuir, estudiar, modificar y mejorarlo. Libre no significa que sea gratis, aunque en la mayoría de los casos suele estar disponible gratuitamente. El software libre ofrece las siguientes libertades: Primero ejecutarlo con cualquier propósito, segundo estudiarlo y adaptarlo a sus necesidades, tercero distribuir copias y cuarto mejorarlo para luego hacer públicas las mejoras. Con la única limitación del copyleft, el cual indica que la redistribución del software, con o sin cambios, debe dar las mismas libertades que antes.
2.4.5. Base de Datos. Para Aldas (2013) es un conjunto de elementos o hechos relacionados, adaptados en una estructura especifica, es decir, comprende el repositorio en donde está almacenada sistemáticamente toda la información principal e importante para una empresa. Las principales características de las bases de datos son: Independencia lógica y física de los datos, redundancia mínima, acceso concurrente por parte de múltiples usuarios, integridad de los datos, consultas complejas optimizadas, respaldo
21
y recuperación, seguridad de acceso, auditoría, y acceso a través de lenguajes de programación estándar.
2.4.6. Repositorio de Información. “Los repositorios de información nacieron como sistemas que aprovechaban los datos desde los distintos sistemas operacionales, con el objetivo de ayudar con información confiable y oportuna al proceso de toma de decisiones.” (Arias, 2012, p. 9). Los datos guardados en un repositorio pueden distribuirse a través de una red informática, como internet, o de un medio físico, como un disco compacto. Pueden ser de acceso público o estar protegidos y requerir de una autentificación previa. Los repositorios más conocidos son los de carácter académico e institucional. Los sistemas de repositorios suelen integrarse e interoperar con otras aplicaciones.
2.4.7. MySQL. Sistema robusto de gestión de bases de datos relacional, multihilo, multiusuario y multiplataforma, programado en C y C++, con licenciamiento dual (GPL y uso comercial), muy empleado en aplicaciones web. Aldas (2013) lo describe como sencillo de usar e increíblemente rápido, es uno de los manejadores de base de datos más usados, por estar disponible de forma gratuita. Existen varias interfaces que permiten a aplicaciones desarrolladas en diferentes lenguajes de programación, acceder a las bases de datos MySQL.
2.4.8. PHP. Lenguaje de programación multiparadigma (Orientado a objetos, imperativo, programación por procedimientos), multiplataforma, flexible y de alto rendimiento, con licenciamiento PHP (Licencia de software libre no copyleft y licencia de código
22
abierto). Entre sus características destacan las siguientes: Dirigido al desarrollo de aplicaciones web, curva de aprendizaje corta, lenguaje interpretado, programación del lado del servidor, capacidad de conexión con la mayoría de gestores de bases de datos y extensa documentación.
2.4.9. Proceso ETL. Conjunto de técnicas que se utilizan al diseñarse un sistema de información que reúne datos desde distintas partes, para agruparlos en una sola fuente. El proceso consiente en: Primero, extraer los datos desde sistemas informáticos, bases de datos, entre otros. Segundo, transformarlos a valores y formatos específicos. Y tercero, cargarlos en la base de datos o repositorio final.
2.4.10. Weka. Es un software que ha sido desarrollado por la universidad de Waikato en Nueva Zelanda, bajo licencia GNU-GPL, consta de un conjunto de librerías JAVA para la extracción de conocimientos desde bases de datos, mediante las interfaces que ofrece o para embeberlos dentro de cualquier aplicación. “Soporta varias tareas estándar de minería de datos, especialmente, reprocesamiento de datos, clustering, clasificación, regresión, visualización, y selección.” (Rodríguez y Díaz, 2009, p. 78).
23
2.5. Sistema de Variables y Operacionalización. Proceso cuyo principal logro es identificar los indicadores que hacen observable, medibles y operativos los objetivos específicos del trabajo en estudio, para poder evaluar adecuadamente los resultados de la investigación. El sistema de variables y operacionalización constituye la base y el inicio del desarrollo de la solución tecnológica planteada. A partir de los indicadores establecidos se procede a elaborar los instrumentos de recolección de información.
24
Tabla 2.1. Operacionalización de variables.
Objetivo general Objetivo específico
Implementar un modelo predictivo para la toma de decisiones en la gestión de insumos y medicamentos para el Hospital General de Táriba.
Variable
Conceptualización
Dimensiones
1. Analizar la base de datos del Sistema Administrativo e Inventario (SAISYS).
Base de datos de SAISYS.
Conjunto de datos organizados y relacionados, con características de redundancia mínima, integridad, respaldo, seguridad de acceso, auditoría, y acceso a través de lenguajes de programación estándar.
Preprocesamiento.
2. Seleccionar técnicas de minería de datos orientadas a modelos predictivos.
Técnicas de minería de datos orientadas a modelos predictivos.
Algoritmos destinados al análisis de grupos de datos para extraer patrones y relaciones entre ellos, con la finalidad de generar información útil como soporte en la toma de decisiones (Martínez, 2012).
Entradas.
Indicadores - Incluir. - Modificar. - Eliminar.
- Variables numéricas. - Variables nominales.
Salidas.
- Clase numérica discretizada.
Técnica / Instrumento Análisis de contenido / Matriz de datos.
Análisis de contenido / Matriz de datos.
25
Objetivo específico
Variable
3. Realizar pruebas de Validación de validación de las las técnicas técnicas seleccionadas seleccionadas.
4. Desarrollar una herramienta informática para la consulta del modelo predictivo, como apoyo en la toma de decisiones.
Herramienta informática para la consulta del modelo predictivo, como apoyo en la toma de decisiones.
Conceptualización
Dimensiones
Proceso mediante el cual se comparan las técnicas de minería de datos, con base al conocimiento del investigador y los resultados generados por cada técnica en estudio, con el objetivo de identificar el mejor modelo predictivo (Martínez, 2012).
Conjunto de entrenamiento.
Estructura tecnológica basada en la inteligencia de negocios y fundamentada en la minería de datos por medio de un modelo predictivo, desarrollada con el fin de apoyar la toma de decisiones eficientes y eficaces (Recasens, 2011).
Indicadores
Técnica / Instrumento
- Clasificación correcta. - Clasificación incorrecta. - Estadística kappa. - Error absoluto. - Curva ROC.
Análisis de contenido / Matriz de datos.
Interfaz web.
- Usabilidad. - Intuitiva.
Observación / Lista de cotejo.
Predicciones.
- Individual. - Categorizada. - General. - Generar documento.
Estadísticas.
- Individual. - Por fecha. - Histogramas.
Validación cruzada. Porcentaje de división.
CAPÍTULO III MARCO METODOLÓGICO
3.1. Contexto de la Investigación. El propósito del presente estudio está orientado en una investigación aplicada, donde a través de la utilización de conocimientos en la práctica, se busca aplicarlos en la realidad para solucionar problemas de forma directa e inmediata, elabora productos para satisfacer necesidades. Esta investigación antes que el desarrollo de teorías, busca conocer para actuar, para construir y persigue en la mayoría de los casos el logro de objetivos en provecho de la sociedad. El tipo de investigación de acuerdo al ambiente de estudio y las fuentes empleadas es mixta, donde participan factores de la investigación documental e investigación de campo. La investigación documental se alcanzó a través de fuentes utilizadas para elaborar el marco teórico y metodológico como libros, tesis, trabajos de grado, decretos, artículos científicos y documentos digitalizados. La investigación de campo se logró debido a que se emplearon herramientas para la recolección de datos desde la realidad donde sucedieron los hechos.
3.2. Nivel de Investigación. La actual investigación se encuentra ubicada en el área de la ingeniería en tecnologías de información y comunicación, dentro de la línea de ingeniería de software de aplicación en el campo de los sistemas de apoyo a las decisiones gerenciales. El nivel de conocimiento de la investigación es proyectiva, la cual tiene como propósito la elaboración de una propuesta o modelo como solución a un problema o necesidad de tipo práctico.
27
El método utilizado en la investigación es la inducción, mediante el cual se empleó el razonamiento e inicia de hechos particulares aceptados como válidos, para obtener conclusiones cuya aplicación es de carácter general (Bernal, 2010). El método inductivo comienza con una recolección de datos, se categorizan las variables observadas, en ocasiones se hace énfasis en el hallazgo de variables críticas que permitan efectuar exploraciones sistemáticas, se establecen regularidades y relaciones entre los datos, para luego someterlos a prueba a partir de observaciones controladas y finalmente se puede obtener una estructura de generalizaciones relacionadas sistemáticamente que posibiliten elaborar una teoría.
3.3. Diseño de la Investigación. Diseño mediante el cual a juicio de Hernández, Fernández y Baptista, (2010) se recoge la información necesaria para responder de forma concreta las preguntas de la investigación, además de cubrir los objetivos fijados, específicamente se refiere al plan o estrategia creada para obtener la información requerida. Si el diseño se realiza cuidadosamente, serán mayores las posibilidades de éxito para producir conocimiento como resultado final del estudio.
3.4. Población. Son las personas u objetos que tienen relación directa con el caso en estudio, así lo afirma Tamayo (2010) es la totalidad de unidades o individuos que participan en el caso a ser estudiado. La población la determina el objetivo general de la investigación y en el presente estudio está representada por la base de datos de SAISYS, de donde a través del proceso KDD se extrajeron los datos relevantes que generaron información para la construcción del modelo predictivo, base fundamental en la realización de la solución tecnológica.
28
3.5. Técnicas e Instrumentos de Recolección de Datos.
Análisis de Contenido. Proceso que estudia contenidos específicos de la investigación, de una manera objetiva y sistemática, para determinar información relevante inherente al caso de estudio (Hernández, et al., 2010). A través del análisis de contenido realizado en detalle, profundidad y exhaustividad, se obtiene un conocimiento deducido valido aplicado a un contexto, determinado por la capacidad de inferencia del analista, por lo tanto el rigor de la objetividad juega un rol fundamental en la ejecución de la presente técnica de recolección de datos. En la presente investigación la técnica de análisis de contenido empleando el instrumento de matriz de datos, origino un factor primordial para el logro de varios objetivos específicos, debido que se utilizó para registrar, revisar y analizar información de los siguientes elementos del caso en estudio: En la base de datos de SAISYS, durante el proceso de seleccionar las técnicas de minería de datos orientadas a modelos predictivos y en el desarrollo de las pruebas de validación de las técnicas seleccionadas.
La Observación. Técnica mediante la cual a través del uso de los sentidos, se capta directamente la realidad que rodea un caso de estudio. “Este método de recolección de datos consiste en el registro sistemático, válido y confiable de comportamientos y situaciones observables, a través de un conjunto de categorías y subcategorías.” (Hernández, et al., 2010, p. 260). Datos que luego de analizarlos generan información valiosa para lograr los objetivos planteados en la investigación. Los pasos que debe tener la observación son:
29
1.
Determinar el objeto que se va a observar.
2.
Establecer los objetivos de la observación.
3.
Determinar la forma con que se van a registrar los datos.
4.
Observar cuidadosa y críticamente.
5.
Registrar los datos observados.
6.
Analizar e interpretar los datos.
7.
Elaborar conclusiones.
En el presente estudio la técnica de la observación se realizó a la herramienta informática desarrollada para la consulta del modelo predictivo, los datos se registraron en un instrumento denominado lista de cotejo, para posteriormente ser analizados y determinar si el proyecto propuesto ofrece la información necesaria en el proceso de negocio, para solucionar la problemática existente en la gestión de insumos y medicamentos del Hospital General de Táriba.
3.6. Validez y Confiabilidad. La validez de un instrumento está dada en si realmente evalúa lo que se intenta medir. La misma está determinada por la sumatoria de los resultados de la validez de contenido, validez de criterio y validez de constructo. “La confiabilidad de un instrumento de medición se refiere al grado en que su aplicación repetida al mismo individuo u objeto produce resultados iguales.” (Hernández, et al., 2010, p. 200). De acuerdo con lo anterior, la confiabilidad indica que el instrumento no tiene errores, por lo tanto sus resultados son vinculados y consistentes. La validez y la confiabilidad representan la ausencia del azar.
30
3.7. Técnicas de Procesamiento y Análisis de Datos. Una vez obtenida la información a través de los instrumentos de recolección de datos se procedió a codificarla, tabularla, analizarla y así obtener información relevante para el desarrollo de la investigación. Según Bernal (2010) consiste en procesar los datos (Dispersos, desordenados) conseguidos de la población en estudio, con la finalidad de generar datos (Agrupados y ordenados), a partir de los cuales se realiza el análisis según los objetivos y las preguntas de la investigación.
Figura 3.1. Procedimiento para el análisis de los datos. Fuente: (Hernández, et al., 2010, p. 278). Adaptado por el autor.
Los datos obtenidos mediante el análisis de contenido y la observación se analizaron cuantitativamente a través de sistemas de información desarrollados para tal fin, la forma tradicional de hacerlo manualmente ha quedado relegada, en especial cuando hay un volumen considerable de datos. Por lo tanto la interpretación de los datos se efectuó por medio de sistemas de información, en la siguiente tabla se especifican los análisis y procedimientos realizados con cada sistema de información.
31
Tabla 3.1. Sistemas de información utilizados. Sistema de información Weka.
Técnicas de análisis y procedimientos 1. Preprocesamiento (Filtrado, eliminación, balanceo). 2. Estudio de las técnicas de minería datos orientadas a modelos predictivos. 3. Generar diagramas de dispersión. 4. Calcular coeficientes de correlación. 5. Calcular la media de cada variable. 6. Calcular la desviación estándar de cada variable.
Excel – Calc.
1. Leer documentos dbf. 2. Preparación de los datos (Limpieza y preprocesamiento). 3. Generar documentos csv y arff. 4. Generar gráficas de clasificaciones correctas. 5. Generar gráficas de estadísticas kappa. 6. Calcular coeficientes de correlación. 7. Construcción de tablas y matrices.
CAPÍTULO IV ANÁLISIS E INTERPRETACIÓN DE RESULTADOS Tabla 4.1. Simbología empleada en el capítulo. Símbolo
Descripción Aprobado, positivo. Reprobado, negativo. Alto, aumento. Bajo, disminución. Paridad, igual.
4.1. Selección e Integración de los Datos. Los datos se obtienen desde el sistema SAISYS, el cual guarda la información en un archivo de base de datos (Data Base File, dbf) que puede ser leído desde una hoja de cálculo como excel o calc, los registros a ser analizados son los comprendidos desde enero de 2.010 hasta diciembre de 2.015. La base de datos está conformada por una tabla maestro con 4.479 registros y una de transacciones con 81.119 registros.
4.2. Preparación de los Datos. Proceso mediante el cual se procedió a revisar las hojas de cálculo de la tabla maestro y transacciones obtenidas en la fase anterior. La preparación de los datos consistió en realizar actividades de limpieza y pre-procesamiento, para corregir errores en el conjunto de datos seleccionados. Las acciones ejecutadas se presentan en la siguiente tabla.
33
Tabla 4.2. Matriz análisis de la base de datos de SAISYS. Actividad
Tabla Observaciones
1
Descripción Modificar Incluir
N°
Crear atributo primaria.
de
Maestro clave
Transacciones No aplica para la tabla maestro, debido que posee clave primaria, representada por el código.
Llenar atributos vacíos deducibles. Atributos errados deducibles. Columnas que no contenían datos.
Ninguna.
Registros que contenían más del 70% de los atributos vacíos o incompletos.
Registros afectados: 6 de la tabla maestro y 333 de la tabla transacciones.
Registros con la cantidad igual a 0.
No aplica para la tabla maestro, debido que el atributo cantidad solo corresponde con la tabla transacciones. Se eliminaron 156 registros.
7
Registros con código vacío.
No aplica para la tabla maestro, por ser el código su clave primaria, por lo tanto dicho campo no presentaba vacíos. Se eliminaron 178 registros.
8
Registros con más del 70% de los datos errados, atípicos o ruidosos.
Registros afectados: 834 de la tabla maestro y 1004 de la tabla transacciones.
2 3 4
6
Eliminar
5
Ninguna. Se eliminaron 18 columnas de la tabla maestro y 6 columnas de la tabla transacciones.
34
4.3. Transformación. Etapa del proceso KDD que permitió reducir y agrupar los datos. El resultado de la fase anterior se importó a MySQL y a través del lenguaje de programación PHP, se consolidaron todos los datos en un repositorio de información denominado master con 79.448 registros. Tabla 4.3. Selección de las variables de estudio. Nº
Valor
Características
Descripción
1
id
Entero.
Identificación.
2
codigo
Carácter (5).
Código.
3
descripcion Carácter (60).
Descripción.
4
dpto
Carácter (2).
Código de departamento por productos.
5
unidad
Carácter (6).
Unidad de presentación.
6
costo
Flotante.
Costo.
7
stockMin
Entero.
Mínima provisión.
Tipo/variable
Independiente. 8
stockMax
Entero.
Máxima provisión.
9
prioridad
Carácter (1).
Prioridad de adquisición.
10
refrigerado
Carácter (1).
Necesidad de refrigeración.
11
almacenaje
Carácter (1).
Tipo de almacenaje.
12
estatus
Carácter (1).
Estatus del registro.
13
fecha
Carácter (7).
Fecha de la transacción.
14
servicio
Carácter (3).
Código del servicio destinatario.
15
cantidad
Entero.
Cantidad.
Dependiente.
35
Descripción de las Variables No Nominales Seleccionadas. id: Variable clave primaria del repositorio de información master, numero correlativo desde 1 hasta 79.448. codigo: Contiene el código del producto, variable tipo carácter, sus valores fluctúan entre 10.001 y 90.322. descripcion:
Variable
tipo
carácter,
almacena
la
descripción
y
especificaciones de cada insumo o medicamento. unidad: Corresponde con la unidad de medida de los productos, entre otros presenta los siguientes valores: amp, fco, sbr, rollo, kit, bto y cja. costo: Variable de valores numéricos continuos, sus valores oscilan entre 0 y 16.500, con una media de 318,33 y una desviación estándar de 1.261,86. stockMin: Almacena la mínima provisión de cada insumo, valores numéricos no continuos que fluctúan entre 0 y 3.000, presentando una media de 130,64 y una desviación estándar de 336,86. stockMax: Contiene la máxima provisión de cada producto, valores numéricos no continuos que oscilan entre 0 y 36.000, mostrando una media de 1.353,25 y una desviación estándar de 3.810,81. fecha: Variable tipo carácter que guarda la fecha de la transacción por producto, para el estudio se utilizaron los datos correspondientes desde enero de 2.010 hasta diciembre de 2.015. cantidad: Variable numérica entera, contiene la cantidad de cada insumo o medicamento por transacción, en el repositorio es la variable a predecir o dependiente, presenta una media de 339,84 y una desviación estándar de 945,40.
36
Descripción de las Variables Nominales Seleccionadas.
Tabla 4.4. Variable código del departamento por productos (dpto). N°
Valor
Descripción
1
01
Material médico.
2
02
Medicamento.
3
03
Instrumental.
4
04
Odontología.
5
05
Laboratorio.
6
06
Papelería.
7
07
Radiología.
8
08
Mantenimiento.
9
09
Nutrición
Tabla 4.5. Variable prioridad de adquisición (prioridad). N°
Valor
Descripción
1
1
Alta.
2
2
Media.
3
3
Baja.
37
Tabla 4.6. Variable necesidad de refrigeración (refrigerado). N°
Valor
Descripción
1
1
Si.
2
2
No.
Tabla 4.7. Variable restricciones en almacenaje (almacenaje). N°
Valor
Descripción
1
1
Si.
2
2
No.
Tabla 4.8. Variable estatus del registro (estatus). N°
Valor
Descripción
1
1
Compra.
2
2
Ajuste.
3
9
Salida a servicio.
Tabla 4.9. Variable código del servicio destinatario (servicio). N°
Valor
Descripción
1
101
Administración.
2
102
Contabilidad.
3
103
Almacén.
4
105
Reproducción.
5
106
Compras.
6
107
Computación.
7
201
Servicios generales
8
202
Lencería.
mantenimiento.
N° Valor
Descripción
38
9
301
Coordinación de
10
302
Consulta externa.
12
403
Pabellón.
enfermería. 11
303
Supervisión de enfermeras.
13
404
Central de suministros.
14
405
Odontología.
15
406
Emergencia.
16
408
Sala de parto.
17
501
Nutrición y dietética.
18
502
Radiología.
19
503
Laboratorio.
20
504
Estadística y registros de salud.
21
505
Promoción social.
22
601
Talento humano.
23
702
Dirección.
24
703
Donativos.
25
704
Sociedad medico
26
707
Presupuesto.
científica.
Variable Discretizada: Se realizó la discretización de la variable dependiente cantidad, la cual se segmento en grupos múltiplos de 5, con el propósito de reducir la dispersión de los datos, proceso que se efectuó a través del lenguaje de programación PHP. En la siguiente tabla se detallan los factores que se tomaron en cuenta para seleccionar el tipo de rango en la discretización.
39
Tabla 4.10. Evaluación para determinar el tipo de rango. Rango
Valido
Confiable
Decisión
500 100 50 5
Cierre: Para finalizar la etapa de transformación, con los datos disponibles se procedió a generar el documento arff, el cual es necesario para trabajar con la herramienta Weka, actividad realizada con el lenguaje de programación PHP.
4.4. Selección y Aplicación de Algoritmos de Minería de Datos.
Factores Determinantes en la Selección de las Técnicas de Minería de Datos. Entrada – Variables numéricas, variables nominales: Las técnicas seleccionadas deben aceptar como datos de entrada números y valores nominales, para la construcción del modelo. Salidas – Clase numérica discretizada: Es la clase a predecir, la cual es numérica segmentada en grupos múltiplos de 5, por lo tanto la técnica de minería de datos seleccionada debe procesar como resultado este tipo de salida, para realizar el modelo predictivo.
40
Tabla 4.11. Matriz selección de técnicas de minería de datos orientadas a modelos predictivos. Entradas Nº
Técnicas de minería
Variables numéricas Variables nominales
1
Clustering.
2
J48.
3
JRip.
4
M5P.
5
Naïve Bayes.
6
OneR.
7
Perceptrón multicapa.
8
Reglas de asociación.
9
Regresión lineal.
10
REPTree.
Salidas Clase numérica discretizada
Decisión de selección
41
Breve Descripción de los Modelos Seleccionados. Clustering: Técnica fundamentada en la segmentación de un grupo diverso de datos, en un conjunto de subgrupos (Clústeres) que presenta características similares. J48: Clasificador para generar un árbol de decisión C4.5 podado o sin podar, se fundamenta en el concepto de entropía de la información. JRip: Método que implementa un aprendizaje de regla proposicional, repite incrementalmente la poda para cortar la reducción de errores. Naïve Bayes: Clasificador basado en el teorema de bayes, es rápido y poco complejo, constituye una técnica supervisada. OneR: Técnica basada en reglas para la construcción y el uso de un clasificador 1R, es sencillo y rápido, utiliza para predecir el atributo con mínimo error. Perceptrón multicapa: Es una red neuronal artificial, técnica que utiliza backpropagation para clasificar los casos. Los nodos de esta red son todos sigmoideo (Excepto cuando la clase es numérica, en cuyo caso los nodos de salida se convierten en unidades lineales de umbral). REPTree: Árbol de decisión de aprendizaje rápido. Los valores perdidos se tratan mediante el fraccionamiento de las instancias correspondientes en trozos, es decir, como en C4.5.
42
Preprocesamiento con Weka. Filtrado: Proceso mediante el cual se aplicó el filtro supervisado de atributos discretización (Discretize) al conjunto de datos, para discretizar valores numéricos no nominales, específicamente a los atributos: codigo, costo, stockMin y stockMax, pero los resultados obtenidos con y sin el filtro en los modelos, eran iguales, por tal motivo se decidió no utilizar en la investigación las derivaciones de la presente fase. Eliminación: Utilizando la opción de preprocesado, filtro no supervisado de atributos para eliminar inútiles (RemoveUseless), con la finalidad de remover atributos constantes o que excedan el porcentaje máximo de varianza, se aplica solo a los atributos nominales. Para el análisis de los datos en estudio se estableció el umbral de la más alta varianza permitida en 30%, el resultado del proceso no elimino ninguno de los atributos en estudio. Balanceo: A través de la opción de filtro supervisado de instancias volver a muestrear (Resample), se procedió a balancear la clase, con el objetivo de equilibrar los datos, pero los resultados obtenidos en los modelos luego de utilizar esta opción, no eran tan óptimos como sin emplear la presente herramienta, por lo tanto no se aplicó al conjunto de datos.
Opciones de Prueba Realizadas a cada Técnica Seleccionada. Conjunto de entrenamiento: Con esta opción se construye el modelo con el 100% del conjunto de los datos disponibles, para luego hacer las pruebas sobre el mismo conjunto de datos. Validación cruzada, 5 partes: Consiste en dividir en 5 segmentos los datos. Weka toma cada parte y construye el modelo con las partes restantes, para luego probar el modelo con la parte que tomo inicialmente y así sucesivamente repite el proceso con todos los segmentos.
43
Porcentaje de división, 70%: Opción de prueba que toma el 70% de los datos disponibles, para construir el modelo, y la prueba las realiza con el restante 30% de los datos.
Criterios a Evaluar. Clasificación correcta: Corresponde al porcentaje de datos clasificados como aciertos durante la construcción del modelo predictivo, cuanto más próximo a 100% sea el valor resultante, el modelo es más efectivo, se considera un modelo valido cuando la clasificación correcta es superior al 70%. En la presente investigación el modelo se califica como aprobado si la clasificación correcta supera el 75%. Clasificación incorrecta: Constituye el porcentaje de datos clasificados como desaciertos al momento de construir el modelo predictivo, Los modelos con clasificación incorrecta mayor o igual al 25% no son considerados válidos. Estadística kappa: Según Corso (2009) mide la coincidencia de la predicción con la clase real. Sus valores están establecidos entre 0 y 1. Al respecto, mientras más se acerque el valor resultante a 0 no hay concordancia, entre tanto cuanto más cerca de 1 se encuentre existe mayor concordancia, En la presente investigación el modelo se califica como aprobado si la estadística kappa supera el 0,75 de fuerza de concordancia.
44
Tabla 4.12. Valoración estadística kappa. Estadística kappa
Fuerza de concordancia
< 0,00
Pobre.
0,00 – 0,20
Leve.
0,21 – 0,40
Justa.
0,41 – 0,60
Moderada.
0,61 – 0,80
Sustancial.
0,81 – 1
Casi perfecta.
Fuente: (Landis y Koch, 1977, p. 165)
Error absoluto: Representa la media de la magnitud de los errores individuales, así lo afirma Sánchez (2010). En consecuencia, es la diferencia entre el valor obtenido y el valor exacto. Curva ROC: Es la representación gráfica de la sensibilidad frente a la especificidad, es decir, simboliza la razón de verdaderos positivos contra la razón de falsos negativos. Coeficiente de correlación: Expresa la intensidad de la relación lineal entre dos variables, presenta valores entre -1 y 1, mientras más próximo sea el valor a 1 en cualquier dirección, más fuerte es la relación entre las dos variables, entre tanto, cuanto más cercano este de 0 el coeficiente de correlación, la relación será más débil.
45
Pruebas Realizadas a las Técnicas Seleccionadas. Procedimiento realizado por fases, cada una de las mismas comprende un conjunto completo de pruebas a cada técnica seleccionada, para determinar cuáles son las variables independientes que mejor predicen la variable dependiente, con el propósito de encontrar un modelo predictivo que solucione el problema de la presente investigación. Los resultados de cada prueba son tabulados en una tabla y representados gráficamente, se hace de las dos formas porque se complementan, debido que cada representación aporta valores agregados a la investigación. La tabla refleja el valor exacto de cada indicador, entre tanto, la gráfica muestra el valor aproximado de cada indicador y su valor mínimo requerido en la investigación.
46
Tabla 4.13. Variables de entrada para las pruebas de la fase N° 1. Independientes Dependiente
codigo, dpto, prioridad, fecha cantidad
Tabla 4.14. Prueba N° 1. Fase N° 1. Técnica clustering.
N° 1
Opción de prueba Conjunto de entrenamiento.
Clasificación correcta
Clasificación incorrecta
23,65 %
76,35 %
Gráfica Clasificación correcta
La clasificación correcta no supera el 75%, por lo tanto el modelo se descarta. Decisión de selección
47
Tabla 4.15. Prueba N° 2. Fase N° 1. Técnica J48. N°
Opción de prueba
Clasificación Clasificación Estadística correcta incorrecta kappa
1
Conjunto de entrenamiento.
51,02 %
48,98 %
0,4353
2
Validación cruzada. 5 partes.
47,72 %
52,28 %
0,392
3
Porcentaje de división. 70 %.
43,32 %
56,68 %
0,3338
Gráficas Clasificación correcta
Estadística kappa
Ninguna clasificación correcta supera el 75%, las estadísticas kappa se encuentran entre los rangos de fuerza de concordancia justa y moderada, por lo tanto los modelos se descartan. Decisión de selección
48
Tabla 4.16. Prueba N° 3. Fase N° 1. Técnica JRip. N°
Opción de prueba
Clasificación Clasificación Estadística correcta incorrecta kappa
1
Conjunto de entrenamiento.
68,27 %
31,73 %
0,6143
2
Validación cruzada. 5 partes.
66,69 %
33,31 %
0,5935
3
Porcentaje de división. 70 %.
65,73 %
34,27 %
0,5808
Gráficas Clasificación correcta
Estadística kappa
Ninguna clasificación correcta supera el 75%, las estadísticas kappa se encuentran entre los rangos de fuerza de concordancia moderada y sustancial, por lo tanto los modelos se descartan. Decisión de selección
49
Tabla 4.17. Prueba N° 4. Fase N° 1. Técnica Naïve Bayes. N°
Opción de prueba
Clasificación Clasificación Estadística correcta incorrecta kappa
1
Conjunto de entrenamiento.
35,34 %
64,66 %
0,2493
2
Validación cruzada. 5 partes.
33,26 %
66,74 %
0,227
3
Porcentaje de división. 70 %.
33,28 %
66,72 %
0,2323
Gráficas Clasificación correcta
Estadística kappa
Ninguna clasificación correcta supera el 75%, las estadísticas kappa se encuentran en el rango de fuerza de concordancia justa, por lo tanto los modelos se descartan. Decisión de selección
50
Tabla 4.18. Prueba N° 5. Fase N° 1. Técnica OneR. N°
Opción de prueba
Clasificación Clasificación Estadística correcta incorrecta kappa
1
Conjunto de entrenamiento.
77,84 %
22,16 %
0,7488
2
Validación cruzada. 5 partes.
76,42 %
23,58 %
0,7326
3
Porcentaje de división. 70 %.
76,05 %
23,95 %
0,7288
Gráficas Clasificación correcta
Estadística kappa
Las clasificaciones correctas superan el 75%, las estadísticas kappa se encuentran en el rango de fuerza de concordancia sustancial, pero no superan el 0,75 requerido en la investigación, por lo tanto los modelos se descartan. Decisión de selección
51
Tabla 4.19. Prueba N° 6. Fase N° 1. Técnica perceptrón multicapa. N°
Opción de prueba
Clasificación Clasificación Estadística correcta incorrecta kappa
1
Conjunto de entrenamiento.
33,19 %
66,81 %
0
2
Validación cruzada. 5 partes.
7,76 %
92,24 %
0
3
Porcentaje de división. 70 %.
32,86 %
67,14 %
0
Gráficas Clasificación correcta
Estadística kappa
Ninguna clasificación correcta supera el 75%, las estadísticas kappa se encuentran en el rango de fuerza de concordancia leve, por lo tanto los modelos se descartan. Decisión de selección
52
Tabla 4.20. Prueba N° 7. Fase N° 1. Técnica REPTree. N°
Opción de prueba
Clasificación Clasificación Estadística correcta incorrecta kappa
1
Conjunto de entrenamiento.
43,37 %
56,63 %
0,306
2
Validación cruzada. 5 partes.
35,97 %
64,03 %
0,2017
3
Porcentaje de división. 70 %.
35,33 %
64,67 %
0,188
Gráficas Clasificación correcta
Estadística kappa
Ninguna clasificación correcta supera el 75%, las estadísticas kappa se encuentran entre los rangos de fuerza de concordancia leve y justa, por lo tanto los modelos se descartan. Decisión de selección
53
Tabla 4.21. Variables de entrada para las pruebas de la fase N° 2. Independientes Dependiente
costo, prioridad, refrigerado, almacenaje, fecha cantidad
Tabla 4.22. Prueba N° 1. Fase N° 2. Técnica clustering. N° 1
Opción de prueba Conjunto de entrenamiento.
Clasificación correcta
Clasificación incorrecta
25,25 %
74,75 %
Gráfica Clasificación correcta
La clasificación correcta no supera el 75%, por lo tanto el modelo se descarta. Decisión de selección
54
Tabla 4.23. Prueba N° 2. Fase N° 2. Técnica J48. N°
Opción de prueba
Clasificación Clasificación Estadística correcta incorrecta kappa
1
Conjunto de entrenamiento.
42,27 %
57,73 %
0,2643
2
Validación cruzada. 5 partes.
41,35 %
58,65 %
0,2429
3
Porcentaje de división. 70 %.
40,28 %
59,72 %
0,2309
Gráficas Clasificación correcta
Estadística kappa
Ninguna clasificación correcta supera el 75%, las estadísticas kappa se encuentran en el rango de fuerza de concordancia justa, por lo tanto los modelos se descartan. Decisión de selección
55
Tabla 4.24. Prueba N° 3. Fase N° 2. Técnica JRip. N°
Opción de prueba
Clasificación Clasificación Estadística correcta incorrecta kappa
1
Conjunto de entrenamiento.
55,89 %
44,11 %
0,438
2
Validación cruzada. 5 partes.
54,12 %
45,88 %
0,4109
3
Porcentaje de división. 70 %.
53,59 %
46,41 %
0,4059
Gráficas Clasificación correcta
Estadística kappa
Ninguna clasificación correcta supera el 75%, las estadísticas kappa se encuentran en el rango de fuerza de concordancia moderada, por lo tanto los modelos se descartan. Decisión de selección
56
Tabla 4.25. Prueba N° 4. Fase N° 2. Técnica Naïve Bayes. N°
Opción de prueba
Clasificación Clasificación Estadística correcta incorrecta kappa
1
Conjunto de entrenamiento.
18,42 %
81,58 %
0,1211
2
Validación cruzada. 5 partes.
17,34 %
82,66 %
0,1083
3
Porcentaje de división. 70 %.
17,07 %
82,93 %
0,1061
Gráficas Clasificación correcta
Estadística kappa
Ninguna clasificación correcta supera el 75%, las estadísticas kappa se encuentran en el rango de fuerza de concordancia leve, por lo tanto los modelos se descartan. Decisión de selección
57
Tabla 4.26. Prueba N° 5. Fase N° 2. Técnica OneR. N°
Opción de prueba
Clasificación Clasificación Estadística correcta incorrecta kappa
1
Conjunto de entrenamiento.
66,72 %
33,28 %
0,6231
2
Validación cruzada. 5 partes.
64,75 %
35,25 %
0,6014
3
Porcentaje de división. 70 %.
63,99 %
36,01 %
0,593
Gráficas Clasificación correcta
Estadística kappa
Ninguna clasificación correcta supera el 75%, las estadísticas kappa se encuentran entre los rangos de fuerza de concordancia moderada y sustancial, por lo tanto los modelos se descartan. Decisión de selección
58
Tabla 4.27. Prueba N° 6. Fase N° 2. Técnica perceptrón multicapa. N°
Opción de prueba
Clasificación Clasificación Estadística correcta incorrecta kappa
1
Conjunto de entrenamiento.
33,19 %
66,81 %
0
2
Validación cruzada. 5 partes.
14,22 %
85,78 %
0
3
Porcentaje de división. 70 %.
32,86 %
67,14 %
0
Gráficas Clasificación correcta
Estadística kappa 1 0,8 0,6 0,4 0,2 0 1
2
3
Ninguna clasificación correcta supera el 75%, las estadísticas kappa se encuentran en el rango de fuerza de concordancia leve, por lo tanto los modelos se descartan. Decisión de selección
59
Tabla 4.28. Prueba N° 7. Fase N° 2. Técnica REPTree. N°
Opción de prueba
Clasificación Clasificación Estadística correcta incorrecta kappa
1
Conjunto de entrenamiento.
36,88 %
63,12 %
0,1896
2
Validación cruzada. 5 partes.
34,91 %
65,09 %
0,1644
3
Porcentaje de división. 70 %.
34,94 %
65,06 %
0,166
Gráficas Clasificación correcta
Estadística kappa
Ninguna clasificación correcta supera el 75%, las estadísticas kappa se encuentran en el rango de fuerza de concordancia leve, por lo tanto los modelos se descartan. Decisión de selección
60
Tabla 4.29. Variables de entrada para las pruebas de la fase N° 3. Independientes Dependiente
codigo, dpto, costo, stockMin, stockMax, prioridad, refrigerado, almacenaje, fecha cantidad
Tabla 4.30. Prueba N° 1. Fase N° 3. Técnica clustering. N° 1
Opción de prueba Conjunto de entrenamiento.
Clasificación correcta
Clasificación incorrecta
23,65 %
76,35 %
Gráfica Clasificación correcta
La clasificación correcta no supera el 75%, por lo tanto el modelo se descarta. Decisión de selección
61
Tabla 4.31. Prueba N° 2. Fase N° 3. Técnica J48. N°
Opción de prueba
Clasificación Clasificación Estadística correcta incorrecta kappa
1
Conjunto de entrenamiento.
78,76 %
21,24 %
0,7594
2
Validación cruzada. 5 partes.
78,09 %
21,91 %
0,7517
3
Porcentaje de división. 70 %.
77,30 %
22,70 %
0,7432
Gráficas Clasificación correcta
Estadística kappa
Las clasificaciones correctas superan el 75%, las estadísticas kappa se encuentran en el rango de fuerza de concordancia sustancial, las opciones de prueba, conjunto de entrenamiento y validación cruzada superan el 0,75 requerido en la investigación, por lo tanto los modelos 1 y 2 se eligen como candidatos para la solución del problema. Decisión de selección
62
Tabla 4.32. Prueba N° 3. Fase N° 3. Técnica JRip. N°
Opción de prueba
Clasificación Clasificación Estadística correcta incorrecta kappa
1
Conjunto de entrenamiento.
77,31 %
22,69 %
0,7368
2
Validación cruzada. 5 partes.
76,79 %
23,21 %
0,7306
3
Porcentaje de división. 70 %.
76,43 %
23,57 %
0,7266
Gráficas Clasificación correcta
Estadística kappa
Las clasificaciones correctas superan el 75%, las estadísticas kappa se encuentran en el rango de fuerza de concordancia sustancial, pero no superan el 0,75 requerido en la investigación, por lo tanto los modelos se descartan. Decisión de selección
63
Tabla 4.33. Prueba N° 4. Fase N° 3. Técnica Naïve Bayes. N°
Opción de prueba
Clasificación Clasificación Estadística correcta incorrecta kappa
1
Conjunto de entrenamiento.
47,63 %
52,37 %
0,4109
2
Validación cruzada. 5 partes.
45,11 %
54,89 %
0,3825
3
Porcentaje de división. 70 %.
45,61 %
54,39 %
0,3887
Gráficas Clasificación correcta
Estadística kappa
Ninguna clasificación correcta supera el 75%, las estadísticas kappa se encuentran entre los rangos de fuerza de concordancia justa y moderada, por lo tanto los modelos se descartan. Decisión de selección
64
Tabla 4.34. Prueba N° 5. Fase N° 3. Técnica OneR. N°
Opción de prueba
Clasificación Clasificación Estadística correcta incorrecta kappa
1
Conjunto de entrenamiento.
79,75 %
20,25 %
0,7706
2
Validación cruzada. 5 partes.
79,75 %
20,25 %
0,7706
3
Porcentaje de división. 70 %.
79,74 %
20,26 %
0,7709
Gráficas Clasificación correcta
Estadística kappa
Las clasificaciones correctas superan el 75%, las estadísticas kappa se encuentran en el rango de fuerza de concordancia sustancial, y superan el 0,75 requerido en la investigación, por lo tanto los modelos se eligen como candidatos para la solución del problema. Decisión de selección
65
Tabla 4.35. Prueba N° 6. Fase N° 3. Técnica perceptrón multicapa. N°
Opción de prueba
Clasificación Clasificación Estadística correcta incorrecta kappa
1
Conjunto de entrenamiento.
33,19 %
66,81 %
0
2
Validación cruzada. 5 partes.
15,09 %
84,91 %
0
3
Porcentaje de división. 70 %.
32,86 %
67,14 %
0
Gráficas Clasificación correcta
Estadística kappa
Ninguna clasificación correcta supera el 75%, las estadísticas kappa se encuentran en el rango de fuerza de concordancia leve, por lo tanto los modelos se descartan. Decisión de selección
66
Tabla 4.36. Prueba N° 7. Fase N° 3. Técnica REPTree. N°
Opción de prueba
Clasificación Clasificación Estadística correcta incorrecta kappa
1
Conjunto de entrenamiento.
61,23 %
38,77 %
0,5596
2
Validación cruzada. 5 partes.
51,89 %
48,11 %
0,4532
3
Porcentaje de división. 70 %.
51,24 %
48,76 %
0,4465
Gráficas Clasificación correcta
Estadística kappa
Ninguna clasificación correcta supera el 75%, las estadísticas kappa se encuentran en el rango de fuerza de concordancia moderada, por lo tanto los modelos se descartan. Decisión de selección
Cierre: Para finalizar la etapa de selección y aplicación de algoritmos de minería de datos, en la siguiente tabla se detallan los modelos candidatos para la solución del problema, que cumplen con los requerimientos de la investigación.
67
Tabla 4.37. Matriz pruebas de validación a las técnicas seleccionadas.
Nº
1
2
Fase
3
3
Técnicas
Opción de prueba
Clasificación Clasificación correcta incorrecta
Estadística kappa
Error absoluto
Curva ROC
Conjunto de entrenamiento.
78,76 %
21,24 %
0,7594
37,11 %
0,985
Validación cruzada. 5 partes.
78,09 %
21,91 %
0,7517
37,71 %
0,957
Conjunto de entrenamiento.
79,75 %
20,25 %
0,7706
22,64 %
0,897
Validación cruzada. 5 partes.
79,75 %
20,25 %
0,7706
22,59 %
0,897
Porcentaje de división. 70%.
79,74 %
20,26 %
0,7709
22,55 %
0,897
J48
OneR
Conclusión
Se determina que las técnicas J48 y OneR, con la opción de prueba conjunto de entrenamiento, son las que mejores resultados aportan para la solución del problema, por lo tanto son las utilizadas en la siguiente etapa de la investigación.
68
4.5. Interpretación y Evaluación de los Patrones Encontrados.
Tabla 4.38. Relación entre los modelos encontrados. Nº
Técnica de minería
1
J48
Total Falsos Precisión Sensibilidad Especificidad positivos positivos 0,788
0,004
Variables empleadas por el modelo
Técnica de minería
2
OneR
0,788
0,996
codigo, dpto, costo, stockMin, stockMax, prioridad, cantidad Número de hojas: 77
Otras características
Nº
0,719
Tamaño del árbol: 130
Total Falsos Precisión Sensibilidad Especificidad positivos positivos 0,798
0,004
Variables empleadas por el modelo Otras características
0,731
0,798
0,996
stockMax, cantidad Número de reglas: 55
Fuente: Software Weka.
Relación de las Variables. Procedimiento a través del cual utilizando diagramas de dispersión y la tabla de coeficientes de correlación, se analizan visualmente las variables utilizadas por las técnicas para construir los modelos respecto a la variable dependiente. Estudio que se realiza con el propósito de conseguir factores determinantes que aumenten la efectividad de los modelos.
69
Figura 4.1. Diagrama de dispersión, X = codigo, Y = cantidad. Fuente: Software Weka.
Figura 4.2. Diagrama de dispersión, X = dpto, Y = cantidad. Fuente: Software Weka.
70
Figura 4.3. Diagrama de dispersión, X = costo, Y = cantidad. Fuente: Software Weka.
Figura 4.4. Diagrama de dispersión, X = stockMin, Y = cantidad. Fuente: Software Weka.
71
Figura 4.5. Diagrama de dispersión, X = stockMax, Y = cantidad. Fuente: Software Weka.
Figura 4.6. Diagrama de dispersión, X = prioridad, Y = cantidad. Fuente: Software Weka.
72
Tabla 4.39. Coeficiente de correlación entre las variables. Dependiente
cantidad
Independiente Código
0,2739
dpto
0,2966
costo
0,0744
stockMin
0,9846
stockMax
0,9908
prioridad
0,5254 Fuente: Software Weka.
Análisis de los Diagramas de Dispersión y el Coeficiente de Correlación. Luego de observar cada diagrama de dispersión y la tabla de coeficiente de correlación entre variables, haciendo especial énfasis donde se muestra la relación entre stockMax y cantidad, por ser el stockMax la única variable independiente que coincidieron en emplear las dos técnicas de minería de datos para construir el modelo predictivo y la cantidad la variable dependiente o variable a predecir. Situación confirmada por el coeficiente de correlación, debido que el stockMax y la cantidad presentan la mejor relación entre variables, con un índice de dependencia positivo casi perfecto. En el diagrama de dispersión del stockMax y la cantidad (Figura 4.5.) se observa que algunos pocos puntos que representa la cantidad, despliegan una significativa dispersión con respecto al stockMax. En relación a lo expuesto y con el
73
propósito de mejorar los resultados de los modelos, se realizan los siguientes procedimientos y análisis denominados pruebas de la fase 4. 1. Realizar la selección de atributos que ofrece Weka, al conjunto de variables de entrada. 2. Modificar la discretización de la variable dependiente cantidad, la primera discretización se realizó en la etapa de transformación de los datos, quedando conformada por grupos múltiplos de 5, y con la cual se realizaron las pruebas de las fases N° 1, 2 y 3. Se modifica la discretización a grupos múltiplos de 2, para las pruebas de la fase N° 4. Con el objetivo de analizar el comportamiento de los modelos en estudio. 3. Mediante el uso del lenguaje de programación PHP, se realiza una búsqueda y reemplazo de los valores con mayor dispersión de la variable cantidad, observados en el diagrama de dispersión stockMax y cantidad, por valores promedios. 4. Realizar regresión lineal de forma individual a cada variable independiente respecto con la variable dependiente, para comprobar las relaciones deterministas en la construcción del modelo. 5. Modificar las opciones que ofrece Weka, para las técnicas J48 y OneR, en la construcción de los modelos en estudio, para analizar su tendencia.
74
Tabla 4.40. Prueba Nº 1. Fase Nº 4. Selección de atributos Variables evaluadas
Variables seleccionadas
codigo, dpto, costo, stockMin, stockMax, stockMax, fecha, cantidad prioridad, refrigerado, almacenaje, fecha, cantidad Descripción A través de la opción de selección de atributos de Weka, se utilizó el sub conjunto evaluador, donde se analiza el valor de un conjunto de atributos considerando la capacidad de predicción individual, junto con el grado de redundancia entre ellos, el método de búsqueda empleado fue el mejor primero. Procedimiento realizado con el objetivo de reducir la cantidad de variables empleadas en los modelos. Las variables seleccionadas son las utilizadas en las siguientes pruebas de los modelos.
Tabla 4.41. Prueba N° 2. Fase N° 4. Discretización N°
Técnica
Resultado
1
J48
4,80 %
2
OneR
1,42 % Descripción
El proceso de modificar la discretización de la variable dependiente cantidad a grupos múltiplos de 2, produce una disminución en el rendimiento de los modelos, valor que a posterior no es negativo, debido que al estar discretizada la variable a predecir de esta forma, ofrece mayor confiabilidad a los modelos, por lo tanto, en lo sucesivo se utilizara la variable cantidad, discretizada en grupos múltiplos de 2.
75
Tabla 4.42. Prueba N° 3. Fase N° 4. Búsqueda y reemplazo N°
Técnica
Resultado
1
J48
14,68 %
2
OneR
14,19 % Descripción
Después de realizar la búsqueda y reemplazo de los valores con mayor dispersión de la variable cantidad, se obtuvo un mejor modelo predictivo en cada técnica de minería de datos, con un aumento del 14,43% en promedio, de la clasificación correcta.
Tabla 4.43. Prueba N° 4. Fase N° 4. Regresión lineal Dependiente
cantidad Coeficiente de correlación
Error absoluto
codigo
0,2744
94,45 %
dpto
0,2962
85,71 %
costo
0,0744
99,77 %
stockMin
0,9922
13,30 %
stockMax
0,9984
2,10 %
prioridad
0,5287
73,01 %
refrigerado
0,0766
99,08 %
Independiente
76
almacenaje
0,0246
99,95 %
fecha
0,0584
99,52 %
Descripción Posterior de efectuar el proceso de búsqueda y reemplazo, se realizó regresión lineal de forma individual a cada variable independiente respecto con la variable dependiente, para comprobar las relaciones deterministas. Proceso llevado a cabo con la variable dependiente cantidad continua, es decir, sin discretizar. El resultado confirma que el stockMax y la cantidad presentan la mejor relación entre variables, con un índice de dependencia positivo casi perfecto.
Tabla 4.44. Prueba N° 5. Fase N° 4. Técnica J48. Análisis con Weka N°
Opción
Valor por defecto
Cambio
Resultado 0,97 %
1
Divisiones binarias.
Falso.
Verdadero.
2
Árbol de colapso.
Verdadero.
Falso.
3
Factor de confidencia.
0,25
0,1
4
Factor de confidencia.
0,25
0,5
5
Depurar.
Falso.
Verdadero.
6
No verifica las capacidades.
Falso.
Verdadero.
7
No hace punto de división del
Falso.
Verdadero.
valor real. 8
Número de particiones.
3
1
9
Número de particiones.
3
10
77
10
Reducir la poda de error.
Falso.
Verdadero.
7,21 %
11
Semilla.
1
1940
12
Recaudación de sub árbol.
Verdadero.
Falso.
1,92 %
13
Sin podar.
Falso.
Verdadero.
0,72 %
14
Utilizar Laplace.
Falso.
Verdadero.
15
Utilizar la corrección MDL.
Verdadero.
Falso.
Descripción Se realizó cada cambio de forma independiente, es decir, los restantes se mantenían con el valor por defecto. Durante la prueba se obtiene que la modificación de la opción divisiones binarias aumenta el rendimiento del modelo, entre tanto, las opciones reducir la poda de error, recaudación de sub árbol y sin podar, disminuyen el rendimiento. En consecuencia, para la siguiente prueba de la técnica J48 solo se modifica la opción que aporta rendimiento positivo al modelo.
78
Tabla 4.45. Prueba N° 6. Fase N° 4. Técnica OneR. Análisis con Weka N°
Valor por defecto
Opción
Cambio
Resultado
1
Depurar.
Falso.
Verdadero.
2
No verifica las capacidades.
Falso.
Verdadero.
3
Mínimo tamaño del cubo.
6
1
0,01 %
4
Mínimo tamaño del cubo.
6
12
0,05 %
Descripción Se realizó cada cambio de forma independiente, es decir, los restantes se mantenían con el valor por defecto. Durante la prueba se obtiene que la modificación de la opción mínimo tamaño del cubo, al valor de 1 aumenta el rendimiento del modelo, mientras que modificando la misma opción al valor de 12 disminuye el rendimiento del modelo. En consideración con lo expuesto, para la siguiente prueba de la técnica OneR solo se modifica la opción que aporta rendimiento positivo.
Optimizando los Modelos Encontrados. Luego de realizar las pruebas de la fase Nº 4, se procedió a modificar el conjunto de opciones que ofrecen mejores resultados a cada técnica, para determinar el total del rendimiento de cada modelo. Los resultados se detallan en la siguiente tabla.
79
Tabla 4.46. Resultados luego de las pruebas de la fase N° 4. N°
Técnica
Opción de prueba
1
J48
Conjunto entrenamiento.
Clasificación Clasificación correcta incorrecta 91,20 %
Estadística kappa
Error absoluto
Curva ROC
0,9006
17,43 %
0,997
8,80 %
N°
Técnica
Opción de prueba
2
OneR
Conjunto entrenamiento.
Clasificación Clasificación correcta incorrecta 91,08 %
8,92 %
Estadística kappa
Error absoluto
Curva ROC
0,8993
9,82 %
0,955
Gráficas Clasificación correcta
Estadística kappa
Conclusión Posterior del análisis de los modelos encontrados, se determina que las técnicas de minería de datos orientados a modelos predictivos J48 y OneR, aportan soluciones óptimas al problema. Siendo el modelo construido por la técnica árbol de decisión J48 el que mejor porcentaje presento para predecir en la investigación, se elige como modelo para desarrollar la herramienta informática.
80
Atendiendo las consideraciones anteriores, se establece positiva la hipótesis de la investigación, en consecuencia, si es posible obtener un modelo predictivo para la gestión de insumos y medicamentos, a partir de los datos históricos disponibles en la base de datos del sistema SAISYS del Hospital General de Táriba, mediante el uso de técnicas de minería de datos.
Tabla 4.47. Descripción del modelo predictivo definitivo encontrado. Técnica de minería de datos Clasificación Clasificación Estadística correcta incorrecta kappa 91,20 %
8,80 %
0,9006
Total positivos
Falsos positivos
Precisión
0,912
0,002
0,866
Variables empleadas Fuente: Software Weka.
J48 Error absoluto
Curva ROC
17,43 %
0,997
Sensibilidad Especificidad
stockMax, fecha, cantidad
0,912
0,998
81
4.6. Desarrollo de la Herramienta Informática para Consultar el Modelo Predictivo Encontrado El desarrollo de la herramienta informática se inició a partir de las reglas generadas por Weka a través del modelo predictivo J48 encontrado. Se construyeron dos librerías una de tipo JavaScript y otra de tipo PHP, se realizaron de esa forma para tener el modelo disponible en dos formatos, básicamente cada librería contiene una función que recibe como parámetros las variables stockMax y fecha, para luego aplicar las reglas del modelo y retornar el valor predictivo de la cantidad. Las librerías se sometieron a diferentes pruebas para confirmar la veracidad de sus resultados, después de comprobar que proporcionaban información 100% fidedigna, se aprobaron como aptas para la siguiente etapa del proceso. Finalmente utilizando la librería PHP del modelo J48 y empleando la metodología RAD (Desarrollo rápido de aplicaciones) se procedió a desarrollar en el lenguaje de programación PHP, la herramienta informática que consulta el modelo encontrado, y por consiguiente, apoya en la toma de decisiones para la gestión de insumos y medicamentos en el Hospital General de Táriba. La cual ofrece las características que se especifican en la siguiente tabla, posteriormente se presenta las figuras con las principales pantallas y reportes que genera la herramienta informática.
82
Tabla 4.48. Lista de cotejo. Descripción de la herramienta informática. UNIVERSIDAD NACIONAL EXPERIMENTAL DEL TÁCHIRA VICE-RECTORADO ACADÉMICO DECANATO DE POSTGRADO MAESTRÍA EN INFORMÁTICA
LISTA DE COTEJO Propósito: Evaluar la herramienta informática que consulta el modelo predictivo. Instrucciones: Marcar con un “
Si
” en la casilla que corresponda según el siguiente criterio:
La característica asociada al componente está presente en la herramienta informática.
Componente
Características
No
La característica asociada al componente no está presente en la herramienta informática.
Si
No
1.1. Usabilidad. 1. Interfaz web. 1.2. Intuitiva. 2.1. Individual. 2.2. Categorizada. 2. Predicciones. 2.3. General. 2.4. Generar documento. 3.1. Individual. 3. Estadísticas.
3.2. Por fecha. 3.3. Histogramas.
Observación general
La herramienta informática cumple con los requerimientos propuestos y soluciona la problemática planteada en la investigación.
83
Figura 4.7. Pantalla iniciar sesión.
84
Figura 4.8. Pantalla inicio de la herramienta informática.
85
Figura 4.9. Pantalla predecir individual.
86
Figura 4.10. Pantalla predecir categorizada.
87
Figura 4.11. Pantalla predecir general.
88
Figura 4.12. Pantalla estadística individual.
89
Figura 4.13. Pantalla estadística por fecha.
90
Figura 4.14. Pantalla estadística en histogramas.
91
Figura 4.15. Pantalla actualización de usuarios.
92
Figura 4.16. Reporte predicción de consumo mensual categorizada.
93
Figura 4.17. Reporte predicción de consumo mensual general.
94
Figura 4.18. Reporte estadística de consumo mensual.
CAPÍTULO V CONCLUSIONES Y RECOMENDACIONES 5.1. Conclusiones. El estudio se originó a través de una investigación proyectiva dentro del contexto de la inteligencia de negocios a través de la minería de datos, con el objetivo de construir un modelo predictivo para la gestión de insumos y medicamentos en el Hospital General de Táriba. Siguiendo el proceso KDD se realizó la selección, integración, preparación y transformación de los datos, selección y aplicación de algoritmos de minería de datos, interpretación y evaluación de los patrones encontrados. Las técnicas seleccionadas para realizar el análisis fueron las siguientes: Clustering, J48, JRip, Naïve Bayes, OneR, perceptrón multicapa y REPTree. Los requerimientos establecidos en la investigación para elegir un modelo como aprobado para la solución de la problemática planteada, se establecieron de la siguiente forma: Clasificación correcta superior al 75% y estadística kappa mayor al 0,75 de fuerza de concordancia. La investigación del modelo origino que la variable que mejor define la predicción de las cantidades de insumos y medicamentos, es la variable stockMax la cual contiene la máxima provisión de cada producto, sus valores son numéricos no continuos que fluctúan entre 0 y 36.000. La afirmación de mejor definición se fundamenta en el diagrama de dispersión (Figura 4.5.) y el coeficiente de correlación (Tabla 4.39.), donde la variable stockMax presenta la mejor relación entre variables. No obstante las demás variables independientes utilizadas como entrada, mejoran el rendimiento del modelo encontrado.
96
El proceso investigativo se realizó con una variable dependiente o de predicción (cantidad), la cual para las pruebas de las fases Nº 1, 2 y 3 se utilizó con valores discretos múltiplos de 5, y para las pruebas de la fase Nº 4 se empleó con valores discretos múltiplos de 2, con el objetivo de ofrecer mayor confiabilidad al modelo elegido para desarrollar la herramienta informática. Durante la investigación se determinó que el proceso de realizar la búsqueda y reemplazo de los valores con mayor dispersión de la variable cantidad, aporto el mejor resultado en el rendimiento de los modelos predictivos en cada técnica de minería de datos, con un aumento del 14,68% de la clasificación correcta en el modelo J48. Otra técnica que generó aporte positivo en los modelos consistió en la modificación de las opciones que ofrece Weka, para la técnica J48 generó un aumento en el rendimiento del modelo encontrado de 0,97%. Las técnicas de minería de datos orientados a modelos predictivos J48 y OneR, aportaron las soluciones más óptimas al problema, de todas las técnicas analizadas en la investigación. Siendo el modelo construido por la técnica árbol de decisión J48 el que mejor porcentaje presento para predecir, con una clasificación correcta de 91,20% y una estadística kappa 0,9006 de fuerza de concordancia, se eligió como modelo para desarrollar la herramienta informática. El desarrollo del estudio comprobó que por medio del software Weka, se pueden construir, probar y validar modelos de minería de datos de una manera rápida y confiable, a través de la amplia variedad de algoritmos y opciones de minería de datos que ofrece la mencionada herramienta. Contexto determinante en la obtención del modelo para la solución del problema de la presente investigación, y por consiguiente, establecer como positiva la hipótesis de la investigación. La herramienta informática producto del modelo encontrado, ofrece múltiples consultas y reportes predictivos que sirven de soporte para la toma de decisiones en cuanto a la gestión de los insumos y medicamentos en el Hospital General de Táriba.
97
La información generada por medio de la herramienta informática es en relación al patrón de consumo de las áreas de la institución, en consecuencia, sus principales logros son la optimización de los recursos y el bienestar social tanto para el hospital como para sus usuarios.
5.2. Recomendaciones. Se recomienda principalmente seguir tres líneas de acción, la primera línea consiste en realizar estudios para buscar nuevas variables, mientras tanto, la segunda línea de trabajo comprende efectuar pruebas con otras técnicas de minería de datos, por último, la tercera línea de acción está dirigida a emplear herramientas para el descubrimiento de conocimiento o proceso de minería de datos diferentes a Weka, como SQL Server Business Intelligence Development. Lo antes expuesto, se recomienda como trabajos futuros con el objetivo de realizar comparación de resultados o para mejorar el rendimiento del modelo encontrado en la presente investigación.
98
REFERENCIAS BIBLIOGRÁFICAS LIBROS Bernal T., César A. (2010). Metodología de la investigación. (3ra ed.). Colombia: Pearson Educación. Hernández S., Fernández C. y Baptista P. (2010). Metodología de la investigación. (5ta ed.). México: Mc Graw Hill. Tamayo y T., M. (2010). El proceso de la investigación científica. (4ta ed.). México: Limusa.
TRABAJOS ACADÉMICOS Trabajos de grado y tesis doctorales Sánchez R., J. (2010). Sistema web para diagnóstico de enfermedades prevalentes en la infancia mediante técnicas de minería de datos y aprendizaje automático. Universidad Nacional Experimental del Táchira, San Cristóbal.
Documentos y reportes técnicos Hospital General de Táriba. (2015). Manual Organizacional. Táriba. Autor.
Documentos de tipo legal Constitución de la República Bolivariana de Venezuela. (2000). Gaceta Oficial de la República Bolivariana de Venezuela No 5.453 (Extraordinaria). Marzo 24, 2000. Decreto Nº 1.399, con Rango, Valor y Fuerza de Ley de Contrataciones Públicas. (2014). Gaceta Oficial de la República Bolivariana de Venezuela Nº 6.154 (Extraordinaria). Noviembre 19, 2014. Decreto Nº 1.798. (1983). Gaceta Oficial de la República de Venezuela Nº 32.650. Enero 21, 1983.
99
Ley de Infogobierno. (2013). Gaceta Oficial de la República Bolivariana de Venezuela No 40.274. Octubre 17, 2013. Ley Orgánica de la Administración Pública. Decreto N° 6.217. (2008). Gaceta Oficial de la República Bolivariana de Venezuela No 5.890 (Extraordinaria). Julio 31, 2008.
FUENTES ELECTRÓNICAS Tesis en línea Aldas, L. (2013). Sistema web para el control de facturación e inventario de medicamentos y bienes en el Hospital Regional Docente Ambato. Universidad Técnica de Ambato, Ecuador. Consultada el 18 de noviembre de 2014 en: http://repo.uta.edu.ec/bitstream/handle/123456789/6249/Tesis_t853si.pdf?seque nce=1 Arias, J. (2012). Diseño y construcción de un data mart para el filtro de opiniones en la web a partir de datos originados en el portal educar Chile. Universidad de Chile, Santiago de Chile. Consultada el 26 de noviembre de 2014 en: http://tesis.uchile.cl/bitstream/handle/2250/111296/cf-arias_jc.pdf?sequence=1 Bayter, A. (2008). Mejoramiento en la gestión de compras e inventario de medicamentos y dispositivos médicos en la Clínica Prevención y Salud IPS LTDA, en el Banco Magdalena. Universidad Industrial de Santander, Bucaramanga Colombia. Consultada el 18 de noviembre de 2015 en: http://www.ddic.com.mx/investigacion/wpcontent/uploads/2013/10/busatamante2008tesis.pdf Corso, C. (2009). Aplicación de algoritmos de clasificación supervisada usando Weka. Universidad Tecnológica Nacional, Facultad Regional Córdoba. Argentina. Consultada el 7 de marzo de 2016 en: http://www.investigacion.frc.utn.edu.ar/labsis/Publicaciones/congresos_labsis/cy nthia/CNIT_2009_Aplicacion_Algoritmos_Weka.pdf Gonzales, R. (2012). Impactó de la data warehouse e inteligencia de negocios en el desempeño de las empresas: investigación empírica en Perú, como país en vías de desarrollo. Universitat Ramón Llull. Consultada el 25 de noviembre de 2014 en:
100
http://www.tesisenred.net/bitstream/handle/10803/85876/GONZALES_Tesis Doctoral_FV.pdf?sequence=1 Guillén, F. (2012). Desarrollo de un datamart para mejorar la toma de decisiones en el área de tesorería de la Municipalidad Provincial de Cajamarca. Universidad Privada del Norte, Perú. Consultada el 14 de enero de 2015 en: http://repositorio.upn.edu.pe/handle/upnorte/123 Martínez, C. (2012). Aplicación de técnicas de minería de datos para mejorar el proceso de control de gestión en Entel. Universidad de Chile, Santiago de Chile. Consultada el 14 de enero de 2015 en: http://www.tesis.uchile.cl/bitstream/handle/2250/112065/cfmartinez_ca.pdf?sequence=1 Recasens, J. (2011). Inteligencia de negocios y automatización en la gestión de puntos y fuerza de ventas en una empresa de tecnología. Universidad de Chile, Santiago de Chile. Consultada el 25 de noviembre de 2014 en: http://www.tesis.uchile.cl/tesis/uchile/2011/cf-recasens_js/html/indexframes.html Vielma, I. (2013). Mejoramiento de la gestión de insumos de pabellón del Hospital Exequiel González Cortés. Universidad de Chile, Santiago de Chile. Consultada el 20 de enero de 2015 en: file:///C:/Documents and Settings/Almac%C3%A9n/Mis documentos/Downloads/cf-vielma_ig.pdf
Artículo de revista electrónica Hernández, M. (2011). Procedimiento para el desarrollo de un sistema de inteligencia de negocios en la gestión de ensayos clínicos en el Centro de Inmunología Molecular. ACIMED, 22(4), 349–361. Consultada el 18 de noviembre de 2014 en: http://scielo.sld.cu/scielo.php?script=sci_arttext&pid=S102494352011000400006 Hernández, T. (2010). Acciones sobre los determinantes sociales de la salud en Venezuela. Revista Cubana de Salud Pública, 36(4), 366–371. Consultada el 10 de agosto de 2015 en: http://scielo.sld.cu/pdf/rcsp/v36n4/spu13410.pdf Landis, J. Koch, G. (1977). The measurement of observer agreement for categorical data. Biometrics, 33(1), 159-174. Consultada el 28 de marzo de 2015 en: http://www.jstor.org/stable/2529310
101
Rodríguez, Y., y Díaz, A. (2009). Herramientas de minería de datos. Revista Cubana de Ciencias Informáticas, 3(3), 73–80. Consultada el 20 de enero de 2015 en: https://rcci.uci.cu/index.php/rcci/article/view/78/70 Soria, J., y Mamani, G. (2013). Modelo de simulación de inventario basado en redes neuronales artificiales supervisadas y algoritmos genéticos para optimizar el stock de medicamentos de la Clínica Ricardo Palma. INGETECNO, 2(1). Consultada el 15 de enero de 2015 en: file:///C:/Documents and Settings/Almac%C3%A9n/Mis documentos/Downloads/176-552-1-PB (2).pdf
102
ANEXOS 1. Clasificación de los listados por tipo de producto.
Ítem
Descripción
1
Material médico.
2
Medicamentos.
3
Insumos para laboratorio.
4
Insumos para odontología.
5
Insumos para radiología.
6
Insumos para nutrición y dietética.
7
Útiles de escritorio y oficina.
8
Materiales para mantenimiento y usos generales.
9
Insumos para limpieza y aseo.
10
Instrumental.
103
2. Sistema Actual SAISYS.
104
3. Estructura de la Base de Datos Actual.
Tabla maestro. Id
Nombre
Descripción
Observaciones
1
CODIMAE
Código del artículo.
2
DESCRIP
Descripción del artículo.
3
REFEREN
Referencia.
4
DEPARTA
Departamento.
5
UNIDAD
Presentación.
6
CANTUNI
Cantidad por unidad.
7
EXISTE
Existencia.
8
PVP1
Precio1.
Ultimo costo.
9
PVP2
Precio2.
Ultimo costo.
10
PVP3
Precio3.
No tiene datos.
11
PVP4
Precio4.
No tiene datos.
12
COSTO
Costo.
13
ULTICOST
Ultimo costo.
14
STOCK
Mínima provisión.
15
FVENTA
Fecha de venta.
16
FCOMPRA
Fecha de compra.
17
PROVEE1
Proveeedor1.
No tiene datos.
18
PROVEE2
Proveeedor2.
No tiene datos.
Mayoría tiene “001”
Todos tiene “1”
105
19
UBICA
Ubicación.
No tiene datos.
20
AUDITO
Auditoria.
21
STATUS
Status.
22
EXISINIC
Existencia inicial.
23
FECHINIC
Fecha inicial.
24
IVA
Impuesto.
25
LABORAB
Laboratorio.
No tiene datos.
26
PESOB
Peso.
No tiene datos.
27
CODIREP
Código del repuesto.
No tiene datos.
28
REEMPLA1
Reemplazo 1.
No tiene datos.
29
REEMPLA2
Reemplazo 2.
No tiene datos.
30
GRUPO
Grupo.
31
MARCA_REP
Marce del repuesto.
No tiene datos.
32
MARCA_VEH
Marca del vehículo.
No tiene datos.
33
MODELO_VEH
Modelo del vehículo.
No tiene datos.
34
MOTOR
Motor de vehículo.
No tiene datos.
35
FACTCOMP
Factura de compra.
No tiene datos.
36
STOCKMA
Máxima provisión.
37
VENCIMI
Vencimiento.
No tiene datos.
38
CODICONT
Código continúo.
No tiene datos.
Todos tienen “1” No tiene datos.
106
Tabla transaccional. Id
Nombre
Descripción
1
CORRGENE
Correlativo generado.
2
STATTRAN
Estatus de la transacción.
3
TIPOTRAN
Tipo de transacción.
4
CODITRAN
Código de la transacción.
5
STATBUSQ
Estatus de búsqueda.
6
FECHTRAN
Fecha de la transacción.
7
CANTTRAN
Cantidad de la transacción.
8
PVP_TRAN
Precio de venta al público de la
Observaciones
Blanco – 1 – 2 1-2-9 Código del producto. No tiene datos.
Costo.
transacción. 9
COSTTRAN
Costo de la transacción.
CANTTRAN x PVP_TRAN
10
COPRTRAN
Costo promedio de la transacción.
COSTTRAN / CANTTRAN
11
DESCTRAN
Descuento de la transacción.
No tiene datos.
12
EXISTRAN
Existencia del artículo.
13
CORRFACT
Correlativo de la factura.
14
NOENTRAN
Número de entrada.
15
FACTTRAN
Factura de la transacción.
16
NUMETRAN
Número de la transacción.
17
CODIVEND
Código del vendedor.
18
CODICLIE
Código del cliente.
No tiene datos.
Blanco – Código del servicio de destino. No tiene datos.
107
19
IMPUTRAN
Imputación de la transacción.
20
ISV_TRAN
IVA de la transacción.
21
CODIDESP
Código de despacho.
No tiene datos.
22
VENCIMI
Vencimiento del producto.
No tiene datos.
108
4. Solicitud de Compra Actual.
Pág. 1/1
SOLICITUD DE MEDICAMENTOS Solicitud Nº 15-015
Nº
CANT.
UNIDAD CÓDIGO
Fecha 29/05/2015
DESCRIPCIÓN Y ESPECIFICACIONES
1
150 AMP.
22.011
ACIDO FÓLICO I.V.
2
50 Gfa.
20.013
ALCOHOL ISOPROPILICO 70%
3
300 AMP.
20.338
AMINOFILINA 10 ml.
4
3.000 AMP.
20.451
AMPICILINA SULBACTAN 1,5 gr.
5
500 AMP.
20.042
ANTIESPASMÓDICO 20 mg / ml.
6
400 AMP.
20.268
ATROPINA 0,5 mg
7
100 AMP.
20.015
BETAMENTASONA 4 mg.
8
50 AMP.
20.395
BROMHEXINA 2ml.
9
50 FCO.
20.299
BROMURO DE IPATROPIO 30 ml. GOTAS
10
300 AMP.
20.540
CEFACIDAL 1 gr.
11
400 AMP.
20.062
CEFALOTINA 1 gr.
12
200 AMP.
20.318
CEFOTAXIMA 1 gr.
13
300 AMP.
20.370
CICLOKAPRON 500mg.
14
400 AMP.
20.679
CIPROFLOXACINA 100 mg.
15
100 FCO.
20.359
CLORURO DE POTASIO 7,5% 100 ml.
16
300 AMP.
20.305
DEXAMETASONA 4 mg 2 ml.
17
2.000 AMP.
20.276
KETOPROFENO I.V.
18
300 AMP.
21.074
TIOCOLCHICOCIDO I.V.
I.V I.M.