Modelo predictivo para la toma de decisiones en la gestión de insumos y medicamentos para el Hospital General de Táriba

Universidad Nacional Experimental del Táchira Vice-Rectorado Académico Decanato de Postgrado Maestría en Informática Trabajo de Grado

Modelo predictivo para la toma de decisiones en la gestión de insumos y medicamentos para el Hospital General de Táriba

Autor: Zambrano Rodríguez, Hernán Alfonso. Cédula de Identidad: V-21.766.033 Teléfono: 0414-7534883 Correo Electrónico: [email protected] Tutor: Molina Monsalve, Marcel Mauricio. Correo Electrónico: [email protected] Trabajo de Grado, presentado como requisito para optar al Título de Magíster en Informática.

San Cristóbal, Junio de 2.016

ii

DEDICATORIA A mi madre María Gladys Rodríguez de Zambrano, por sus años de lucha, su infinito amor, sus sabios consejos. Mis logros en la vida se los debo a mi madre, siempre vivirás en mi mente y corazón.

Te Amo Mamá.

iii

RECONOCIMIENTOS A Dios, por sus eternas bendiciones. A mi padre Pablo Alfonso Zambrano Cuervo, por ser un excelente ser humano. A mis hijas Heliany Yineth y María Fernanda, por representar los amores de mi vida. A mi tutor MSc. Marcel Molina, por su apoyo y orientación. Al Hospital General de Táriba, por su significativa colaboración. A la Universidad Nacional Experimental del Táchira (UNET). En especial a los profesores que me impartieron clases, por su extraordinario profesionalismo.

iv

Universidad Nacional Experimental Del Táchira Vice-Rectorado Académico Decanato de Postgrado Maestría en Informática Modelo predictivo para la toma de decisiones en la gestión de insumos y medicamentos para el Hospital General de Táriba Autor: Zambrano Rodríguez Hernán Alfonso. Tutor: Molina Monsalve Marcel Mauricio. Fecha: Junio 2.016

RESUMEN El presente estudio se desarrolló en el Hospital General de Táriba ubicado en el Estado Táchira – Venezuela, donde el departamento de almacén no cuenta con un sistema de información predictivo que le brinde estadísticas y proyecciones de los insumos y medicamentos, información necesaria para la toma de decisiones, principalmente en la cantidad de insumos y medicamentos que correspondían adquirir. Partiendo de la necesidad en la institución, se propuso desarrollar un modelo predictivo para la toma de decisiones en la gestión de insumos y medicamentos, cuya propuesta representó el objetivo general de esta investigación. Con la finalidad de lograr lo planteado, el estudio se centró en la inteligencia de negocios y la minería de datos, desarrollando la investigación de acuerdo con la metodología: KDD (Descubrimiento de conocimiento en bases de datos - Knowledge Discovery in Databases). Se empleó como herramienta para el proceso de minería de datos Weka (Entorno para análisis del conocimiento de la Universidad de Waikato - Waikato Environment for Knowledge Analysis) para extraer conocimiento desde la base de datos del sistema transaccional SAISYS, y el desarrollo de la herramienta informática se ejecutó con la metodología RAD (Desarrollo rápido de aplicaciones). Como resultado de la investigación, se determinó que el modelo encontrado permitirá realizar las gestiones pertinentes de los insumos y medicamentos, a través de consultas y reportes de forma eficiente y eficaz que apoyan la toma las decisiones. Palabras clave: Inteligencia de negocios, minería de datos, modelos predictivos, weka. v

ÍNDICE Pág. Dedicatoria ................................................................................................................... iii Reconocimientos .......................................................................................................... iv Resumen ........................................................................................................................ v Índice ............................................................................................................................ vi Lista de tablas ............................................................................................................... xi Lista de figuras ........................................................................................................... xiii Lista de abreviaturas .................................................................................................. xiv Introducción ................................................................................................................ xv

CAPÍTULO I EL PROBLEMA 1.1. Planteamiento del Problema. .............................................................................. 1 1.2. Formulación del Problema. ................................................................................ 3 1.3. Hipótesis. ............................................................................................................ 4 1.4. Objetivos. ........................................................................................................... 5 Objetivo General. ................................................................................................... 5 Objetivos Específicos. ........................................................................................... 5 1.5. Justificación. ....................................................................................................... 5 1.6. Alcance. .............................................................................................................. 6

vi

CAPÍTULO II MARCO TEÓRICO 2.1. Antecedentes de la Investigación. ...................................................................... 8 2.2. Bases Teóricas. ................................................................................................. 11 2.2.1. Inteligencia de Negocios - Business Intelligence (BI)............................... 11 2.2.2. Minería de Datos - Data Mining (DM). ..................................................... 12 2.2.3. Gestión de Inventarios. .............................................................................. 13 2.2.4. Proceso KDD. ............................................................................................ 15 2.3. Aspectos Legales. ............................................................................................. 17 2.3.1. Constitución de la República Bolivariana de Venezuela. (2000). Artículo 83. ........................................................................................................................ 17 2.3.2. Ley Orgánica de la Administración Pública. (2008). Artículo Nº 6. ......... 18 2.3.3. Ley de Infogobierno. (2013). Artículo Nº 34. ........................................... 18 2.3.4. Decreto Nº 1.399, con Rango, Valor y Fuerza de Ley de Contrataciones Públicas. (2014). Artículo Nº 1. ........................................................................... 18 2.4. Definición de Términos. ................................................................................... 19 2.4.1. Toma de Decisiones. .................................................................................. 19 2.4.2. Sistema Operacional o Transaccional. ....................................................... 19 2.4.3. Sistema de Información Gerencial. ............................................................ 20 2.4.4. Software Libre. .......................................................................................... 20 2.4.5. Base de Datos............................................................................................. 20 2.4.6. Repositorio de Información. ...................................................................... 21 2.4.7. MySQL. ..................................................................................................... 21 2.4.8. PHP. ........................................................................................................... 21 vii

2.4.9. Proceso ETL. ............................................................................................. 22 2.4.10. Weka. ....................................................................................................... 22 2.5. Sistema de Variables y Operacionalización. .................................................... 23

CAPÍTULO III MARCO METODOLÓGICO 3.1. Contexto de la Investigación. ........................................................................... 26 3.2. Nivel de Investigación. ..................................................................................... 26 3.3. Diseño de la Investigación. .............................................................................. 27 3.4. Población. ......................................................................................................... 27 3.5. Técnicas e Instrumentos de Recolección de Datos........................................... 28 Análisis de Contenido. ......................................................................................... 28 La Observación. ................................................................................................... 28 3.6. Validez y Confiabilidad.................................................................................... 29 3.7. Técnicas de Procesamiento y Análisis de Datos. ............................................. 30

CAPÍTULO IV ANÁLISIS E INTERPRETACIÓN DE RESULTADOS 4.1. Selección e Integración de los Datos. ............................................................... 32 4.2. Preparación de los Datos. ................................................................................. 32 4.3. Transformación. ............................................................................................... 34 Descripción de las Variables No Nominales Seleccionadas. ............................... 35 Descripción de las Variables Nominales Seleccionadas...................................... 36 4.4. Selección y Aplicación de Algoritmos de Minería de Datos. .......................... 39 viii

Factores Determinantes en la Selección de las Técnicas de Minería de Datos. .. 39 Breve Descripción de los Modelos Seleccionados. ............................................. 41 Preprocesamiento con Weka. ............................................................................... 42 Opciones de Prueba Realizadas a cada Técnica Seleccionada. ........................... 42 Criterios a Evaluar. .............................................................................................. 43 Pruebas Realizadas a las Técnicas Seleccionadas. .............................................. 45 4.5. Interpretación y Evaluación de los Patrones Encontrados. .............................. 68 Relación de las Variables. .................................................................................... 68 Análisis de los Diagramas de Dispersión y el Coeficiente de Correlación. ........ 72 Optimizando los Modelos Encontrados. .............................................................. 78 4.6. Desarrollo de la Herramienta Informática para Consultar el Modelo Predictivo Encontrado............................................................................................................... 81

CAPÍTULO V CONCLUSIONES Y RECOMENDACIONES 5.1. Conclusiones. ................................................................................................... 95 5.2. Recomendaciones. ............................................................................................ 97

REFERENCIAS BIBLIOGRÁFICAS LIBROS ................................................................................................................... 98 TRABAJOS ACADÉMICOS ................................................................................. 98 Trabajos de grado y tesis doctorales .................................................................... 98 Documentos y reportes técnicos .......................................................................... 98 Documentos de tipo legal .................................................................................... 98 ix

FUENTES ELECTRÓNICAS ................................................................................ 99 Tesis en línea ....................................................................................................... 99 Artículo de revista electrónica ........................................................................... 100

ANEXOS 1. Clasificación de los listados por tipo de producto. ............................................ 102 2. Sistema Actual SAISYS. ................................................................................... 103 3. Estructura de la Base de Datos Actual. ............................................................. 104 4. Solicitud de Compra Actual. ............................................................................. 108

x

LISTA DE TABLAS Pág. Tabla 2.1. Operacionalización de variables. ............................................................... 24 Tabla 3.1. Sistemas de información utilizados............................................................ 31 Tabla 4.1. Simbología empleada en el capítulo. ......................................................... 32 Tabla 4.2. Matriz análisis de la base de datos de SAISYS. ........................................ 33 Tabla 4.3. Selección de las variables de estudio. ........................................................ 34 Tabla 4.4. Variable código del departamento por productos (dpto). .......................... 36 Tabla 4.5. Variable prioridad de adquisición (prioridad). ........................................... 36 Tabla 4.6. Variable necesidad de refrigeración (refrigerado). .................................... 37 Tabla 4.7. Variable restricciones en almacenaje (almacenaje). .................................. 37 Tabla 4.8. Variable estatus del registro (estatus). ....................................................... 37 Tabla 4.9. Variable código del servicio destinatario (servicio). ................................. 37 Tabla 4.10. Evaluación para determinar el tipo de rango. .......................................... 39 Tabla 4.11. Matriz selección de técnicas de minería de datos orientadas a modelos predictivos. .................................................................................................................. 40 Tabla 4.12. Valoración estadística kappa. ................................................................... 44 Tabla 4.13. Variables de entrada para las pruebas de la fase N° 1. ............................ 46 Tabla 4.14. Prueba N° 1. Fase N° 1. Técnica clustering. ............................................ 46 Tabla 4.15. Prueba N° 2. Fase N° 1. Técnica J48. ...................................................... 47 Tabla 4.16. Prueba N° 3. Fase N° 1. Técnica JRip. .................................................... 48 Tabla 4.17. Prueba N° 4. Fase N° 1. Técnica Naïve Bayes ........................................ 49 Tabla 4.18. Prueba N° 5. Fase N° 1. Técnica OneR. .................................................. 50 Tabla 4.19. Prueba N° 6. Fase N° 1. Técnica perceptrón multicapa. .......................... 51 Tabla 4.20. Prueba N° 7. Fase N° 1. Técnica REPTree. ............................................. 52 Tabla 4.21. Variables de entrada para las pruebas de la fase N° 2. ............................ 53 Tabla 4.22. Prueba N° 1. Fase N° 2. Técnica clustering. ............................................ 53 Tabla 4.23. Prueba N° 2. Fase N° 2. Técnica J48. ...................................................... 54

xi

Tabla 4.24. Prueba N° 3. Fase N° 2. Técnica JRip. .................................................... 55 Tabla 4.25. Prueba N° 4. Fase N° 2. Técnica Naïve Bayes ........................................ 56 Tabla 4.26. Prueba N° 5. Fase N° 2. Técnica OneR. .................................................. 57 Tabla 4.27. Prueba N° 6. Fase N° 2. Técnica perceptrón multicapa. .......................... 58 Tabla 4.28. Prueba N° 7. Fase N° 2. Técnica REPTree. ............................................. 59 Tabla 4.29. Variables de entrada para las pruebas de la fase N° 3. ............................ 60 Tabla 4.30. Prueba N° 1. Fase N° 3. Técnica clustering. ............................................ 60 Tabla 4.31. Prueba N° 2. Fase N° 3. Técnica J48. ...................................................... 61 Tabla 4.32. Prueba N° 3. Fase N° 3. Técnica JRip. .................................................... 62 Tabla 4.33. Prueba N° 4. Fase N° 3. Técnica Naïve Bayes ........................................ 63 Tabla 4.34. Prueba N° 5. Fase N° 3. Técnica OneR. .................................................. 64 Tabla 4.35. Prueba N° 6. Fase N° 3. Técnica perceptrón multicapa. .......................... 65 Tabla 4.36. Prueba N° 7. Fase N° 3. Técnica REPTree. ............................................. 66 Tabla 4.37. Matriz pruebas de validación a las técnicas seleccionadas. ..................... 67 Tabla 4.38. Relación entre los modelos encontrados. ................................................. 68 Tabla 4.39. Coeficiente de correlación entre las variables.......................................... 72 Tabla 4.40. Prueba Nº 1. Fase Nº 4. ............................................................................ 74 Tabla 4.41. Prueba N° 2. Fase N° 4. ........................................................................... 74 Tabla 4.42. Prueba N° 3. Fase N° 4. ........................................................................... 75 Tabla 4.43. Prueba N° 4. Fase N° 4. ........................................................................... 75 Tabla 4.44. Prueba N° 5. Fase N° 4. Técnica J48. ...................................................... 76 Tabla 4.45. Prueba N° 6. Fase N° 4. Técnica OneR. .................................................. 78 Tabla 4.46. Resultados luego de las pruebas de la fase N° 4. ..................................... 79 Tabla 4.47. Descripción del modelo predictivo definitivo encontrado. ...................... 80 Tabla 4.48. Lista de cotejo. Descripción de la herramienta informática. .................... 82

xii

LISTA DE FIGURAS Pág. Figura 2.1. Ilustración de un sistema de inteligencia de negocios. ............................. 12 Figura 2.2. Fases de la gestión de inventarios hospitalarios. ...................................... 14 Figura 2.3. Etapas del proceso KDD. .......................................................................... 16 Figura 3.1. Procedimiento para el análisis de los datos. ............................................. 30 Figura 4.1. Diagrama de dispersión, X = codigo, Y = cantidad. ................................. 69 Figura 4.2. Diagrama de dispersión, X = dpto, Y = cantidad. .................................... 69 Figura 4.3. Diagrama de dispersión, X = costo, Y = cantidad. ................................... 70 Figura 4.4. Diagrama de dispersión, X = stockMin, Y = cantidad. ............................ 70 Figura 4.5. Diagrama de dispersión, X = stockMax, Y = cantidad. ............................ 71 Figura 4.6. Diagrama de dispersión, X = prioridad, Y = cantidad. ............................. 71 Figura 4.7. Pantalla iniciar sesión. .............................................................................. 83 Figura 4.8. Pantalla inicio de la herramienta informática. .......................................... 84 Figura 4.9. Pantalla predecir individual. ..................................................................... 85 Figura 4.10. Pantalla predecir categorizada. ............................................................... 86 Figura 4.11. Pantalla predecir general......................................................................... 87 Figura 4.12. Pantalla estadística individual. ............................................................... 88 Figura 4.13. Pantalla estadística por fecha. ................................................................. 89 Figura 4.14. Pantalla estadística en histogramas. ........................................................ 90 Figura 4.15. Pantalla actualización de usuarios. ......................................................... 91 Figura 4.16. Reporte predicción de consumo mensual categorizada. ......................... 92 Figura 4.17. Reporte predicción de consumo mensual general. ................................. 93 Figura 4.18. Reporte estadística de consumo mensual. .............................................. 94

xiii

LISTA DE ABREVIATURAS BI

Inteligencia de Negocios (Business Intelligence).

BPM

Gestión de Procesos de Negocios (Business Process Management).

DBF

Archivo de base de datos (Data Base File)

DM

Minería de Datos (Data Mining).

ETL

Extracción, Transformación y Cargar (Extract, Transform and Load).

GPL

Licencia Pública General.

KDD

Descubrimiento de Conocimiento en Bases de Datos (Knowledge Discovery in Databases).

MSDOS

Sistema Operativo de Disco de Microsoft (Microsoft Disk Operating System).

MySQL

Lenguaje de Consulta Estructurado (My Structured Query Language).

PEPS

Primero en Entrar Primero en Salir.

PHP

Procesador de Hipertexto (Hypertext Preprocessor).

RAD

Desarrollo Rápido de Aplicaciones.

SAISYS

Sistema Administrativo e Inventario.

WEKA

Entorno para Análisis del Conocimiento de la Universidad de Waikato (Waikato Environment for Knowledge Analysis).

xiv

INTRODUCCIÓN

La inteligencia de negocios en la actualidad se presenta como una herramienta indispensable para las organizaciones que quieran estar en la vanguardia que requiere la sociedad. La inteligencia de negocios permite a través de su diversidad de instrumentos y técnicas analizar los datos fundamentales de la empresa y emplearlos en la generación de conocimiento, para mejorar la toma de decisiones y la planificación estratégica. En relación con lo anteriormente expuesto, la presente investigación comprende el desarrollo de la inteligencia de negocios, y por medio de uno de sus principales instrumentos como lo es la minería de datos, buscar un modelo predictivo que permita construir una herramienta informática para la gestión de insumos y medicamentos en el Hospital General de Táriba. En el marco del problema, surge como necesidad desarrollar una herramienta informática fundamentada por un modelo predictivo, que permita el soporte en la toma de decisiones para la gestión de insumos y medicamentos, primordialmente en la cantidades que se deben adquirir, con el objetivo de optimizar los recursos y lograr bienestar social. La presente investigación tiene un nivel de conocimiento de tipo proyectiva, en virtud que tiene como propósito la elaboración de una propuesta o modelo como solución a un problema o necesidad de tipo práctico. De igual forma, es una investigación mixta, donde participan elementos de la investigación documental e investigación de campo, entre los elementos empleados destacan los siguientes: Libros, tesis, trabajos de grado, decretos, artículos científicos, documentos digitalizados, análisis de contenido y la observación. El proyecto inicia con el capítulo I, el cual describe el planteamiento, formulación del problema, hipótesis, objetivos de la investigación, la justificación y xv

el alcance. El capítulo II, presenta los antecedentes de la investigación, las bases teóricas, los aspectos legales, la definición de términos, por último, el sistema de variables y operacionalización. En el capítulo III, se indican el contexto, nivel y diseño de la investigación, de igual manera en el este apartado, se define la población objeto de estudio, las técnicas e instrumentos de recolección de datos, la validez y confiabilidad, para cerrar el capítulo, se establecen las técnicas de procesamiento y análisis de datos. El capítulo IV, comprende el análisis e interpretación de resultados, desarrollado a través de los siguientes procesos: Selección e integración de datos, preparación de los datos, transformación, selección y aplicación de algoritmos de minería de datos, interpretación y evaluación de los patrones encontrados, para finalizar con, el desarrollo de la herramienta informática para consultar el modelo predictivo encontrado. En el capítulo V, se presentan las conclusiones y recomendaciones de la investigación.

xvi

CAPÍTULO I EL PROBLEMA

1.1. Planteamiento del Problema. En la actualidad la inteligencia de negocios, entendida según Recasens (2011) como el conjunto de tecnologías que permiten interactuar con una diversidad de datos, para ofrecer a los gerentes información relevante para mejorar el rendimiento de la empresa. En tal sentido, la inteligencia de negocios constituye un área de conocimiento importante en la organización debido que aporta estrategias para la eficiente y eficaz gestión de las organizaciones. Los sistemas de información gerencial basados en inteligencia de negocios se han convertido en factor fundamental en los logros empresariales. De acuerdo con Martínez (2012) los mismos apoyan a la empresa en decisiones de alto nivel, gestionando los procesos de negocio al satisfacer las necesidades de información de la organización. Dentro de los sistemas de información gerencial, existen los basados en modelos predictivos, los cuales constituyen la búsqueda del conocimiento en los datos históricos relevantes, para pronosticar situaciones futuras (Bayter, 2008). Las sociedades evolucionan a través del avance de una serie de elementos, entre los cuales se encuentra la salud. En Venezuela desde el año de 1.911 se emprendió un proceso que sentó las bases con la finalidad de construir y preservar un sistema de salud integral. A través de lo que en la actualidad es el Ministerio del Poder Popular para la Salud MPPS. Según Hernández (2010) en la constitución de 1.999 se impulsaron políticas para disminuir los determinantes sociales con la intención de reducir las desigualdades, con base a principios de equidad y justicia social.

2

Bajo el marco de referencia expuesto, en Venezuela existen un sistema de salud pública con hospitales tipo I, II, III y IV, que tienen sus propias características según la capacidad de los servicios que presta y la población servida (Decreto Nº 1798, 1983). De acuerdo con esta clasificación el Hospital General de Táriba, es tipo II, el cual tiene como misión: Prestar servicios de promoción, prevención y recuperación de enfermedades en el área de la salud a la comunidad del Municipio Cárdenas y sus adyacencias, teniendo como prioridad el respeto, humanización, ética y calidad en la prestación de cada uno de nuestros servicios, garantizando una docencia y capacitación de alto nivel, contando con talento humano altamente capacitado y comprometido en prestar un servicio eficiente e idóneo en todas las áreas funcionales del Hospital (Hospital General de Táriba, 2015, p. 19). Durante los últimos años este centro dispensador de salud ha crecido notablemente, en su organización y por ende en la cantidad en cuanto a la atención de pacientes. En las diferentes áreas que conforman la organización existe un gran número de necesidades de automatización y optimización de procesos, que requieren adaptarse a la evolución que ha tenido la institución. Dentro de la perspectiva antes mencionada y de acuerdo con la experiencia laboral del autor de esta investigación que es funcionario del Hospital General de Táriba, la institución requiere de manera fundamental la incorporación de nuevas tecnológicas a fin de poder marchar dentro del tipo de desarrollo que tiene trazado, caso específico el departamento de almacén, donde entre otras actividades se realizan las solicitudes de compras para la adquisición de insumos y medicamentos necesarios para el funcionamiento del hospital. Las solicitudes de compra son listados realizados por tipo de producto, (Ver Anexo 1). Las mencionadas solicitudes también llamadas fallas contienen entre otros datos, la cantidad solicitada y la descripción del insumo o medicamento requerido, principal información para su elaboración, y la misma se obtiene de forma manual desde un sistema de inventario llamado Sistema Administrativo e Inventario

3

SAISYS, el cual está realizado en el lenguaje de programación clipper, con el sistema operativo de disco de Microsoft MSDOS (Ver Anexo 2). El actual sistema procesa la información de primer nivel como son: compras (entradas), consumos (salidas), posee una base de datos (Ver Anexo 3) con registros desde enero de 2.010 hasta diciembre de 2.015. Pero el mencionado software no presta todas las funcionalidades de un sistema de información requeridas por el departamento, entre las que destacan estadísticas, proyecciones y principalmente el estimado que se debe adquirir por cada insumo o medicamento. La otra parte de la información para elaborar las solicitudes de compras las aporta el supervisor de almacén de manera empírica, de acuerdo con sus conocimientos por los años de experiencia en el cargo, situación que no brinda estabilidad al proceso debido que el mismo está dependiendo de una sola persona y no está fundamentado en patrones de consumo y estadísticas. En la actualidad el procedimiento para realizar las solicitudes es de la siguiente forma: El supervisor de almacén utilizando una hoja de cálculo (Excel, Calc) donde están separadas las solicitudes por tipo de producto, y siguiendo el orden de los artículos registrados por cada tipo, procede a consultar en el sistema SAISYS la existencia de ese artículo, para luego de acuerdo con su experiencia colocar la cantidad a solicitar por cada producto en la hoja de cálculo. Y así elabora la solicitud de fallas (Ver Anexo 4), siguiendo lo pautado en el Decreto Nº 1.399, con Rango, Valor y Fuerza de Ley de Contrataciones Públicas del estado venezolano.

1.2. Formulación del Problema. Actualmente en el Hospital General de Táriba las solicitudes de compras o fallas de insumos y medicamentos se realizan de forma manual, lo que origina un proceso lento, tedioso, produciendo solicitudes con información poco veraz e inconsistente, lo que trae como consecuencia la adquisición de insumos y

4

medicamentos, sin seguir un patrón de consumo por parte de las áreas del hospital, causando en ocasiones desabastecimiento en algunos rubros y sobreabastecimiento en otros. En el mismo sentido el departamento de almacén no cuenta con un sistema de información predictivo que le brinde estadísticas y proyecciones de los insumos y medicamentos, información necesaria para la toma de decisiones, principalmente en la cantidad de insumos y medicamentos que se deben adquirir. De acuerdo con lo anterior, surge la siguiente interrogante ¿Es necesario realizar un modelo predictivo que proporcione la información necesaria para la toma de decisiones en la gestión de insumos y medicamentos?, a partir de lo anterior, se formulan las siguientes sub interrogantes: ¿Cómo se obtendrán los datos necesarios para generar la información que servirá en la toma de decisiones?, ¿Cuál técnica será la más idónea para encontrar patrones en los datos?, y ¿Qué información será necesaria para la toma de decisiones?. Partiendo de la necesidad que existe actualmente en la institución y tomando en consideración lo que puede llegar a proporcionar la propuesta planteada en cuanto a optimizar las solicitudes de compras en el Hospital General de Táriba, surge la necesidad de desarrollar un modelo predictivo que genere la información requerida para la toma de decisiones, primordialmente la solución tecnológica debe predecir la cantidad de insumos y medicamentos que se deben adquirir para un tiempo determinado.

1.3. Hipótesis. Es posible obtener un modelo predictivo para la gestión de insumos y medicamentos, a partir de los datos históricos disponibles en la base de datos del sistema SAISYS del Hospital General de Táriba, mediante el uso de técnicas de minería de datos.

5

1.4. Objetivos.

Objetivo General. Implementar un modelo predictivo para la toma de decisiones en la gestión de insumos y medicamentos para el Hospital General de Táriba.

Objetivos Específicos. 1.

Analizar la base de datos del Sistema Administrativo e Inventario (SAISYS).

2.

Seleccionar técnicas de minería de datos orientadas a modelos predictivos.

3.

Realizar pruebas de validación de las técnicas seleccionadas.

4.

Desarrollar una herramienta informática para la consulta del modelo predictivo, como apoyo en la toma de decisiones.

1.5. Justificación. La inteligencia de negocios empleando modelos predictivos realizados por medio de la minería de datos, ofrece ventajas competitivas a las organizaciones, fortaleciéndolas y logrando que se mantengan en el tiempo dentro de escenarios exitosos. Recasens (2011) afirma que los pronósticos revelan relaciones y tendencias que permiten tomar decisiones creadas desde una base científica, generando beneficios para las empresas, entre los que destacan: Incremento del volumen de negocio, logro de objetivos, optimizar recursos y aumento de ingresos. La implementación del modelo predictivo propuesto podrá realizar las gestiones pertinentes de los insumos y medicamentos, a través de reportes estadísticos

6

y proyecciones de forma sencilla, flexible, eficiente y eficaz que apoyarán a las personas encargadas de tomar las decisiones en el hospital, contexto necesario para mejorar el proceso de adquisición de insumos y medicamentos, situación que originará solicitar las cantidades de artículos idóneas para el óptimo funcionamiento del hospital, generando principalmente beneficios económicos y de bienestar social tanto para la institución como para sus pacientes. El modelo planteado concede aportes a diferentes niveles, entre los que destacan: El aporte teórico, metodológico, académico, práctico y social, donde las metodologías, y técnicas utilizadas para llevar a cabo el mismo, servirán de base para futuras investigaciones, En consecuencia los aportes teóricos, metodológicos y académicos se verán reflejados en aspectos relacionados con la inteligencia de negocios haciendo énfasis en el área de la minería de datos y sus diferentes herramientas que conllevan al desarrollo e implementación de sistemas que generan conocimientos, de igual forma se proporcionarán aportes en el área de inventarios de hospitales, entre otros. Los aspectos prácticos serán observables en la aplicabilidad, teniendo en cuenta la utilidad que ofrece un modelo con las condiciones planteadas y con la proyección de instalarse en otros centros de salud, pero sin duda alguna es el aporte social el de mayor impacto que se producirá con el actual proyecto, debido que el modelo propuesto está orientado a proporcionar un máximo beneficio a la sociedad involucrada en el desenvolvimiento cotidiano del hospital.

1.6. Alcance. El propósito fundamental de la investigación consiste en analizar la base de datos del sistema transaccional SAISYS, para luego aplicarle técnicas de minería de datos, con el objetivo de generar un modelo predictivo. Una vez se tenga establecido y probado el modelo predictivo se procede a desarrollar una sistema de consulta que

7

facilite a la alta gerencia la toma de decisiones en la gestión de insumos y medicamentos en el Hospital General de Táriba. Con la finalidad de lograr lo planteado, el estudio se centrará en la inteligencia de negocios y la minería de datos, las herramientas y metodologías a utilizar son las siguientes: KDD (Descubrimiento de conocimiento en bases de datos - Knowledge Discovery in Databases) se empleará como herramienta para el proceso de minería de datos, se utilizará Weka (Entorno para análisis del conocimiento de la Universidad de Waikato - Waikato Environment for Knowledge Analysis) como sistema para extraer conocimiento desde la base de datos del sistema transaccional SAISYS, y el desarrollo de la herramienta informática se ejecutará con la metodología RAD (Desarrollo rápido de aplicaciones).

CAPÍTULO II MARCO TEÓRICO

2.1. Antecedentes de la Investigación.

Martha Hernández R. (2011) En su trabajo: Procedimiento para el desarrollo de un sistema de inteligencia de negocios en la gestión de ensayos clínicos en el Centro de Inmunología Molecular. Investigación que surgió como parte de la colaboración existente entre la Universidad de las Ciencias Informáticas y el Centro de Inmunología Molecular en la Habana Cuba. El objetivo fue desarrollar un procedimiento que auxiliara en el almacenamiento y análisis de los ensayos clínicos y que facilitara la aplicación integral de la inteligencia de negocios en esta actividad. Se realizó una propuesta de procedimiento para conducir el desarrollo de soluciones de inteligencia de negocios en el centro. El procedimiento fue evaluado a partir del método de experto Delphi y se obtuvo el resultado de "Muy adecuado". Se contó además con un aval del centro cliente, donde se valoró de satisfactorio el trabajo realizado. La implementación de este procedimiento permitirá almacenar toda la información que se gestiona, de manera íntegra y estándar, con lo que se logrará viabilizar los análisis estadísticos que se necesitan realizar por parte de los especialistas de la institución. El aporte del trabajo para la investigación, se fundamenta en la aplicación de la inteligencia de negocios con el fin de mejorar el desempeño y por ende los procesos de la organización, entre las herramientas y técnicas empleadas, destaca el procedimiento de inteligencia de negocios, a través de la etapa de extracción, transformación y carga de los datos, es decir, el proceso ETL.

9

Juan Soria Q. y Guillermo Mamani A. (2013). En su investigación: Modelo de simulación de inventario basado en redes neuronales artificiales supervisadas y algoritmos genéticos para optimizar el stock de medicamentos de la Clínica Ricardo Palma. Estudio mediante el cual se desarrolló un modelo analítico de abastecimiento de medicamentos basado en redes neuronales artificiales que optimiza el inventario de los medicamentos del sector privado de salud, caso Clínica Ricardo Palma ubicada en San Isidro, Lima Perú. El tipo de investigación fue aplicada, descriptiva y propositiva. Los datos analizados correspondieron al volumen de las ventas semanales de medicamentos de los años 2.005 al 2.009. El objetivo era minimizar la incertidumbre al momento de decidir la cantidad de medicamentos a pedir, estimando la demanda semanal del medicamento. Los resultados afirman que el modelo de red neuronal artificial concurrente tiene mayor precisión en el pronóstico frente a los modelos estadísticos, series de tiempo y regresión lineal, lo cual permite planificar las compras de medicamentos y reducir el costo total. La contribución que ofrece este estudio radica en la optimización de los inventarios en los centros de salud, basado en modelos de gestión de inventario y utilizando el módulo de OptQuest de la herramienta Crystal Ball. Donde a través de la construcción de un modelo de simulación, se busca predecir la cantidad optima de medicamentos a requerir.

Isidora Vielma G. (2013). En su tesis: Mejoramiento de la gestión de insumos de pabellón del Hospital Exequiel González Cortés. Proyecto que propone un diseño para el proceso de adquisición e inventario de los insumos de pabellón en el hospital pediátrico Exequiel González Cortés, situado en Santiago de Chile, a partir de patrones de procesos de negocio, desde la arquitectura empresarial del hospital, hasta el diseño de los diagramas en Gestión de Procesos de Negocios (Business Process

10

Management) BPM. Finalmente, se generaliza la experiencia en base a la construcción de un framework, para cualquier tipo de empresa que requiera generar un plan de insumos a partir de un plan de producción definido. El proyecto es probado mediante un piloto, el cual contempla la implementación de acuerdos de abastecimiento para 3 grupos de productos, que representan el 15% del gasto en insumos del hospital. Las cantidades se determinan en base a las lógicas de negocio. El ahorro promedio calculado con los precios de las ofertas presentadas es de 36%, siendo de 68% en el mejor escenario y de 10% en el peor, lo que permite ahorrar recursos o bien acceder a productos de mayor calidad y precio, sin aumentar el presupuesto, asegurando la provisión de insumos y evitando quiebres de inventario. Con lo antes mencionado, el aporte de la investigación se fundamenta en establecer un modelo de inventario que garantiza un óptimo abastecimiento, a través de la implementación de un software que permite reducir costos, proveer mecanismos de control y un proceso flexible de las compras. Contexto requerido en la gestión de insumos y medicamentos en el Hospital General de Táriba.

Juan Sánchez R. (2010). En su trabajo de grado: Sistema web para diagnóstico de enfermedades prevalentes en la infancia mediante técnicas de minería de datos y aprendizaje automático. Estudio que se realizó en la Universidad Nacional Experimental del Táchira, Municipio San Cristóbal, Venezuela. Proyecto que consistió en desarrollar un sistema web, fundamentado en técnicas de minería de datos para producir modelos predictivos que permitan apoyar en el diagnóstico de enfermedades prevalentes en la infancia. Actualmente la sociedad se está viendo afectada por la mortalidad infantil, ocasionada por enfermedades recurrentes. El sistema desarrollado maneja dos componentes principales, el primero sistematiza la aplicación de la estrategia

11

“Atención Integral a las Enfermedades Prevalentes de la Infancia” la cual brinda lineamientos de trabajo para enfrentar las principales enfermedades que afectan a los niños, el segundo componente lo constituye una plataforma inteligente para el desarrollo de modelos predictivos que permite determinar posibles diagnósticos. El aporte ofrecido para la presente investigación, se basa en la utilización de técnicas de minería de datos para elaborar modelos predictivos que faciliten la toma de decisiones. Entre las técnicas empleadas presenta: Arboles de decisión, reglas de clasificación, clustering y redes bayesianas. Empleando Weka como herramienta para el análisis de los datos.

2.2. Bases Teóricas.

2.2.1. Inteligencia de Negocios - Business Intelligence (BI). Los tiempos de vida de los negocios son cada vez más vertiginosos por lo que se deben tomar decisiones muy veloces, por lo tanto se requiere de la información oportuna en el momento y el lugar correcto. La inteligencia de negocios consiste en un conjunto de herramientas que son usadas para obtener, y analizar datos sobre el funcionamiento de la empresa, los cuales pueden ayudar a lograr un conocimiento amplio de los factores que afectan su desempeño (Ventas, producción, operaciones internas, entre otras) y de esa manera tomar decisiones para lograr mejores resultados. La recolección y procesamiento de los datos produce información, y es la mente humana la que la convierte en inteligencia al adecuarla con un contexto específico para un individuo o caso en particular. “El proceso que produce inteligencia es la colección continua con verificación y análisis de la información que permite comprender el problema o la situación de una manera accionable de acuerdo a un usuario final.” (Gonzales, 2012, p. 9).

12

Figura 2.1. Ilustración de un sistema de inteligencia de negocios. Fuente: (Recasens, 2011, p. 24).

2.2.2. Minería de Datos - Data Mining (DM). Consiste en un conjunto de técnicas y algoritmos que sirven para hacer análisis de grupos de datos, extrayendo patrones y relaciones entre ellos, convirtiéndolos en información útil para quienes toman las decisiones, concepción según Martínez (2012). El empleo de la minería de datos en las empresas se realiza para identificar nuevas oportunidades de negocio, adecuar los productos ofrecidos o encontrar los clientes más valiosos con el fin de retenerlos, para de esta manera aumentar los ingresos y reducir las pérdidas o costos de las empresas. La minería de datos se debe entender como un soporte para los analistas, y no reemplaza el conocimiento que tienen los especialistas del negocio, tampoco descarta la necesidad de entender los datos. Para Martínez (2012) no funciona por sí sola, ya que los patrones que se encuentren en los datos deben ser interpretados y validados para ver si responden a las consultas del negocio, y si son aplicables en el mundo real. Los modelos de minería de datos se clasifican como predictivos y descriptivos. En el primer caso, se tiene una variable con valor desconocido, y la

13

finalidad es determinarlo. Esta variable se llama respuesta, dependiente u objetivo, mientras que aquellas utilizadas para hacer la predicción son los predictores o variables independientes. Los modelos predictivos requieren ser entrenados, utilizando un conjunto de datos de entrenamiento cuyo valor de variable dependiente es conocido. La idea es que el modelo permita resultados en base a un aprendizaje, y así se vaya ajustando con la realidad conocida. A este tipo de modelos se les conoce además como modelos de aprendizaje supervisado. Por otra parte, se tienen los modelos descriptivos, en los cuales no se cuenta con un resultado conocido para poder guiar a los algoritmos, y por ello se conocen como modelos de aprendizaje no supervisado, donde el modelo se va ajustando de acuerdo con las observaciones o datos entregados, y se acude muchas veces a argumentos heurísticos para evaluar la calidad de los resultados. Tanto para los modelos predictivos y como para los modelos descriptivos existen una variedad de métodos de minería de datos que se pueden utilizar, con el fin de buscar conocimiento. Dentro de los métodos predictivos se encuentran la clasificación y regresión, Entre los descriptivos existen el clustering y las reglas de asociación.

2.2.3. Gestión de Inventarios. Por lo general en las empresas exitosas, utilizan el criterio que dice: "quien compra bien, vende o produce bien". El tener una buena política de compras, permite un manejo fluido a la organización y una disminución en sus costos, lo que obviamente mejorará su rentabilidad. A juicio de Aldas (2013) debido a lo anterior es necesario estudiar los inventarios desde el instante en que se proyecta la compra, es decir involucrarlos en los procesos de planeación de la compañía y en su contrapartida obligatoria, el control. Los inventarios básicamente son recursos utilizables que se encuentran almacenados para su uso posterior en un momento determinado. Gestionar un

14

inventario, es la administración eficiente del mismo, a través de un manejo adecuado de la planificación, rotación y control, que incluye desde la negociación con el proveedor hasta la venta del producto. Los principales objetivos de la gestión de inventarios son: Minimizar los costos y riesgos de mantener inventarios, minimizar costos y riesgos de adquirir inventarios, maximizar el rendimiento sobre la inversión en inventario, optimizar el nivel de producción cuando estos sean fabricados en la empresa, maximizar la eficiencia de los departamentos de compras, producción y ventas, permitir mantener un nivel óptimo de inventario.

Figura 2.2. Fases de la gestión de inventarios hospitalarios.

Las fases que comprende la gestión de inventarios hospitalarios se especifican a continuación. 1.

Planificación: Etapa en la cual se analizan las cantidades a solicitar de acuerdo con las existencias y rotación de los insumos y medicamentos.

2.

Prioridades: Se identifican los insumos y medicamentos a requerir, tomando en cuenta los productos primordiales para el funcionamiento del hospital, en función de los recursos económicos disponibles para la compra.

15

3.

Registro: Se deben realizar los asientos de los registros de las entradas y salidas de todos los productos.

4.

Almacenamiento: Empleando la técnica primero en entrar primero en salir (PEPS) se almacenan los insumos y medicamentos.

5.

Suministro: Fase en la cual se realiza la entrega de los productos a cada departamento de la institución, de acuerdo con su consumo.

6.

Control: Etapa donde se revisan periódicamente los artículos, para determinar los que están próximos a vencer y los de poca rotación, y de esta forma dinamizar los productos que estén dentro de estos parámetros.

7.

Auditoria: A través de chequeos quincenales e inventarios semestrales entre la existencia física y la presentada por los registros, se constata la integridad del inventario.

2.2.4. Proceso KDD. Etapa mediante la cual se localiza información en un gran grupo de datos para producir conocimiento. “El objetivo principal de esta metodología es automatizar el procesamiento de los datos, permitiendo a los usuarios dedicar más tiempo a las tareas de análisis y al descubrimiento de relaciones entre los datos.” (Martínez, 2012, p. 26).

16

Figura 2.3. Etapas del proceso KDD. Fuente: (Martínez, 2012, p. 26).

1.

Identificación de la situación en estudio: Establecer el problema a resolver, entendiendo las metas del proceso y cuáles son los objetivos.

2.

Selección e integración de los datos: Se obtienen los datos desde los sistemas transaccionales, los cuales pueden venir en diferentes formatos y en algunas oportunidades con errores.

3.

Preparación de los datos: Etapa de limpieza y pre-procesamiento, donde se escogen técnicas y estrategias para corregir errores en el conjunto de datos seleccionados, se trata la información faltante y unifican formatos.

4.

Transformación: Lapso en el que se pueden reducir o agrupar los datos en las características de interés. Se consolida la información y se escoge una estructura acorde con las necesidades del problema que permita almacenarla, por ejemplo un data mart.

17

5.

Selección y aplicación de algoritmos de Minería de Datos (Data Mining) DM: Empleando técnicas según la situación planteada y el análisis que se quiera hacer. Las técnicas seleccionadas permitirán generar modelos de minería de datos, y con ello revelar patrones de información implícitos en los datos.

6.

Interpretación y evaluación de los patrones encontrados: Identificando los nuevos conocimientos y auxiliándose en los expertos del negocio para ver si se pueden tomar acciones con estos resultados. Para interpretarlos, es necesario visualizarlos de varias formas, validando los patrones y modelos de datos, documentando los procedimientos y consideraciones de manera que se formen propuestas de valor para el negocio.

(Martínez, 2012) “Las etapas iniciales del proceso KDD son muy importantes porque serán la base sobre la cual se hará minería de datos. Si la preparación de los datos no está bien hecha, los resultados obtenidos en los análisis no serán confiables.” (p. 27). La relación entre el proceso KDD y los Data Warehouses, sucede cuando el primero busca contar con datos procesados, limpios y consolidados, mientras que los segundos brindan una arquitectura bien definida en donde almacenar la información con esas características.

2.3. Aspectos Legales.

2.3.1. Constitución de la República Bolivariana de Venezuela. (2000). Artículo 83. Apartado de la constitución que estable la salud como un compromiso social esencial, es un derecho a la vida que el gobierno debe garantizar. Para ello el Estado desarrollará políticas destinadas a satisfacer las necesidades que tienen todas las personas en el sector salud, dentro de ese marco el gobierno debe participar

18

activamente en la promoción, defensa y cumplimiento de las medidas establecidas relacionadas con la salud de todos los ciudadanos del país. Considerando lo anterior, se establece que la realización del actual proyecto promoverá en gran medida la participación que debe tener el Estado, para brindar un eficiente servicio de salud a su población.

2.3.2. Ley Orgánica de la Administración Pública. (2008). Artículo Nº 6. Artículo mediante el cual se fija la actuación de la administración pública nacional, la cual debe estar al servicio de las personas, para atender y satisfacer sus necesidades, en áreas prioritarias como la salud, Para tal efecto la administración debe mejorar continuamente sus procesos, servicios y prestaciones públicas. Contexto que se logrará en el Hospital General de Táriba a través del desarrollo tecnológico planteado.

2.3.3. Ley de Infogobierno. (2013). Artículo Nº 34. Sección donde se estable que la administración pública nacional utilizará en su gestión a través de las tecnologías de la información, solo programas informáticos en software libre y estándares abiertos. Sobre la base de las consideraciones expuestas el presente proyecto debe ser desarrollo en software libre, debido que el Hospital General de Táriba es un organismo de la administración pública nacional.

2.3.4. Decreto Nº 1.399, con Rango, Valor y Fuerza de Ley de Contrataciones Públicas. (2014). Artículo Nº 1. El objeto del Decreto se encuentra expresado en este, su primer artículo, el cual establece la regularización de las actividades del Estado en la adquisición de

19

bienes, prestación de servicios y ejecución de obras, con el propósito de resguardar el patrimonio público, fortalecer la soberanía, incrementar la capacidad productiva y asegurar la transparencia en las actuaciones de los contratantes, para propiciar el crecimiento de la economía. Las solicitudes de compra del Hospital, se realizan siguiendo lo establecido en el presente Decreto (Ver Anexo Nº 4).

2.4. Definición de Términos.

2.4.1. Toma de Decisiones. En el ambiente empresarial resaltan aquellos empresarios que se han destacado por el éxito alcanzado en el manejo de sus organizaciones, escenarios que se materializan a través de la oportuna y acertada toma de decisiones. La cual según Guillén (2012), consiste básicamente en elegir una opción entre las disponibles, evaluando previamente las alternativas a los efectos de resolver un problema, para tomar una decisión, es necesario conocer, comprender y analizar el problema para así poder darle solución.

2.4.2. Sistema Operacional o Transaccional. Los sistemas de información operacionales o transaccionales se encargan de automatizar tareas y procesos que se efectúan a diario en la empresa, manejando datos del funcionamiento de la organización. Sus principales prioridades son la disponibilidad y el rendimiento en el procesamiento a un nivel detallado. A pesar de ser una fuente de datos completa, este tipo de sistema no se emplea en la toma de decisiones de alto nivel, porque al procesar una gran cantidad de datos tarda en entregar las respuestas, tampoco responden a todas las preguntas que puede tener el negocio ya que sólo cuenta con cálculos simples.

20

2.4.3. Sistema de Información Gerencial. Un sistema de información es un grupo organizado de elementos (Hardware, software, recurso humano, entre otros) que interactúan entre sí procesando datos, dando lugar a información en función de los objetivos o necesidades de una organización, así lo indica Aldas (2013). Partiendo de lo anterior, un sistema de información gerencial es una herramienta informática que apoya la toma de decisiones en la empresa, con información confiable y oportuna, permitiendo lograr ventajas competitivas, impulsos estratégicos y control gerencial.

2.4.4. Software Libre. Es el software que respeta la libertad de los usuarios para ejecutarlo, copiar, distribuir, estudiar, modificar y mejorarlo. Libre no significa que sea gratis, aunque en la mayoría de los casos suele estar disponible gratuitamente. El software libre ofrece las siguientes libertades: Primero ejecutarlo con cualquier propósito, segundo estudiarlo y adaptarlo a sus necesidades, tercero distribuir copias y cuarto mejorarlo para luego hacer públicas las mejoras. Con la única limitación del copyleft, el cual indica que la redistribución del software, con o sin cambios, debe dar las mismas libertades que antes.

2.4.5. Base de Datos. Para Aldas (2013) es un conjunto de elementos o hechos relacionados, adaptados en una estructura especifica, es decir, comprende el repositorio en donde está almacenada sistemáticamente toda la información principal e importante para una empresa. Las principales características de las bases de datos son: Independencia lógica y física de los datos, redundancia mínima, acceso concurrente por parte de múltiples usuarios, integridad de los datos, consultas complejas optimizadas, respaldo

21

y recuperación, seguridad de acceso, auditoría, y acceso a través de lenguajes de programación estándar.

2.4.6. Repositorio de Información. “Los repositorios de información nacieron como sistemas que aprovechaban los datos desde los distintos sistemas operacionales, con el objetivo de ayudar con información confiable y oportuna al proceso de toma de decisiones.” (Arias, 2012, p. 9). Los datos guardados en un repositorio pueden distribuirse a través de una red informática, como internet, o de un medio físico, como un disco compacto. Pueden ser de acceso público o estar protegidos y requerir de una autentificación previa. Los repositorios más conocidos son los de carácter académico e institucional. Los sistemas de repositorios suelen integrarse e interoperar con otras aplicaciones.

2.4.7. MySQL. Sistema robusto de gestión de bases de datos relacional, multihilo, multiusuario y multiplataforma, programado en C y C++, con licenciamiento dual (GPL y uso comercial), muy empleado en aplicaciones web. Aldas (2013) lo describe como sencillo de usar e increíblemente rápido, es uno de los manejadores de base de datos más usados, por estar disponible de forma gratuita. Existen varias interfaces que permiten a aplicaciones desarrolladas en diferentes lenguajes de programación, acceder a las bases de datos MySQL.

2.4.8. PHP. Lenguaje de programación multiparadigma (Orientado a objetos, imperativo, programación por procedimientos), multiplataforma, flexible y de alto rendimiento, con licenciamiento PHP (Licencia de software libre no copyleft y licencia de código

22

abierto). Entre sus características destacan las siguientes: Dirigido al desarrollo de aplicaciones web, curva de aprendizaje corta, lenguaje interpretado, programación del lado del servidor, capacidad de conexión con la mayoría de gestores de bases de datos y extensa documentación.

2.4.9. Proceso ETL. Conjunto de técnicas que se utilizan al diseñarse un sistema de información que reúne datos desde distintas partes, para agruparlos en una sola fuente. El proceso consiente en: Primero, extraer los datos desde sistemas informáticos, bases de datos, entre otros. Segundo, transformarlos a valores y formatos específicos. Y tercero, cargarlos en la base de datos o repositorio final.

2.4.10. Weka. Es un software que ha sido desarrollado por la universidad de Waikato en Nueva Zelanda, bajo licencia GNU-GPL, consta de un conjunto de librerías JAVA para la extracción de conocimientos desde bases de datos, mediante las interfaces que ofrece o para embeberlos dentro de cualquier aplicación. “Soporta varias tareas estándar de minería de datos, especialmente, reprocesamiento de datos, clustering, clasificación, regresión, visualización, y selección.” (Rodríguez y Díaz, 2009, p. 78).

23

2.5. Sistema de Variables y Operacionalización. Proceso cuyo principal logro es identificar los indicadores que hacen observable, medibles y operativos los objetivos específicos del trabajo en estudio, para poder evaluar adecuadamente los resultados de la investigación. El sistema de variables y operacionalización constituye la base y el inicio del desarrollo de la solución tecnológica planteada. A partir de los indicadores establecidos se procede a elaborar los instrumentos de recolección de información.

24

Tabla 2.1. Operacionalización de variables.

Objetivo general Objetivo específico

Implementar un modelo predictivo para la toma de decisiones en la gestión de insumos y medicamentos para el Hospital General de Táriba.

Variable

Conceptualización

Dimensiones

1. Analizar la base de datos del Sistema Administrativo e Inventario (SAISYS).

Base de datos de SAISYS.

Conjunto de datos organizados y relacionados, con características de redundancia mínima, integridad, respaldo, seguridad de acceso, auditoría, y acceso a través de lenguajes de programación estándar.

Preprocesamiento.

2. Seleccionar técnicas de minería de datos orientadas a modelos predictivos.

Técnicas de minería de datos orientadas a modelos predictivos.

Algoritmos destinados al análisis de grupos de datos para extraer patrones y relaciones entre ellos, con la finalidad de generar información útil como soporte en la toma de decisiones (Martínez, 2012).

Entradas.

Indicadores - Incluir. - Modificar. - Eliminar.

- Variables numéricas. - Variables nominales.

Salidas.

- Clase numérica discretizada.

Técnica / Instrumento Análisis de contenido / Matriz de datos.

Análisis de contenido / Matriz de datos.

25

Objetivo específico

Variable

3. Realizar pruebas de Validación de validación de las las técnicas técnicas seleccionadas seleccionadas.

4. Desarrollar una herramienta informática para la consulta del modelo predictivo, como apoyo en la toma de decisiones.

Herramienta informática para la consulta del modelo predictivo, como apoyo en la toma de decisiones.

Conceptualización

Dimensiones

Proceso mediante el cual se comparan las técnicas de minería de datos, con base al conocimiento del investigador y los resultados generados por cada técnica en estudio, con el objetivo de identificar el mejor modelo predictivo (Martínez, 2012).

Conjunto de entrenamiento.

Estructura tecnológica basada en la inteligencia de negocios y fundamentada en la minería de datos por medio de un modelo predictivo, desarrollada con el fin de apoyar la toma de decisiones eficientes y eficaces (Recasens, 2011).

Indicadores

Técnica / Instrumento

- Clasificación correcta. - Clasificación incorrecta. - Estadística kappa. - Error absoluto. - Curva ROC.

Análisis de contenido / Matriz de datos.

Interfaz web.

- Usabilidad. - Intuitiva.

Observación / Lista de cotejo.

Predicciones.

- Individual. - Categorizada. - General. - Generar documento.

Estadísticas.

- Individual. - Por fecha. - Histogramas.

Validación cruzada. Porcentaje de división.

CAPÍTULO III MARCO METODOLÓGICO

3.1. Contexto de la Investigación. El propósito del presente estudio está orientado en una investigación aplicada, donde a través de la utilización de conocimientos en la práctica, se busca aplicarlos en la realidad para solucionar problemas de forma directa e inmediata, elabora productos para satisfacer necesidades. Esta investigación antes que el desarrollo de teorías, busca conocer para actuar, para construir y persigue en la mayoría de los casos el logro de objetivos en provecho de la sociedad. El tipo de investigación de acuerdo al ambiente de estudio y las fuentes empleadas es mixta, donde participan factores de la investigación documental e investigación de campo. La investigación documental se alcanzó a través de fuentes utilizadas para elaborar el marco teórico y metodológico como libros, tesis, trabajos de grado, decretos, artículos científicos y documentos digitalizados. La investigación de campo se logró debido a que se emplearon herramientas para la recolección de datos desde la realidad donde sucedieron los hechos.

3.2. Nivel de Investigación. La actual investigación se encuentra ubicada en el área de la ingeniería en tecnologías de información y comunicación, dentro de la línea de ingeniería de software de aplicación en el campo de los sistemas de apoyo a las decisiones gerenciales. El nivel de conocimiento de la investigación es proyectiva, la cual tiene como propósito la elaboración de una propuesta o modelo como solución a un problema o necesidad de tipo práctico.

27

El método utilizado en la investigación es la inducción, mediante el cual se empleó el razonamiento e inicia de hechos particulares aceptados como válidos, para obtener conclusiones cuya aplicación es de carácter general (Bernal, 2010). El método inductivo comienza con una recolección de datos, se categorizan las variables observadas, en ocasiones se hace énfasis en el hallazgo de variables críticas que permitan efectuar exploraciones sistemáticas, se establecen regularidades y relaciones entre los datos, para luego someterlos a prueba a partir de observaciones controladas y finalmente se puede obtener una estructura de generalizaciones relacionadas sistemáticamente que posibiliten elaborar una teoría.

3.3. Diseño de la Investigación. Diseño mediante el cual a juicio de Hernández, Fernández y Baptista, (2010) se recoge la información necesaria para responder de forma concreta las preguntas de la investigación, además de cubrir los objetivos fijados, específicamente se refiere al plan o estrategia creada para obtener la información requerida. Si el diseño se realiza cuidadosamente, serán mayores las posibilidades de éxito para producir conocimiento como resultado final del estudio.

3.4. Población. Son las personas u objetos que tienen relación directa con el caso en estudio, así lo afirma Tamayo (2010) es la totalidad de unidades o individuos que participan en el caso a ser estudiado. La población la determina el objetivo general de la investigación y en el presente estudio está representada por la base de datos de SAISYS, de donde a través del proceso KDD se extrajeron los datos relevantes que generaron información para la construcción del modelo predictivo, base fundamental en la realización de la solución tecnológica.

28

3.5. Técnicas e Instrumentos de Recolección de Datos.

Análisis de Contenido. Proceso que estudia contenidos específicos de la investigación, de una manera objetiva y sistemática, para determinar información relevante inherente al caso de estudio (Hernández, et al., 2010). A través del análisis de contenido realizado en detalle, profundidad y exhaustividad, se obtiene un conocimiento deducido valido aplicado a un contexto, determinado por la capacidad de inferencia del analista, por lo tanto el rigor de la objetividad juega un rol fundamental en la ejecución de la presente técnica de recolección de datos. En la presente investigación la técnica de análisis de contenido empleando el instrumento de matriz de datos, origino un factor primordial para el logro de varios objetivos específicos, debido que se utilizó para registrar, revisar y analizar información de los siguientes elementos del caso en estudio: En la base de datos de SAISYS, durante el proceso de seleccionar las técnicas de minería de datos orientadas a modelos predictivos y en el desarrollo de las pruebas de validación de las técnicas seleccionadas.

La Observación. Técnica mediante la cual a través del uso de los sentidos, se capta directamente la realidad que rodea un caso de estudio. “Este método de recolección de datos consiste en el registro sistemático, válido y confiable de comportamientos y situaciones observables, a través de un conjunto de categorías y subcategorías.” (Hernández, et al., 2010, p. 260). Datos que luego de analizarlos generan información valiosa para lograr los objetivos planteados en la investigación. Los pasos que debe tener la observación son:

29

1.

Determinar el objeto que se va a observar.

2.

Establecer los objetivos de la observación.

3.

Determinar la forma con que se van a registrar los datos.

4.

Observar cuidadosa y críticamente.

5.

Registrar los datos observados.

6.

Analizar e interpretar los datos.

7.

Elaborar conclusiones.

En el presente estudio la técnica de la observación se realizó a la herramienta informática desarrollada para la consulta del modelo predictivo, los datos se registraron en un instrumento denominado lista de cotejo, para posteriormente ser analizados y determinar si el proyecto propuesto ofrece la información necesaria en el proceso de negocio, para solucionar la problemática existente en la gestión de insumos y medicamentos del Hospital General de Táriba.

3.6. Validez y Confiabilidad. La validez de un instrumento está dada en si realmente evalúa lo que se intenta medir. La misma está determinada por la sumatoria de los resultados de la validez de contenido, validez de criterio y validez de constructo. “La confiabilidad de un instrumento de medición se refiere al grado en que su aplicación repetida al mismo individuo u objeto produce resultados iguales.” (Hernández, et al., 2010, p. 200). De acuerdo con lo anterior, la confiabilidad indica que el instrumento no tiene errores, por lo tanto sus resultados son vinculados y consistentes. La validez y la confiabilidad representan la ausencia del azar.

30

3.7. Técnicas de Procesamiento y Análisis de Datos. Una vez obtenida la información a través de los instrumentos de recolección de datos se procedió a codificarla, tabularla, analizarla y así obtener información relevante para el desarrollo de la investigación. Según Bernal (2010) consiste en procesar los datos (Dispersos, desordenados) conseguidos de la población en estudio, con la finalidad de generar datos (Agrupados y ordenados), a partir de los cuales se realiza el análisis según los objetivos y las preguntas de la investigación.

Figura 3.1. Procedimiento para el análisis de los datos. Fuente: (Hernández, et al., 2010, p. 278). Adaptado por el autor.

Los datos obtenidos mediante el análisis de contenido y la observación se analizaron cuantitativamente a través de sistemas de información desarrollados para tal fin, la forma tradicional de hacerlo manualmente ha quedado relegada, en especial cuando hay un volumen considerable de datos. Por lo tanto la interpretación de los datos se efectuó por medio de sistemas de información, en la siguiente tabla se especifican los análisis y procedimientos realizados con cada sistema de información.

31

Tabla 3.1. Sistemas de información utilizados. Sistema de información Weka.

Técnicas de análisis y procedimientos 1. Preprocesamiento (Filtrado, eliminación, balanceo). 2. Estudio de las técnicas de minería datos orientadas a modelos predictivos. 3. Generar diagramas de dispersión. 4. Calcular coeficientes de correlación. 5. Calcular la media de cada variable. 6. Calcular la desviación estándar de cada variable.

Excel – Calc.

1. Leer documentos dbf. 2. Preparación de los datos (Limpieza y preprocesamiento). 3. Generar documentos csv y arff. 4. Generar gráficas de clasificaciones correctas. 5. Generar gráficas de estadísticas kappa. 6. Calcular coeficientes de correlación. 7. Construcción de tablas y matrices.

CAPÍTULO IV ANÁLISIS E INTERPRETACIÓN DE RESULTADOS Tabla 4.1. Simbología empleada en el capítulo. Símbolo

Descripción Aprobado, positivo. Reprobado, negativo. Alto, aumento. Bajo, disminución. Paridad, igual.

4.1. Selección e Integración de los Datos. Los datos se obtienen desde el sistema SAISYS, el cual guarda la información en un archivo de base de datos (Data Base File, dbf) que puede ser leído desde una hoja de cálculo como excel o calc, los registros a ser analizados son los comprendidos desde enero de 2.010 hasta diciembre de 2.015. La base de datos está conformada por una tabla maestro con 4.479 registros y una de transacciones con 81.119 registros.

4.2. Preparación de los Datos. Proceso mediante el cual se procedió a revisar las hojas de cálculo de la tabla maestro y transacciones obtenidas en la fase anterior. La preparación de los datos consistió en realizar actividades de limpieza y pre-procesamiento, para corregir errores en el conjunto de datos seleccionados. Las acciones ejecutadas se presentan en la siguiente tabla.

33

Tabla 4.2. Matriz análisis de la base de datos de SAISYS. Actividad

Tabla Observaciones

1

Descripción Modificar Incluir

N°

Crear atributo primaria.

de

Maestro clave

Transacciones No aplica para la tabla maestro, debido que posee clave primaria, representada por el código.

Llenar atributos vacíos deducibles. Atributos errados deducibles. Columnas que no contenían datos.

Ninguna.

Registros que contenían más del 70% de los atributos vacíos o incompletos.

Registros afectados: 6 de la tabla maestro y 333 de la tabla transacciones.

Registros con la cantidad igual a 0.

No aplica para la tabla maestro, debido que el atributo cantidad solo corresponde con la tabla transacciones. Se eliminaron 156 registros.

7

Registros con código vacío.

No aplica para la tabla maestro, por ser el código su clave primaria, por lo tanto dicho campo no presentaba vacíos. Se eliminaron 178 registros.

8

Registros con más del 70% de los datos errados, atípicos o ruidosos.

Registros afectados: 834 de la tabla maestro y 1004 de la tabla transacciones.

2 3 4

6

Eliminar

5

Ninguna. Se eliminaron 18 columnas de la tabla maestro y 6 columnas de la tabla transacciones.

34

4.3. Transformación. Etapa del proceso KDD que permitió reducir y agrupar los datos. El resultado de la fase anterior se importó a MySQL y a través del lenguaje de programación PHP, se consolidaron todos los datos en un repositorio de información denominado master con 79.448 registros. Tabla 4.3. Selección de las variables de estudio. Nº

Valor

Características

Descripción

1

id

Entero.

Identificación.

2

codigo

Carácter (5).

Código.

3

descripcion Carácter (60).

Descripción.

4

dpto

Carácter (2).

Código de departamento por productos.

5

unidad

Carácter (6).

Unidad de presentación.

6

costo

Flotante.

Costo.

7

stockMin

Entero.

Mínima provisión.

Tipo/variable

Independiente. 8

stockMax

Entero.

Máxima provisión.

9

prioridad

Carácter (1).

Prioridad de adquisición.

10

refrigerado

Carácter (1).

Necesidad de refrigeración.

11

almacenaje

Carácter (1).

Tipo de almacenaje.

12

estatus

Carácter (1).

Estatus del registro.

13

fecha

Carácter (7).

Fecha de la transacción.

14

servicio

Carácter (3).

Código del servicio destinatario.

15

cantidad

Entero.

Cantidad.

Dependiente.

35

Descripción de las Variables No Nominales Seleccionadas. id: Variable clave primaria del repositorio de información master, numero correlativo desde 1 hasta 79.448. codigo: Contiene el código del producto, variable tipo carácter, sus valores fluctúan entre 10.001 y 90.322. descripcion:

Variable

tipo

carácter,

almacena

la

descripción

y

especificaciones de cada insumo o medicamento. unidad: Corresponde con la unidad de medida de los productos, entre otros presenta los siguientes valores: amp, fco, sbr, rollo, kit, bto y cja. costo: Variable de valores numéricos continuos, sus valores oscilan entre 0 y 16.500, con una media de 318,33 y una desviación estándar de 1.261,86. stockMin: Almacena la mínima provisión de cada insumo, valores numéricos no continuos que fluctúan entre 0 y 3.000, presentando una media de 130,64 y una desviación estándar de 336,86. stockMax: Contiene la máxima provisión de cada producto, valores numéricos no continuos que oscilan entre 0 y 36.000, mostrando una media de 1.353,25 y una desviación estándar de 3.810,81. fecha: Variable tipo carácter que guarda la fecha de la transacción por producto, para el estudio se utilizaron los datos correspondientes desde enero de 2.010 hasta diciembre de 2.015. cantidad: Variable numérica entera, contiene la cantidad de cada insumo o medicamento por transacción, en el repositorio es la variable a predecir o dependiente, presenta una media de 339,84 y una desviación estándar de 945,40.

36

Descripción de las Variables Nominales Seleccionadas.

Tabla 4.4. Variable código del departamento por productos (dpto). N°

Valor

Descripción

1

01

Material médico.

2

02

Medicamento.

3

03

Instrumental.

4

04

Odontología.

5

05

Laboratorio.

6

06

Papelería.

7

07

Radiología.

8

08

Mantenimiento.

9

09

Nutrición

Tabla 4.5. Variable prioridad de adquisición (prioridad). N°

Valor

Descripción

1

1

Alta.

2

2

Media.

3

3

Baja.

37

Tabla 4.6. Variable necesidad de refrigeración (refrigerado). N°

Valor

Descripción

1

1

Si.

2

2

No.

Tabla 4.7. Variable restricciones en almacenaje (almacenaje). N°

Valor

Descripción

1

1

Si.

2

2

No.

Tabla 4.8. Variable estatus del registro (estatus). N°

Valor

Descripción

1

1

Compra.

2

2

Ajuste.

3

9

Salida a servicio.

Tabla 4.9. Variable código del servicio destinatario (servicio). N°

Valor

Descripción

1

101

Administración.

2

102

Contabilidad.

3

103

Almacén.

4

105

Reproducción.

5

106

Compras.

6

107

Computación.

7

201

Servicios generales

8

202

Lencería.

mantenimiento.

N° Valor

Descripción

38

9

301

Coordinación de

10

302

Consulta externa.

12

403

Pabellón.

enfermería. 11

303

Supervisión de enfermeras.

13

404

Central de suministros.

14

405

Odontología.

15

406

Emergencia.

16

408

Sala de parto.

17

501

Nutrición y dietética.

18

502

Radiología.

19

503

Laboratorio.

20

504

Estadística y registros de salud.

21

505

Promoción social.

22

601

Talento humano.

23

702

Dirección.

24

703

Donativos.

25

704

Sociedad medico

26

707

Presupuesto.

científica.

Variable Discretizada: Se realizó la discretización de la variable dependiente cantidad, la cual se segmento en grupos múltiplos de 5, con el propósito de reducir la dispersión de los datos, proceso que se efectuó a través del lenguaje de programación PHP. En la siguiente tabla se detallan los factores que se tomaron en cuenta para seleccionar el tipo de rango en la discretización.

39

Tabla 4.10. Evaluación para determinar el tipo de rango. Rango

Valido

Confiable

Decisión

500 100 50 5

Cierre: Para finalizar la etapa de transformación, con los datos disponibles se procedió a generar el documento arff, el cual es necesario para trabajar con la herramienta Weka, actividad realizada con el lenguaje de programación PHP.

4.4. Selección y Aplicación de Algoritmos de Minería de Datos.

Factores Determinantes en la Selección de las Técnicas de Minería de Datos. Entrada – Variables numéricas, variables nominales: Las técnicas seleccionadas deben aceptar como datos de entrada números y valores nominales, para la construcción del modelo. Salidas – Clase numérica discretizada: Es la clase a predecir, la cual es numérica segmentada en grupos múltiplos de 5, por lo tanto la técnica de minería de datos seleccionada debe procesar como resultado este tipo de salida, para realizar el modelo predictivo.

40

Tabla 4.11. Matriz selección de técnicas de minería de datos orientadas a modelos predictivos. Entradas Nº

Técnicas de minería

Variables numéricas Variables nominales

1

Clustering.

2

J48.

3

JRip.

4

M5P.

5

Naïve Bayes.

6

OneR.

7

Perceptrón multicapa.

8

Reglas de asociación.

9

Regresión lineal.

10

REPTree.

Salidas Clase numérica discretizada

Decisión de selección

41

Breve Descripción de los Modelos Seleccionados. Clustering: Técnica fundamentada en la segmentación de un grupo diverso de datos, en un conjunto de subgrupos (Clústeres) que presenta características similares. J48: Clasificador para generar un árbol de decisión C4.5 podado o sin podar, se fundamenta en el concepto de entropía de la información. JRip: Método que implementa un aprendizaje de regla proposicional, repite incrementalmente la poda para cortar la reducción de errores. Naïve Bayes: Clasificador basado en el teorema de bayes, es rápido y poco complejo, constituye una técnica supervisada. OneR: Técnica basada en reglas para la construcción y el uso de un clasificador 1R, es sencillo y rápido, utiliza para predecir el atributo con mínimo error. Perceptrón multicapa: Es una red neuronal artificial, técnica que utiliza backpropagation para clasificar los casos. Los nodos de esta red son todos sigmoideo (Excepto cuando la clase es numérica, en cuyo caso los nodos de salida se convierten en unidades lineales de umbral). REPTree: Árbol de decisión de aprendizaje rápido. Los valores perdidos se tratan mediante el fraccionamiento de las instancias correspondientes en trozos, es decir, como en C4.5.

42

Preprocesamiento con Weka. Filtrado: Proceso mediante el cual se aplicó el filtro supervisado de atributos discretización (Discretize) al conjunto de datos, para discretizar valores numéricos no nominales, específicamente a los atributos: codigo, costo, stockMin y stockMax, pero los resultados obtenidos con y sin el filtro en los modelos, eran iguales, por tal motivo se decidió no utilizar en la investigación las derivaciones de la presente fase. Eliminación: Utilizando la opción de preprocesado, filtro no supervisado de atributos para eliminar inútiles (RemoveUseless), con la finalidad de remover atributos constantes o que excedan el porcentaje máximo de varianza, se aplica solo a los atributos nominales. Para el análisis de los datos en estudio se estableció el umbral de la más alta varianza permitida en 30%, el resultado del proceso no elimino ninguno de los atributos en estudio. Balanceo: A través de la opción de filtro supervisado de instancias volver a muestrear (Resample), se procedió a balancear la clase, con el objetivo de equilibrar los datos, pero los resultados obtenidos en los modelos luego de utilizar esta opción, no eran tan óptimos como sin emplear la presente herramienta, por lo tanto no se aplicó al conjunto de datos.

Opciones de Prueba Realizadas a cada Técnica Seleccionada. Conjunto de entrenamiento: Con esta opción se construye el modelo con el 100% del conjunto de los datos disponibles, para luego hacer las pruebas sobre el mismo conjunto de datos. Validación cruzada, 5 partes: Consiste en dividir en 5 segmentos los datos. Weka toma cada parte y construye el modelo con las partes restantes, para luego probar el modelo con la parte que tomo inicialmente y así sucesivamente repite el proceso con todos los segmentos.

43

Porcentaje de división, 70%: Opción de prueba que toma el 70% de los datos disponibles, para construir el modelo, y la prueba las realiza con el restante 30% de los datos.

Criterios a Evaluar. Clasificación correcta: Corresponde al porcentaje de datos clasificados como aciertos durante la construcción del modelo predictivo, cuanto más próximo a 100% sea el valor resultante, el modelo es más efectivo, se considera un modelo valido cuando la clasificación correcta es superior al 70%. En la presente investigación el modelo se califica como aprobado si la clasificación correcta supera el 75%. Clasificación incorrecta: Constituye el porcentaje de datos clasificados como desaciertos al momento de construir el modelo predictivo, Los modelos con clasificación incorrecta mayor o igual al 25% no son considerados válidos. Estadística kappa: Según Corso (2009) mide la coincidencia de la predicción con la clase real. Sus valores están establecidos entre 0 y 1. Al respecto, mientras más se acerque el valor resultante a 0 no hay concordancia, entre tanto cuanto más cerca de 1 se encuentre existe mayor concordancia, En la presente investigación el modelo se califica como aprobado si la estadística kappa supera el 0,75 de fuerza de concordancia.

44

Tabla 4.12. Valoración estadística kappa. Estadística kappa

Fuerza de concordancia

< 0,00

Pobre.

0,00 – 0,20

Leve.

0,21 – 0,40

Justa.

0,41 – 0,60

Moderada.

0,61 – 0,80

Sustancial.

0,81 – 1

Casi perfecta.

Fuente: (Landis y Koch, 1977, p. 165)

Error absoluto: Representa la media de la magnitud de los errores individuales, así lo afirma Sánchez (2010). En consecuencia, es la diferencia entre el valor obtenido y el valor exacto. Curva ROC: Es la representación gráfica de la sensibilidad frente a la especificidad, es decir, simboliza la razón de verdaderos positivos contra la razón de falsos negativos. Coeficiente de correlación: Expresa la intensidad de la relación lineal entre dos variables, presenta valores entre -1 y 1, mientras más próximo sea el valor a 1 en cualquier dirección, más fuerte es la relación entre las dos variables, entre tanto, cuanto más cercano este de 0 el coeficiente de correlación, la relación será más débil.

45

Pruebas Realizadas a las Técnicas Seleccionadas. Procedimiento realizado por fases, cada una de las mismas comprende un conjunto completo de pruebas a cada técnica seleccionada, para determinar cuáles son las variables independientes que mejor predicen la variable dependiente, con el propósito de encontrar un modelo predictivo que solucione el problema de la presente investigación. Los resultados de cada prueba son tabulados en una tabla y representados gráficamente, se hace de las dos formas porque se complementan, debido que cada representación aporta valores agregados a la investigación. La tabla refleja el valor exacto de cada indicador, entre tanto, la gráfica muestra el valor aproximado de cada indicador y su valor mínimo requerido en la investigación.

46

Tabla 4.13. Variables de entrada para las pruebas de la fase N° 1. Independientes Dependiente

codigo, dpto, prioridad, fecha cantidad

Tabla 4.14. Prueba N° 1. Fase N° 1. Técnica clustering.

N° 1

Opción de prueba Conjunto de entrenamiento.

Clasificación correcta

Clasificación incorrecta

23,65 %

76,35 %

Gráfica Clasificación correcta

La clasificación correcta no supera el 75%, por lo tanto el modelo se descarta. Decisión de selección

47

Tabla 4.15. Prueba N° 2. Fase N° 1. Técnica J48. N°

Opción de prueba

Clasificación Clasificación Estadística correcta incorrecta kappa

1


51,02 %

48,98 %

0,4353

2

Validación cruzada. 5 partes.

47,72 %

52,28 %

0,392

3

Porcentaje de división. 70 %.

43,32 %

56,68 %

0,3338

Gráficas Clasificación correcta

Estadística kappa

Ninguna clasificación correcta supera el 75%, las estadísticas kappa se encuentran entre los rangos de fuerza de concordancia justa y moderada, por lo tanto los modelos se descartan. Decisión de selección

48

Tabla 4.16. Prueba N° 3. Fase N° 1. Técnica JRip. N°

Opción de prueba


1


68,27 %

31,73 %

0,6143

2


66,69 %

33,31 %

0,5935

3


65,73 %

34,27 %

0,5808


Estadística kappa

Ninguna clasificación correcta supera el 75%, las estadísticas kappa se encuentran entre los rangos de fuerza de concordancia moderada y sustancial, por lo tanto los modelos se descartan. Decisión de selección

49

Tabla 4.17. Prueba N° 4. Fase N° 1. Técnica Naïve Bayes. N°

Opción de prueba


1


35,34 %

64,66 %

0,2493

2


33,26 %

66,74 %

0,227

3


33,28 %

66,72 %

0,2323


Estadística kappa

Ninguna clasificación correcta supera el 75%, las estadísticas kappa se encuentran en el rango de fuerza de concordancia justa, por lo tanto los modelos se descartan. Decisión de selección

50

Tabla 4.18. Prueba N° 5. Fase N° 1. Técnica OneR. N°

Opción de prueba


1


77,84 %

22,16 %

0,7488

2


76,42 %

23,58 %

0,7326

3


76,05 %

23,95 %

0,7288


Estadística kappa

Las clasificaciones correctas superan el 75%, las estadísticas kappa se encuentran en el rango de fuerza de concordancia sustancial, pero no superan el 0,75 requerido en la investigación, por lo tanto los modelos se descartan. Decisión de selección

51

Tabla 4.19. Prueba N° 6. Fase N° 1. Técnica perceptrón multicapa. N°

Opción de prueba


1


33,19 %

66,81 %

0

2


7,76 %

92,24 %

0

3


32,86 %

67,14 %

0


Estadística kappa

Ninguna clasificación correcta supera el 75%, las estadísticas kappa se encuentran en el rango de fuerza de concordancia leve, por lo tanto los modelos se descartan. Decisión de selección

52

Tabla 4.20. Prueba N° 7. Fase N° 1. Técnica REPTree. N°

Opción de prueba


1


43,37 %

56,63 %

0,306

2


35,97 %

64,03 %

0,2017

3


35,33 %

64,67 %

0,188


Estadística kappa

Ninguna clasificación correcta supera el 75%, las estadísticas kappa se encuentran entre los rangos de fuerza de concordancia leve y justa, por lo tanto los modelos se descartan. Decisión de selección

53


costo, prioridad, refrigerado, almacenaje, fecha cantidad

Tabla 4.22. Prueba N° 1. Fase N° 2. Técnica clustering. N° 1




25,25 %

74,75 %



54


Opción de prueba


1


42,27 %

57,73 %

0,2643

2


41,35 %

58,65 %

0,2429

3


40,28 %

59,72 %

0,2309


Estadística kappa

Ninguna clasificación correcta supera el 75%, las estadísticas kappa se encuentran en el rango de fuerza de concordancia justa, por lo tanto los modelos se descartan. Decisión de selección

55


Opción de prueba


1


55,89 %

44,11 %

0,438

2


54,12 %

45,88 %

0,4109

3


53,59 %

46,41 %

0,4059


Estadística kappa

Ninguna clasificación correcta supera el 75%, las estadísticas kappa se encuentran en el rango de fuerza de concordancia moderada, por lo tanto los modelos se descartan. Decisión de selección

56


Opción de prueba


1


18,42 %

81,58 %

0,1211

2


17,34 %

82,66 %

0,1083

3


17,07 %

82,93 %

0,1061


Estadística kappa


57


Opción de prueba


1


66,72 %

33,28 %

0,6231

2


64,75 %

35,25 %

0,6014

3


63,99 %

36,01 %

0,593


Estadística kappa

Ninguna clasificación correcta supera el 75%, las estadísticas kappa se encuentran entre los rangos de fuerza de concordancia moderada y sustancial, por lo tanto los modelos se descartan. Decisión de selección

58


Opción de prueba


1


33,19 %

66,81 %

0

2


14,22 %

85,78 %

0

3


32,86 %

67,14 %

0


Estadística kappa 1 0,8 0,6 0,4 0,2 0 1

2

3


59


Opción de prueba


1


36,88 %

63,12 %

0,1896

2


34,91 %

65,09 %

0,1644

3


34,94 %

65,06 %

0,166


Estadística kappa


60


codigo, dpto, costo, stockMin, stockMax, prioridad, refrigerado, almacenaje, fecha cantidad

Tabla 4.30. Prueba N° 1. Fase N° 3. Técnica clustering. N° 1




23,65 %

76,35 %



61


Opción de prueba


1


78,76 %

21,24 %

0,7594

2


78,09 %

21,91 %

0,7517

3


77,30 %

22,70 %

0,7432


Estadística kappa

Las clasificaciones correctas superan el 75%, las estadísticas kappa se encuentran en el rango de fuerza de concordancia sustancial, las opciones de prueba, conjunto de entrenamiento y validación cruzada superan el 0,75 requerido en la investigación, por lo tanto los modelos 1 y 2 se eligen como candidatos para la solución del problema. Decisión de selección

62


Opción de prueba


1


77,31 %

22,69 %

0,7368

2


76,79 %

23,21 %

0,7306

3


76,43 %

23,57 %

0,7266


Estadística kappa

Las clasificaciones correctas superan el 75%, las estadísticas kappa se encuentran en el rango de fuerza de concordancia sustancial, pero no superan el 0,75 requerido en la investigación, por lo tanto los modelos se descartan. Decisión de selección

63


Opción de prueba


1


47,63 %

52,37 %

0,4109

2


45,11 %

54,89 %

0,3825

3


45,61 %

54,39 %

0,3887


Estadística kappa

Ninguna clasificación correcta supera el 75%, las estadísticas kappa se encuentran entre los rangos de fuerza de concordancia justa y moderada, por lo tanto los modelos se descartan. Decisión de selección

64


Opción de prueba


1


79,75 %

20,25 %

0,7706

2


79,75 %

20,25 %

0,7706

3


79,74 %

20,26 %

0,7709


Estadística kappa

Las clasificaciones correctas superan el 75%, las estadísticas kappa se encuentran en el rango de fuerza de concordancia sustancial, y superan el 0,75 requerido en la investigación, por lo tanto los modelos se eligen como candidatos para la solución del problema. Decisión de selección

65


Opción de prueba


1


33,19 %

66,81 %

0

2


15,09 %

84,91 %

0

3


32,86 %

67,14 %

0


Estadística kappa


66


Opción de prueba


1


61,23 %

38,77 %

0,5596

2


51,89 %

48,11 %

0,4532

3


51,24 %

48,76 %

0,4465


Estadística kappa

Ninguna clasificación correcta supera el 75%, las estadísticas kappa se encuentran en el rango de fuerza de concordancia moderada, por lo tanto los modelos se descartan. Decisión de selección

Cierre: Para finalizar la etapa de selección y aplicación de algoritmos de minería de datos, en la siguiente tabla se detallan los modelos candidatos para la solución del problema, que cumplen con los requerimientos de la investigación.

67

Tabla 4.37. Matriz pruebas de validación a las técnicas seleccionadas.

Nº

1

2

Fase

3

3

Técnicas

Opción de prueba

Clasificación Clasificación correcta incorrecta

Estadística kappa

Error absoluto

Curva ROC


78,76 %

21,24 %

0,7594

37,11 %

0,985


78,09 %

21,91 %

0,7517

37,71 %

0,957


79,75 %

20,25 %

0,7706

22,64 %

0,897


79,75 %

20,25 %

0,7706

22,59 %

0,897

Porcentaje de división. 70%.

79,74 %

20,26 %

0,7709

22,55 %

0,897

J48

OneR

Conclusión

Se determina que las técnicas J48 y OneR, con la opción de prueba conjunto de entrenamiento, son las que mejores resultados aportan para la solución del problema, por lo tanto son las utilizadas en la siguiente etapa de la investigación.

68

4.5. Interpretación y Evaluación de los Patrones Encontrados.

Tabla 4.38. Relación entre los modelos encontrados. Nº

Técnica de minería

1

J48

Total Falsos Precisión Sensibilidad Especificidad positivos positivos 0,788

0,004

Variables empleadas por el modelo

Técnica de minería

2

OneR

0,788

0,996

codigo, dpto, costo, stockMin, stockMax, prioridad, cantidad Número de hojas: 77

Otras características

Nº

0,719

Tamaño del árbol: 130

Total Falsos Precisión Sensibilidad Especificidad positivos positivos 0,798

0,004

Variables empleadas por el modelo Otras características

0,731

0,798

0,996

stockMax, cantidad Número de reglas: 55

Fuente: Software Weka.

Relación de las Variables. Procedimiento a través del cual utilizando diagramas de dispersión y la tabla de coeficientes de correlación, se analizan visualmente las variables utilizadas por las técnicas para construir los modelos respecto a la variable dependiente. Estudio que se realiza con el propósito de conseguir factores determinantes que aumenten la efectividad de los modelos.

69

Figura 4.1. Diagrama de dispersión, X = codigo, Y = cantidad. Fuente: Software Weka.

Figura 4.2. Diagrama de dispersión, X = dpto, Y = cantidad. Fuente: Software Weka.

70

Figura 4.3. Diagrama de dispersión, X = costo, Y = cantidad. Fuente: Software Weka.

Figura 4.4. Diagrama de dispersión, X = stockMin, Y = cantidad. Fuente: Software Weka.

71

Figura 4.5. Diagrama de dispersión, X = stockMax, Y = cantidad. Fuente: Software Weka.

Figura 4.6. Diagrama de dispersión, X = prioridad, Y = cantidad. Fuente: Software Weka.

72

Tabla 4.39. Coeficiente de correlación entre las variables. Dependiente

cantidad

Independiente Código

0,2739

dpto

0,2966

costo

0,0744

stockMin

0,9846

stockMax

0,9908

prioridad

0,5254 Fuente: Software Weka.

Análisis de los Diagramas de Dispersión y el Coeficiente de Correlación. Luego de observar cada diagrama de dispersión y la tabla de coeficiente de correlación entre variables, haciendo especial énfasis donde se muestra la relación entre stockMax y cantidad, por ser el stockMax la única variable independiente que coincidieron en emplear las dos técnicas de minería de datos para construir el modelo predictivo y la cantidad la variable dependiente o variable a predecir. Situación confirmada por el coeficiente de correlación, debido que el stockMax y la cantidad presentan la mejor relación entre variables, con un índice de dependencia positivo casi perfecto. En el diagrama de dispersión del stockMax y la cantidad (Figura 4.5.) se observa que algunos pocos puntos que representa la cantidad, despliegan una significativa dispersión con respecto al stockMax. En relación a lo expuesto y con el

73

propósito de mejorar los resultados de los modelos, se realizan los siguientes procedimientos y análisis denominados pruebas de la fase 4. 1. Realizar la selección de atributos que ofrece Weka, al conjunto de variables de entrada. 2. Modificar la discretización de la variable dependiente cantidad, la primera discretización se realizó en la etapa de transformación de los datos, quedando conformada por grupos múltiplos de 5, y con la cual se realizaron las pruebas de las fases N° 1, 2 y 3. Se modifica la discretización a grupos múltiplos de 2, para las pruebas de la fase N° 4. Con el objetivo de analizar el comportamiento de los modelos en estudio. 3. Mediante el uso del lenguaje de programación PHP, se realiza una búsqueda y reemplazo de los valores con mayor dispersión de la variable cantidad, observados en el diagrama de dispersión stockMax y cantidad, por valores promedios. 4. Realizar regresión lineal de forma individual a cada variable independiente respecto con la variable dependiente, para comprobar las relaciones deterministas en la construcción del modelo. 5. Modificar las opciones que ofrece Weka, para las técnicas J48 y OneR, en la construcción de los modelos en estudio, para analizar su tendencia.

74

Tabla 4.40. Prueba Nº 1. Fase Nº 4. Selección de atributos Variables evaluadas

Variables seleccionadas

codigo, dpto, costo, stockMin, stockMax, stockMax, fecha, cantidad prioridad, refrigerado, almacenaje, fecha, cantidad Descripción A través de la opción de selección de atributos de Weka, se utilizó el sub conjunto evaluador, donde se analiza el valor de un conjunto de atributos considerando la capacidad de predicción individual, junto con el grado de redundancia entre ellos, el método de búsqueda empleado fue el mejor primero. Procedimiento realizado con el objetivo de reducir la cantidad de variables empleadas en los modelos. Las variables seleccionadas son las utilizadas en las siguientes pruebas de los modelos.

Tabla 4.41. Prueba N° 2. Fase N° 4. Discretización N°

Técnica

Resultado

1

J48

4,80 %

2

OneR

1,42 % Descripción

El proceso de modificar la discretización de la variable dependiente cantidad a grupos múltiplos de 2, produce una disminución en el rendimiento de los modelos, valor que a posterior no es negativo, debido que al estar discretizada la variable a predecir de esta forma, ofrece mayor confiabilidad a los modelos, por lo tanto, en lo sucesivo se utilizara la variable cantidad, discretizada en grupos múltiplos de 2.

75

Tabla 4.42. Prueba N° 3. Fase N° 4. Búsqueda y reemplazo N°

Técnica

Resultado

1

J48

14,68 %

2

OneR

14,19 % Descripción

Después de realizar la búsqueda y reemplazo de los valores con mayor dispersión de la variable cantidad, se obtuvo un mejor modelo predictivo en cada técnica de minería de datos, con un aumento del 14,43% en promedio, de la clasificación correcta.

Tabla 4.43. Prueba N° 4. Fase N° 4. Regresión lineal Dependiente

cantidad Coeficiente de correlación

Error absoluto

codigo

0,2744

94,45 %

dpto

0,2962

85,71 %

costo

0,0744

99,77 %

stockMin

0,9922

13,30 %

stockMax

0,9984

2,10 %

prioridad

0,5287

73,01 %

refrigerado

0,0766

99,08 %

Independiente

76

almacenaje

0,0246

99,95 %

fecha

0,0584

99,52 %

Descripción Posterior de efectuar el proceso de búsqueda y reemplazo, se realizó regresión lineal de forma individual a cada variable independiente respecto con la variable dependiente, para comprobar las relaciones deterministas. Proceso llevado a cabo con la variable dependiente cantidad continua, es decir, sin discretizar. El resultado confirma que el stockMax y la cantidad presentan la mejor relación entre variables, con un índice de dependencia positivo casi perfecto.

Tabla 4.44. Prueba N° 5. Fase N° 4. Técnica J48. Análisis con Weka N°

Opción

Valor por defecto

Cambio

Resultado 0,97 %

1

Divisiones binarias.

Falso.

Verdadero.

2

Árbol de colapso.

Verdadero.

Falso.

3

Factor de confidencia.

0,25

0,1

4

Factor de confidencia.

0,25

0,5

5

Depurar.

Falso.

Verdadero.

6

No verifica las capacidades.

Falso.

Verdadero.

7

No hace punto de división del

Falso.

Verdadero.

valor real. 8

Número de particiones.

3

1

9

Número de particiones.

3

10

77

10

Reducir la poda de error.

Falso.

Verdadero.

7,21 %

11

Semilla.

1

1940

12

Recaudación de sub árbol.

Verdadero.

Falso.

1,92 %

13

Sin podar.

Falso.

Verdadero.

0,72 %

14

Utilizar Laplace.

Falso.

Verdadero.

15

Utilizar la corrección MDL.

Verdadero.

Falso.

Descripción Se realizó cada cambio de forma independiente, es decir, los restantes se mantenían con el valor por defecto. Durante la prueba se obtiene que la modificación de la opción divisiones binarias aumenta el rendimiento del modelo, entre tanto, las opciones reducir la poda de error, recaudación de sub árbol y sin podar, disminuyen el rendimiento. En consecuencia, para la siguiente prueba de la técnica J48 solo se modifica la opción que aporta rendimiento positivo al modelo.

78

Tabla 4.45. Prueba N° 6. Fase N° 4. Técnica OneR. Análisis con Weka N°

Valor por defecto

Opción

Cambio

Resultado

1

Depurar.

Falso.

Verdadero.

2

No verifica las capacidades.

Falso.

Verdadero.

3

Mínimo tamaño del cubo.

6

1

0,01 %

4

Mínimo tamaño del cubo.

6

12

0,05 %

Descripción Se realizó cada cambio de forma independiente, es decir, los restantes se mantenían con el valor por defecto. Durante la prueba se obtiene que la modificación de la opción mínimo tamaño del cubo, al valor de 1 aumenta el rendimiento del modelo, mientras que modificando la misma opción al valor de 12 disminuye el rendimiento del modelo. En consideración con lo expuesto, para la siguiente prueba de la técnica OneR solo se modifica la opción que aporta rendimiento positivo.

Optimizando los Modelos Encontrados. Luego de realizar las pruebas de la fase Nº 4, se procedió a modificar el conjunto de opciones que ofrecen mejores resultados a cada técnica, para determinar el total del rendimiento de cada modelo. Los resultados se detallan en la siguiente tabla.

79

Tabla 4.46. Resultados luego de las pruebas de la fase N° 4. N°

Técnica

Opción de prueba

1

J48

Conjunto entrenamiento.

Clasificación Clasificación correcta incorrecta 91,20 %

Estadística kappa

Error absoluto

Curva ROC

0,9006

17,43 %

0,997

8,80 %

N°

Técnica

Opción de prueba

2

OneR

Conjunto entrenamiento.

Clasificación Clasificación correcta incorrecta 91,08 %

8,92 %

Estadística kappa

Error absoluto

Curva ROC

0,8993

9,82 %

0,955


Estadística kappa

Conclusión Posterior del análisis de los modelos encontrados, se determina que las técnicas de minería de datos orientados a modelos predictivos J48 y OneR, aportan soluciones óptimas al problema. Siendo el modelo construido por la técnica árbol de decisión J48 el que mejor porcentaje presento para predecir en la investigación, se elige como modelo para desarrollar la herramienta informática.

80

Atendiendo las consideraciones anteriores, se establece positiva la hipótesis de la investigación, en consecuencia, si es posible obtener un modelo predictivo para la gestión de insumos y medicamentos, a partir de los datos históricos disponibles en la base de datos del sistema SAISYS del Hospital General de Táriba, mediante el uso de técnicas de minería de datos.

Tabla 4.47. Descripción del modelo predictivo definitivo encontrado. Técnica de minería de datos Clasificación Clasificación Estadística correcta incorrecta kappa 91,20 %

8,80 %

0,9006

Total positivos

Falsos positivos

Precisión

0,912

0,002

0,866

Variables empleadas Fuente: Software Weka.

J48 Error absoluto

Curva ROC

17,43 %

0,997

Sensibilidad Especificidad

stockMax, fecha, cantidad

0,912

0,998

81

4.6. Desarrollo de la Herramienta Informática para Consultar el Modelo Predictivo Encontrado El desarrollo de la herramienta informática se inició a partir de las reglas generadas por Weka a través del modelo predictivo J48 encontrado. Se construyeron dos librerías una de tipo JavaScript y otra de tipo PHP, se realizaron de esa forma para tener el modelo disponible en dos formatos, básicamente cada librería contiene una función que recibe como parámetros las variables stockMax y fecha, para luego aplicar las reglas del modelo y retornar el valor predictivo de la cantidad. Las librerías se sometieron a diferentes pruebas para confirmar la veracidad de sus resultados, después de comprobar que proporcionaban información 100% fidedigna, se aprobaron como aptas para la siguiente etapa del proceso. Finalmente utilizando la librería PHP del modelo J48 y empleando la metodología RAD (Desarrollo rápido de aplicaciones) se procedió a desarrollar en el lenguaje de programación PHP, la herramienta informática que consulta el modelo encontrado, y por consiguiente, apoya en la toma de decisiones para la gestión de insumos y medicamentos en el Hospital General de Táriba. La cual ofrece las características que se especifican en la siguiente tabla, posteriormente se presenta las figuras con las principales pantallas y reportes que genera la herramienta informática.

82

Tabla 4.48. Lista de cotejo. Descripción de la herramienta informática. UNIVERSIDAD NACIONAL EXPERIMENTAL DEL TÁCHIRA VICE-RECTORADO ACADÉMICO DECANATO DE POSTGRADO MAESTRÍA EN INFORMÁTICA

LISTA DE COTEJO Propósito: Evaluar la herramienta informática que consulta el modelo predictivo. Instrucciones: Marcar con un “

Si

” en la casilla que corresponda según el siguiente criterio:

La característica asociada al componente está presente en la herramienta informática.

Componente

Características

No

La característica asociada al componente no está presente en la herramienta informática.

Si

No

1.1. Usabilidad. 1. Interfaz web. 1.2. Intuitiva. 2.1. Individual. 2.2. Categorizada. 2. Predicciones. 2.3. General. 2.4. Generar documento. 3.1. Individual. 3. Estadísticas.

3.2. Por fecha. 3.3. Histogramas.

Observación general

La herramienta informática cumple con los requerimientos propuestos y soluciona la problemática planteada en la investigación.

83

Figura 4.7. Pantalla iniciar sesión.

84

Figura 4.8. Pantalla inicio de la herramienta informática.

85

Figura 4.9. Pantalla predecir individual.

86

Figura 4.10. Pantalla predecir categorizada.

87

Figura 4.11. Pantalla predecir general.

88

Figura 4.12. Pantalla estadística individual.

89

Figura 4.13. Pantalla estadística por fecha.

90

Figura 4.14. Pantalla estadística en histogramas.

91

Figura 4.15. Pantalla actualización de usuarios.

92

Figura 4.16. Reporte predicción de consumo mensual categorizada.

93

Figura 4.17. Reporte predicción de consumo mensual general.

94

Figura 4.18. Reporte estadística de consumo mensual.

CAPÍTULO V CONCLUSIONES Y RECOMENDACIONES 5.1. Conclusiones. El estudio se originó a través de una investigación proyectiva dentro del contexto de la inteligencia de negocios a través de la minería de datos, con el objetivo de construir un modelo predictivo para la gestión de insumos y medicamentos en el Hospital General de Táriba. Siguiendo el proceso KDD se realizó la selección, integración, preparación y transformación de los datos, selección y aplicación de algoritmos de minería de datos, interpretación y evaluación de los patrones encontrados. Las técnicas seleccionadas para realizar el análisis fueron las siguientes: Clustering, J48, JRip, Naïve Bayes, OneR, perceptrón multicapa y REPTree. Los requerimientos establecidos en la investigación para elegir un modelo como aprobado para la solución de la problemática planteada, se establecieron de la siguiente forma: Clasificación correcta superior al 75% y estadística kappa mayor al 0,75 de fuerza de concordancia. La investigación del modelo origino que la variable que mejor define la predicción de las cantidades de insumos y medicamentos, es la variable stockMax la cual contiene la máxima provisión de cada producto, sus valores son numéricos no continuos que fluctúan entre 0 y 36.000. La afirmación de mejor definición se fundamenta en el diagrama de dispersión (Figura 4.5.) y el coeficiente de correlación (Tabla 4.39.), donde la variable stockMax presenta la mejor relación entre variables. No obstante las demás variables independientes utilizadas como entrada, mejoran el rendimiento del modelo encontrado.

96

El proceso investigativo se realizó con una variable dependiente o de predicción (cantidad), la cual para las pruebas de las fases Nº 1, 2 y 3 se utilizó con valores discretos múltiplos de 5, y para las pruebas de la fase Nº 4 se empleó con valores discretos múltiplos de 2, con el objetivo de ofrecer mayor confiabilidad al modelo elegido para desarrollar la herramienta informática. Durante la investigación se determinó que el proceso de realizar la búsqueda y reemplazo de los valores con mayor dispersión de la variable cantidad, aporto el mejor resultado en el rendimiento de los modelos predictivos en cada técnica de minería de datos, con un aumento del 14,68% de la clasificación correcta en el modelo J48. Otra técnica que generó aporte positivo en los modelos consistió en la modificación de las opciones que ofrece Weka, para la técnica J48 generó un aumento en el rendimiento del modelo encontrado de 0,97%. Las técnicas de minería de datos orientados a modelos predictivos J48 y OneR, aportaron las soluciones más óptimas al problema, de todas las técnicas analizadas en la investigación. Siendo el modelo construido por la técnica árbol de decisión J48 el que mejor porcentaje presento para predecir, con una clasificación correcta de 91,20% y una estadística kappa 0,9006 de fuerza de concordancia, se eligió como modelo para desarrollar la herramienta informática. El desarrollo del estudio comprobó que por medio del software Weka, se pueden construir, probar y validar modelos de minería de datos de una manera rápida y confiable, a través de la amplia variedad de algoritmos y opciones de minería de datos que ofrece la mencionada herramienta. Contexto determinante en la obtención del modelo para la solución del problema de la presente investigación, y por consiguiente, establecer como positiva la hipótesis de la investigación. La herramienta informática producto del modelo encontrado, ofrece múltiples consultas y reportes predictivos que sirven de soporte para la toma de decisiones en cuanto a la gestión de los insumos y medicamentos en el Hospital General de Táriba.

97

La información generada por medio de la herramienta informática es en relación al patrón de consumo de las áreas de la institución, en consecuencia, sus principales logros son la optimización de los recursos y el bienestar social tanto para el hospital como para sus usuarios.

5.2. Recomendaciones. Se recomienda principalmente seguir tres líneas de acción, la primera línea consiste en realizar estudios para buscar nuevas variables, mientras tanto, la segunda línea de trabajo comprende efectuar pruebas con otras técnicas de minería de datos, por último, la tercera línea de acción está dirigida a emplear herramientas para el descubrimiento de conocimiento o proceso de minería de datos diferentes a Weka, como SQL Server Business Intelligence Development. Lo antes expuesto, se recomienda como trabajos futuros con el objetivo de realizar comparación de resultados o para mejorar el rendimiento del modelo encontrado en la presente investigación.

98

REFERENCIAS BIBLIOGRÁFICAS LIBROS Bernal T., César A. (2010). Metodología de la investigación. (3ra ed.). Colombia: Pearson Educación. Hernández S., Fernández C. y Baptista P. (2010). Metodología de la investigación. (5ta ed.). México: Mc Graw Hill. Tamayo y T., M. (2010). El proceso de la investigación científica. (4ta ed.). México: Limusa.

TRABAJOS ACADÉMICOS Trabajos de grado y tesis doctorales Sánchez R., J. (2010). Sistema web para diagnóstico de enfermedades prevalentes en la infancia mediante técnicas de minería de datos y aprendizaje automático. Universidad Nacional Experimental del Táchira, San Cristóbal.

Documentos y reportes técnicos Hospital General de Táriba. (2015). Manual Organizacional. Táriba. Autor.

Documentos de tipo legal Constitución de la República Bolivariana de Venezuela. (2000). Gaceta Oficial de la República Bolivariana de Venezuela No 5.453 (Extraordinaria). Marzo 24, 2000. Decreto Nº 1.399, con Rango, Valor y Fuerza de Ley de Contrataciones Públicas. (2014). Gaceta Oficial de la República Bolivariana de Venezuela Nº 6.154 (Extraordinaria). Noviembre 19, 2014. Decreto Nº 1.798. (1983). Gaceta Oficial de la República de Venezuela Nº 32.650. Enero 21, 1983.

99

Ley de Infogobierno. (2013). Gaceta Oficial de la República Bolivariana de Venezuela No 40.274. Octubre 17, 2013. Ley Orgánica de la Administración Pública. Decreto N° 6.217. (2008). Gaceta Oficial de la República Bolivariana de Venezuela No 5.890 (Extraordinaria). Julio 31, 2008.

FUENTES ELECTRÓNICAS Tesis en línea Aldas, L. (2013). Sistema web para el control de facturación e inventario de medicamentos y bienes en el Hospital Regional Docente Ambato. Universidad Técnica de Ambato, Ecuador. Consultada el 18 de noviembre de 2014 en: http://repo.uta.edu.ec/bitstream/handle/123456789/6249/Tesis_t853si.pdf?seque nce=1 Arias, J. (2012). Diseño y construcción de un data mart para el filtro de opiniones en la web a partir de datos originados en el portal educar Chile. Universidad de Chile, Santiago de Chile. Consultada el 26 de noviembre de 2014 en: http://tesis.uchile.cl/bitstream/handle/2250/111296/cf-arias_jc.pdf?sequence=1 Bayter, A. (2008). Mejoramiento en la gestión de compras e inventario de medicamentos y dispositivos médicos en la Clínica Prevención y Salud IPS LTDA, en el Banco Magdalena. Universidad Industrial de Santander, Bucaramanga Colombia. Consultada el 18 de noviembre de 2015 en: http://www.ddic.com.mx/investigacion/wpcontent/uploads/2013/10/busatamante2008tesis.pdf Corso, C. (2009). Aplicación de algoritmos de clasificación supervisada usando Weka. Universidad Tecnológica Nacional, Facultad Regional Córdoba. Argentina. Consultada el 7 de marzo de 2016 en: http://www.investigacion.frc.utn.edu.ar/labsis/Publicaciones/congresos_labsis/cy nthia/CNIT_2009_Aplicacion_Algoritmos_Weka.pdf Gonzales, R. (2012). Impactó de la data warehouse e inteligencia de negocios en el desempeño de las empresas: investigación empírica en Perú, como país en vías de desarrollo. Universitat Ramón Llull. Consultada el 25 de noviembre de 2014 en:

100

http://www.tesisenred.net/bitstream/handle/10803/85876/GONZALES_Tesis Doctoral_FV.pdf?sequence=1 Guillén, F. (2012). Desarrollo de un datamart para mejorar la toma de decisiones en el área de tesorería de la Municipalidad Provincial de Cajamarca. Universidad Privada del Norte, Perú. Consultada el 14 de enero de 2015 en: http://repositorio.upn.edu.pe/handle/upnorte/123 Martínez, C. (2012). Aplicación de técnicas de minería de datos para mejorar el proceso de control de gestión en Entel. Universidad de Chile, Santiago de Chile. Consultada el 14 de enero de 2015 en: http://www.tesis.uchile.cl/bitstream/handle/2250/112065/cfmartinez_ca.pdf?sequence=1 Recasens, J. (2011). Inteligencia de negocios y automatización en la gestión de puntos y fuerza de ventas en una empresa de tecnología. Universidad de Chile, Santiago de Chile. Consultada el 25 de noviembre de 2014 en: http://www.tesis.uchile.cl/tesis/uchile/2011/cf-recasens_js/html/indexframes.html Vielma, I. (2013). Mejoramiento de la gestión de insumos de pabellón del Hospital Exequiel González Cortés. Universidad de Chile, Santiago de Chile. Consultada el 20 de enero de 2015 en: file:///C:/Documents and Settings/Almac%C3%A9n/Mis documentos/Downloads/cf-vielma_ig.pdf

Artículo de revista electrónica Hernández, M. (2011). Procedimiento para el desarrollo de un sistema de inteligencia de negocios en la gestión de ensayos clínicos en el Centro de Inmunología Molecular. ACIMED, 22(4), 349–361. Consultada el 18 de noviembre de 2014 en: http://scielo.sld.cu/scielo.php?script=sci_arttext&pid=S102494352011000400006 Hernández, T. (2010). Acciones sobre los determinantes sociales de la salud en Venezuela. Revista Cubana de Salud Pública, 36(4), 366–371. Consultada el 10 de agosto de 2015 en: http://scielo.sld.cu/pdf/rcsp/v36n4/spu13410.pdf Landis, J. Koch, G. (1977). The measurement of observer agreement for categorical data. Biometrics, 33(1), 159-174. Consultada el 28 de marzo de 2015 en: http://www.jstor.org/stable/2529310

101

Rodríguez, Y., y Díaz, A. (2009). Herramientas de minería de datos. Revista Cubana de Ciencias Informáticas, 3(3), 73–80. Consultada el 20 de enero de 2015 en: https://rcci.uci.cu/index.php/rcci/article/view/78/70 Soria, J., y Mamani, G. (2013). Modelo de simulación de inventario basado en redes neuronales artificiales supervisadas y algoritmos genéticos para optimizar el stock de medicamentos de la Clínica Ricardo Palma. INGETECNO, 2(1). Consultada el 15 de enero de 2015 en: file:///C:/Documents and Settings/Almac%C3%A9n/Mis documentos/Downloads/176-552-1-PB (2).pdf

102

ANEXOS 1. Clasificación de los listados por tipo de producto.

Ítem

Descripción

1

Material médico.

2

Medicamentos.

3

Insumos para laboratorio.

4

Insumos para odontología.

5

Insumos para radiología.

6

Insumos para nutrición y dietética.

7

Útiles de escritorio y oficina.

8

Materiales para mantenimiento y usos generales.

9

Insumos para limpieza y aseo.

10

Instrumental.

103

2. Sistema Actual SAISYS.

104

3. Estructura de la Base de Datos Actual.

Tabla maestro. Id

Nombre

Descripción

Observaciones

1

CODIMAE

Código del artículo.

2

DESCRIP

Descripción del artículo.

3

REFEREN

Referencia.

4

DEPARTA

Departamento.

5

UNIDAD

Presentación.

6

CANTUNI

Cantidad por unidad.

7

EXISTE

Existencia.

8

PVP1

Precio1.

Ultimo costo.

9

PVP2

Precio2.

Ultimo costo.

10

PVP3

Precio3.

No tiene datos.

11

PVP4

Precio4.

No tiene datos.

12

COSTO

Costo.

13

ULTICOST

Ultimo costo.

14

STOCK

Mínima provisión.

15

FVENTA

Fecha de venta.

16

FCOMPRA

Fecha de compra.

17

PROVEE1

Proveeedor1.

No tiene datos.

18

PROVEE2

Proveeedor2.

No tiene datos.

Mayoría tiene “001”

Todos tiene “1”

105

19

UBICA

Ubicación.

No tiene datos.

20

AUDITO

Auditoria.

21

STATUS

Status.

22

EXISINIC

Existencia inicial.

23

FECHINIC

Fecha inicial.

24

IVA

Impuesto.

25

LABORAB

Laboratorio.

No tiene datos.

26

PESOB

Peso.

No tiene datos.

27

CODIREP

Código del repuesto.

No tiene datos.

28

REEMPLA1

Reemplazo 1.

No tiene datos.

29

REEMPLA2

Reemplazo 2.

No tiene datos.

30

GRUPO

Grupo.

31

MARCA_REP

Marce del repuesto.

No tiene datos.

32

MARCA_VEH

Marca del vehículo.

No tiene datos.

33

MODELO_VEH

Modelo del vehículo.

No tiene datos.

34

MOTOR

Motor de vehículo.

No tiene datos.

35

FACTCOMP

Factura de compra.

No tiene datos.

36

STOCKMA

Máxima provisión.

37

VENCIMI

Vencimiento.

No tiene datos.

38

CODICONT

Código continúo.

No tiene datos.

Todos tienen “1” No tiene datos.

106

Tabla transaccional. Id

Nombre

Descripción

1

CORRGENE

Correlativo generado.

2

STATTRAN

Estatus de la transacción.

3

TIPOTRAN

Tipo de transacción.

4

CODITRAN

Código de la transacción.

5

STATBUSQ

Estatus de búsqueda.

6

FECHTRAN

Fecha de la transacción.

7

CANTTRAN

Cantidad de la transacción.

8

PVP_TRAN

Precio de venta al público de la

Observaciones

Blanco – 1 – 2 1-2-9 Código del producto. No tiene datos.

Costo.

transacción. 9

COSTTRAN

Costo de la transacción.

CANTTRAN x PVP_TRAN

10

COPRTRAN

Costo promedio de la transacción.

COSTTRAN / CANTTRAN

11

DESCTRAN

Descuento de la transacción.

No tiene datos.

12

EXISTRAN

Existencia del artículo.

13

CORRFACT

Correlativo de la factura.

14

NOENTRAN

Número de entrada.

15

FACTTRAN

Factura de la transacción.

16

NUMETRAN

Número de la transacción.

17

CODIVEND

Código del vendedor.

18

CODICLIE

Código del cliente.

No tiene datos.

Blanco – Código del servicio de destino. No tiene datos.

107

19

IMPUTRAN

Imputación de la transacción.

20

ISV_TRAN

IVA de la transacción.

21

CODIDESP

Código de despacho.

No tiene datos.

22

VENCIMI

Vencimiento del producto.

No tiene datos.

108

4. Solicitud de Compra Actual.

Pág. 1/1

SOLICITUD DE MEDICAMENTOS Solicitud Nº 15-015

Nº

CANT.

UNIDAD CÓDIGO

Fecha 29/05/2015

DESCRIPCIÓN Y ESPECIFICACIONES

1

150 AMP.

22.011

ACIDO FÓLICO I.V.

2

50 Gfa.

20.013

ALCOHOL ISOPROPILICO 70%

3

300 AMP.

20.338

AMINOFILINA 10 ml.

4

3.000 AMP.

20.451

AMPICILINA SULBACTAN 1,5 gr.

5

500 AMP.

20.042

ANTIESPASMÓDICO 20 mg / ml.

6

400 AMP.

20.268

ATROPINA 0,5 mg

7

100 AMP.

20.015

BETAMENTASONA 4 mg.

8

50 AMP.

20.395

BROMHEXINA 2ml.

9

50 FCO.

20.299

BROMURO DE IPATROPIO 30 ml. GOTAS

10

300 AMP.

20.540

CEFACIDAL 1 gr.

11

400 AMP.

20.062

CEFALOTINA 1 gr.

12

200 AMP.

20.318

CEFOTAXIMA 1 gr.

13

300 AMP.

20.370

CICLOKAPRON 500mg.

14

400 AMP.

20.679

CIPROFLOXACINA 100 mg.

15

100 FCO.

20.359

CLORURO DE POTASIO 7,5% 100 ml.

16

300 AMP.

20.305

DEXAMETASONA 4 mg 2 ml.

17

2.000 AMP.

20.276

KETOPROFENO I.V.

18

300 AMP.

21.074

TIOCOLCHICOCIDO I.V.

I.V I.M.

Modelo predictivo para la toma de decisiones en la gestión de insumos y medicamentos para el Hospital General de Táriba

Recommend Documents