Grupo de apoyo a la preparación de la XXII convocatoria de oposiciones al Cuerpo Superior de Sistemas y Tecnologías de la Información de la Administración del Estado
HERRAMIENTAS DE BUSINESS INTELLIGENCE Estas herramientas se encargan del análisis y presentación de datos, lo que permite el soporte a la toma de decisiones, elaboración de estadísticas e informes, análisis de los datos involucrados en el sistema (OLAP, Data mining, cuadros de mando, etc.). Estas herramientas son muy útiles ya que permiten:
Utilizar los propios datos de una organización como punto de partida para la toma de decisiones. Realizar una optimización de procesos. Realizar reportes operacionales. Las herramientas de business intelligence pueden ser de cinco estilos diferentes:
Reporte empresarial. Cubos de análisis. Vistas Ad Hoc Query y análisis. Data mining y análisis estadísticos. Entrega de reportes y alertas.
Recomendación: Normalmente, en el cuarto examen no se suele pedir una solución de business intelligence de forma explícita. No obstante, en algunos casos resulta aconsejable incluir algún módulo de explotación/análisis de datos para la toma de decisiones de forma complementaria y adicional.
A continuación se indican algunas de las herramientas de business intelligence existentes en el mercado:
1
Grupo de apoyo a la preparación de la XXII convocatoria de oposiciones al Cuerpo Superior de Sistemas y Tecnologías de la Información de la Administración del Estado Herramienta Pentaho
JasperReports
Oracle BI
Características
Tecnología
Licencia
Información adicional
Corre bajo los sistemas operativos Windows, Linux y Mac OS X Genera los informes en diferentes formatos: HTML, Excel, CSV, PDF y RTF. Interfaz web muy intuitive Acceso a datos relacionales, OLAP y XML Multiplataforma Soporta los formatos PDF, HTML, Microsoft Excel, RTF, ODT, Comma-separated values o XML. Lee las instrucciones desde un fichero XML o .jasper Utiliza interfaces ODBC 2.0 y JDBC
Java
Código abierto (Pentaho Communit y Edition (CE): Apache version 2.0)
Incluye herramientas integradas para generar informes, minería de datos, ETL, etc.
Java
Código abierto (LGPL)
Es una librería que se puede embeber en una aplicación Java, incluyendo Java EE o aplicaciones web. Es útil si sólo deseamos elaborar informes y estadísticas. Varios IDEs de Java (NetBeans, Eclipse, IBM Websphere Studio Application Developer) proporcionan instrucciones para integrar JasperReports en un proyecto.
Java
SW propietario
2
Grupo de apoyo a la preparación de la XXII convocatoria de oposiciones al Cuerpo Superior de Sistemas y Tecnologías de la Información de la Administración del Estado
CLASIFICACION AUTOMÁTICA DE DOCUMENTOS
Un tipo de sistemas que no está muy extendido en la Administración pero que puede ser interesante tener en cuenta en algunas situaciones son los clasificadores automáticos de documentos. Su utilización aporta las siguientes mejoras:
permite emplear un menor número de personal en la tarea de lectura y clasificación de documentos, y emplearlos en otras unidades donde aporten más valor. optimiza el tiempo de respuesta. homogeniza el resultado en la clasificación al no incorporar la subjetividad humana.
Estos sistemas son útiles cuando se reciben documentos de texto libre por parte de los ciudadanos, y se encargan de clasificarlos de forma automática y reenviarlos a la unidad encargada de tratar cada tipo de documento o procedimiento. Los clasificadores automáticos son herramientas no deterministas, y hay que tener muy en cuenta que nunca van a llegar a un 100% de acierto, de hecho, en los sistemas con unos documentos de buena calidad se suele llegar como máximo a un 90%.
Elementos de un sistema de clasificación de documentos 1. Carga de documentos El primer elemento del sistema es el encargado de la carga de documentos en el sistema. Puede ser de cualquier tipo: sistema de ficheros, servicios web, cargas batch, etc. 2. OCR Si el sistema permite el envío de documentos manuscritos escaneados es necesario la utilización de un OCR (Optical Character Recognition). Hay que tener en cuenta que la necesidad de un OCR tiene dos implicaciones:
el tiempo de proceso aumenta considerablemente, ya que los OCR suelen ser lentos. la precisión del sistema disminuye.
3. Módulo de análisis del lenguaje natural (NLP)
3
Grupo de apoyo a la preparación de la XXII convocatoria de oposiciones al Cuerpo Superior de Sistemas y Tecnologías de la Información de la Administración del Estado Este módulo se encarga de realizar un procesamiento muy diverso sobre el lenguaje. Desde eliminación de stoptwords, aplicación de sinónimos, hasta algoritmos más avanzados que realizan identificación sintáctica de los elementos del texto. 4. Módulo de clasificación A partir de la información que se ha obtenido del módulo de análisis del lenguaje, se aplican algoritmos matemáticos para la clasificación en grupos. Los más utilizados suelen ser Máquinas de Vector Soporte, y clasificadores bayesianos.
4
Grupo de apoyo a la preparación de la XXII convocatoria de oposiciones al Cuerpo Superior de Sistemas y Tecnologías de la Información de la Administración del Estado
Herramienta OCR Tesseract
Características
OCR Abbyy
Mahout
R
Corre bajo los sistemas operativos Windows y Linux Desarrollado por Google Se trata de uno de los OCR más usados No soporta layout de páginas Windows Ofrece una gran calidad de reconocimiento, en la mayoría de los casos por encima de Tesseract Soporta layout de páginas Multiplataforma Librería de minería de datos ampliamente utilizada. Se integra muy bien en el ecosistema Apache Dispone de versiones para Windows, Linux y Mac Plataforma de estadística y minería de datos muy utilizada Incluye su propio lenguaje
Tecnología
Licencia
C
SW libre: Apache version 2.0
Información adicional
SW propietario
Debido a su elevado coste en la muchos proyectos se suele utilizar Tesseract
Java
SW libre: Apache version 2.0
Muchas de sus funciones tienen implementación para desplegar en infraestructuras Hadoop / Cloudera de Big Data
C
SW libre: GNU
Permite tanto su uso como aplicación de escritorio en que un usuario realiza cálculos estadísticos, como la programación de funciones que se pueden integrar con otros sistemas.
5
Grupo de apoyo a la preparación de la XXII convocatoria de oposiciones al Cuerpo Superior de Sistemas y Tecnologías de la Información de la Administración del Estado de scripting para definir los análisis que se realicen
6