Inteligencia de Negocios (Teoría)
INTELIGENCIA DE NEGOCIOS
2
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
3
Índice Presentación Red de contenidos
5 7
Unidad de Aprendizaje 1
FUNDAMENTOS DE BUSINESS INTELLIGENCE 1.1 Tema 1 : Introducción y conceptos 1.1.1 : Inteligencia de Negocios 1.1.2 : Necesidades de negocio 1.1.3 : Historia y evolución de BI 1.1.4 : Casos de éxito de Inteligencia de Negocios : 1.2 Tema 2 : Data Warehousing 1.2.1 : Data Warehouse y Data Mart 1.2.2 : Tendencias en BI 1.2.3 : OLTP y OLAP 1.2.4 : Las Visiones de Bill Inmon y Ralph Kimball 1.2.5 : Arquitectura de Zachman
9 10 10 12 14 16 18 18 21 23 26 28
Unidad de Aprendizaje 2
MODELAMIENTO DIMENSIONAL 2.1 Tema 3 : Diseño de DataMart 2.1.1 : Modelamiento Dimensional 2.1.2 : Componentes de un modelo dimensional 2.1.3 : Surrogate Key – Nivel de Granularidad 2.1.4 : Tipos de modelo dimensional 2.1.5 : Documentación de los elementos de diseño 2.1.6 : Resolución de casos
35 36 36 38 38 39 42 43
2.2 Tema 4 2.2.1 2.2.2 2.2.3 2.2.4
45 45 45 49 49
: : : : :
Taller de Modelado Dimensional Identificando medidas Identificando dimensiones y sus tipos Diseñando niveles de granularidad Resolución de casos
Unidad de Aprendizaje 3
ETL y METODOLOGÍA DE RALPH KIMBALL 3.1 Tema 5 : ETL 3.1.1 : Concepto 3.1.2 : Etapas de un proceso ETL 3.1.3 : Opciones para implementar procesos ETL
53 54 54 55 63
3.2 Tema 6 3.2.1 3.2.2 3.2.3 3.2.4
63 63 64 66 71
: : : : :
Metodología Introducción a la metodología de Ralph Kimball Identificación de las fases de la metodología RK Etapas de un proceso de Data Mart y Data Warehouse Actividades y entregables
IEST PRIVADO CIBERTEC
CARRERA DE COMPUTACIÓN E INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
3.3 Tema 7 3.3.1
4
: Taller : Desarrollo de un caso aplicando metodología RK
74 74
Unidad de Aprendizaje 4
BIG DATA, HADOOP, MACHINE LEARNING, DATA MINING 4.1 Tema 8 : Big Data 4.1.1 : Definición y su rol en el mundo empresarial 4.1.2 : Fases de desarrollo de una estrategía Big Data 4.1.3 : Gobernabilidad para la gestión de volúmenes de datos
79 80 80 83 86
4.2 Tema 9 4.2.1 4.2.2 4.2.3 4.2.4
: : : : :
Hadoop Introducción a Hadoop Arquitectura Administración Hadoop Componentes Hadoop
92 92 93 96 99
4.3 Tema 10 4.3.1 4.3.2 4.3.3 4.3.4
: : : : :
Machine Learning Concepto Escenarios de Negocio que utilicen ML Tipos de aprendizaje Algoritmos básicos
103 103 104 107 108
4.4 Tema 11 4.4.1 4.4.2 4.4.3 4.4.4 4.4.5
: : : : : :
Data Mining Concepto Proceso Normas Usos Análisis ForeCasting
115 115 118 118 119 122
4.5 Tema 12 4.4.1 4.4.1.1 4.4.1.2
: : : :
Semana Integradora El futuro de la Inteligencia de Negocios Tendencias tecnológicas y Redes Sociales La Web como repositorio de información
122 122 124 131
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
5
Presentación En un mundo donde las Tecnologías de Información determinan la forma en que se hacen los negocios, las empresas necesitan explotar su mayor recurso: la información. Este análisis permitirá que se realicen análisis de tendencias y se obtengan parámetros que permita optimizar la toma de decisiones, tales como crear estrategias de negocio, fusión de empresas, nuevas giros en el negocio, expansiones, etc. El presente manual tiene por objetivo brindar a los alumnos los conceptos básicos para el curso de Inteligencia de Negocios. El manual esta desarrollado para complementar y afianzar lo expuesto en clase, con ejemplos y ejercicios prácticos se busca la comprensión de los temas. El tema central del curso, Datawarehouse es abordado desde sus conceptos básicos, arquitectura, modelamiento dimensional, en la cual se incide de manera precisa y detallada, transformación de datos, MDX y minería de datos.
IEST PRIVADO CIBERTEC
CARRERA DE COMPUTACIÓN E INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
6
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
7
Red de contenidos DATA WAREHOUSING
INDICADORES
ARQUITECTURA
ANÁLISIS DE REQUERIMIENTO Y FUENTES
ACCESO AL DATA WAREHOUSE
MODELAMIENTO Y DISEÑO
CONSULTAS OLAP MINERIA DE DATOS
POBLANDO EL DATA WAREHOUSE
BIG DATA HADOOP MACHINE LEARNING
METADATOS
METODOLOGÍA
CONSTRUCCIÓN
ADMINISTRACIÓN DE DATA WAREHOUSE
IEST PRIVADO CIBERTEC
CARRERA DE COMPUTACIÓN E INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
8
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
9
UNIDAD
1 FUNDAMENTOS INTELLIGENCE
DE
BUSINESS
LOGRO DE LA UNIDAD DE APRENDIZAJE Al término de la unidad, el alumno identifica los conceptos fundamentales relacionados a soluciones de Inteligencia de Negocios. TEMARIO 1.1 Tema 1 1.1.1 1.1.2 1.1.3 1.1.4 1.2 Tema 2 1.2.1 1.2.2 1.2.3 1.2.4 1.2.5
: : : : : : : : : : : :
Introducción y conceptos Inteligencia de Negocios Necesidades de negocio Historia y evolución de BI Casos de éxito de Inteligencia de Negocios Data Warehousing Data Warehouse y Data Mart Tendencias en BI OLTP y OLAP Las Visiones de Bill Inmon y Ralph Kimball Arquitectura de Zachman
ACTIVIDADES PROPUESTAS
Los alumnos reconocen las necesidades de un negocio. Los alumnos discuten sobre diversos escenarios de negocio Los alumnos identifican Data Warehouse y Datat Mart.
IEST PRIVADO CIBERTEC
CARRERA DE COMPUTACIÓN E INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
10
1.1. INTRODUCCIÓN Y CONCEPTOS 1.1.1. Inteligencia de Negocio La Inteligencia de Negocios o Business Intelligence (BI) se puede definir como el proceso de extraer datos de cualquier fuente: archivos o base de datos para transformarlos en información, de tal manera que ésta apoye a la toma de decisiones de las empresas. BI provee la información que requiere el usuario de negocio en la manera como lo desea y en el momento que lo necesite, mejorando enormemente la efectividad para la toma de decisiones, revelando tendencias de negocio no perceptibles fácilmente. Figura 1: Ciclo de datos Fuente.- Tomado de https://sqlservermasbi.files.wordpress.com/2012/08/bi_png.png
Es el proceso de transformación de datos en iformación, haciendo uso de técnicas de Extracción, Transpormación y Carga (ETL), proporcionando información validada para una adecuada toma de decisiones.
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
11
Figura 2: Transformación de datos Fuente.- Tomado de http://4.bp.blogspot.com/Wo6sMxlVbew/UaVBdrR9FNI/AAAAAAAAAHE/3MOHlmlCR0o/s1600/FIGURA3.jpg
Figura 3: DashBoard Fuente.- Tomado de http://2gc.eu/images/made/5cf576e340e572f3/InPhase_typical_dashboard_made_by_a_PA_800_600.png
Existe una gran cantidad de procesos detrás de una arquitectura de Data Warehouse de una solución BI de suma importancia. Estos comprenden desde procesos de extracción que estudian y seleccionan los datos fuente adecuado para el data warehouse hasta proceso de consulta y análisis de datos que despliegan la información de una forma fácil de interpretar y analizar. Existen conceptos y terminologías de inteligencia de negocio.
IEST PRIVADO CIBERTEC
CARRERA DE COMPUTACIÓN E INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
12
Data Warehouse Entonces podemos definir que un Data Warehouse es una colección de datos en la cual, se encuentra integrada la información de la Institución y que es usada como soporte para el proceso de toma de decisiones gerenciales. Reunir los elementos de datos apropiados desde diversas fuentes de aplicación en un ambiente integral centralizado, simplifica el problema de acceso a la información y en consecuencia, acelera el proceso de análisis, consultas y disminuye el tiempo de Acceso a la información. Las aplicaciones para soporte de decisiones basadas en un Data Warehouse, pueden hacer más práctica y fácil la explotación de datos. De esa forma, podemos obtener una mayor eficacia en la toma de decisiones, que no se logra cuando se usan sólo los datos que provienen de las aplicaciones operacionales (que ayudan en la operación de la empresa en sus operaciones cotidianas) en los que la información se obtiene realizando procesos independientes y muchas veces complejos. Un Data Warehouse se crea al extraer datos desde una o más bases de datos de aplicaciones operacionales. La data extraída es transformada para eliminar inconsistencias y resumir si es necesario y luego, cargarlas en el Data Warehouse. El proceso de transformar, crear el detalle de tiempo variante, resumir y combinar los extractos de datos ayuda a crear el ambiente para el acceso a la información institucional. Este nuevo enfoque ayuda a las personas individuales, en todos los niveles de la empresa, a efectuar su toma de decisiones con mayor objetividad.
1.1.2. Necesidades tradicionales
del
Negocio
insatisfechas
por
las
soluciones
Las empresas actualmente poseen las siguientes necesidades de negocios que no pueden ser resueltas por los sistemas tradicionales: Pasan más tiempo recolectando y preparando información que analizándola. Se frustran al no poder encontrar información que está seguro existe en la empresa. Quieren saber que productos fueron más rentables durante un periodo de tiempo No saben cual es el patrón de compra de sus clientes dependiendo de las zonas Pasan mucho tiempo tratando de hacer que los reportes en Excel luzcan bien. Han perdido oportunidades de negocios por recibir información retrasada. No sabe con certeza si sus empleados están alcanzando los objetivos planeados. Es decir las empresas empiezan a valorar ya no como registrar la información sino como recuperarla adecuadamente, ya que han descubierto que siendo esta información más oportuna y exacta, la empresa se volverá más competitiva. Visto así, la información corporativa es un activo importante de la empresa que genera valor y la falta de ella generará pérdidas. Las organizaciones y sus requerimientos de sistemas de información Con el fin soportar la gran cantidad de información que maneja una empresa, muchas de ellas despliegan una gran infraestructura tecnológica que soportan Sistemas de Información. El crecimiento tecnológico tiene varias etapas que van desde la integración de sistemas, el crecimiento y la implementación. Las condiciones actuales
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
13
de competencia han provocado el que sea necesaria tecnología cada vez más sofisticadas para responder a las peticiones muy particulares de información. Sistemas de Procesamiento de Datos (SPD), Sistemas de Manufactura, Administración de Recursos Empresariales (ERP), Sistemas de Información Ejecutiva (EIS), Sistemas de Soporte a las Decisiones (DSS), Manejo de Relación con Clientes (CRM), Suministro de la Cadena de Distribución (SCM), Sistemas en la nube (CLOUD Computing), etc., son algunos de los sistemas que afloran y se ponen de moda y luego desaparecen acorde a la evolución de las empresas. Pero algo que no va a desaparecer y es la necesidad de las empresas de consumir información para atender los distintos requerimientos del negocio dependiendo de la función que cada empleado desempeñe en la empresa. La información que las empresas necesitan La información se está extendiendo a todo nivel dentro de la organización, áreas donde la toma de decisiones se basaba en la experiencia o la intuición requieren cada vez más de soporte basado en información. Si bien es cierto, los niveles operativos y tácticos siempre han requerido de información para el día a día del negocio, está no ha estado restringida para su uso. El avance vertiginoso de las tecnologías de la información ha permitido que la información estratégica sea puesta en las computadoras de los directivos, este comportamiento se ha generalizado principalmente motivado no sólo por la facilidad y utilidad de la información compartida sino por los software de toma de decisiones cada vez más sencillos de usar. Actualmente, la información es enviada a todos los niveles de la empresa con diferentes fines (comunicación, control, administración, evaluación, planeamiento, etc.). Las organizaciones están entendiendo que los niveles directivos tienen una gran responsabilidad al tomar decisiones, ya que ellas recaen sobre toda la empresa, pero también existen más empleados que toman decisiones y, a pesar de que éstas no tienen un impacto global, deben ser también adecuadas y oportunas, pues ciertos grupos dependen de las mismas. Directores, gerentes, supervisores, jefes, coordinadores todos aquellos que toman decisiones deben tener suficiente información para apoyarse en su trabajo diario, el lugar que ocupen en la pirámide organizacional se vuelve secundario cuando el enfoque es hacia el manejo de procesos y todos los puestos tienen cierta relación y dependencia entre sí. De manera general dentro de la organización, los requerimientos de información se dividen en 3 partes:
IEST PRIVADO CIBERTEC
CARRERA DE COMPUTACIÓN E INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
14
Figura 4: Pirámide de Información Fuente.- Tomado de http://2.bp.blogspot.com/-_oziKhlNrqs/U9Sa-Co4fyI/AAAAAAAABdA/Qe8sh2RxASA/s1600/SIs.png
1. Información Estratégica Soporta principalmente las decisiones del primer nivel de la pirámide organizacional, respondiendo a las preguntas estratégicas de la empresa. Su característica principal es que no muestra muchos datos y está asociado a la gerencia visual a través de indicadores que muestran si se están alcanzando los objetivos y metas o no a nivel global. Ello permitirá saber cómo se encuentra la empresa ahora y poder tomar decisiones oportunas. 2. Información Táctica Esta información da soporte al segundo nivel de la pirámide organizacional. Está relacionada al plano operativo de la estrategia planteando vías posibles para lograr la estrategia dictada por los ejecutivos y directivos. Esta información corresponde a un área o departamento específico de la empresa, siendo su alcance departamental y se asocia a gerencias o subdirecciones. 3. Información Técnico Operacional
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
15
Este nivel de información corresponde a la parte operativa de la empresa, compuesta por los sistemas de entrada masiva de datos y procesamiento transaccional. Soporta el día a día del negocio y a sus diversas áreas (contabilidad, facturación, almacén, presupuesto y otros sistemas administrativos). Se asocian a las jefaturas o coordinaciones operativas o de tercer nivel.
1.1.3. Historia y evolución de los conceptos de Inteligencia de Negocios El concepto de Business Intelligence no es un concepto reciente, hace miles de años los mayas, incas, fenicios, persas, egipcios y otros pueblos practicaban este principio cuando usaban información obtenida de la naturaleza en beneficio propio. Observar y analizar el comportamiento de los astros, las mareas, los períodos de sequía y de lluvias, entre otras, eran maneras de obtener información que luego usaban para tomar decisiones que pudieran permitir mejoras en la vida de sus respectivos pueblos. El mundo ha evolucionado pero, el concepto sigue siendo el mismo. La necesidad de relacionar informaciones para realizar una gestión empresarial eficaz y eficiente es hoy una realidad tanto como en el pasado lo fue descubrir si la crecida de la marea sea propicia para obtener una pesca más abundante. En los años 60’s surgen las tarjetas perforadas como medio de almacenamiento de datos, los transistores como un gran avance electrónico en la arquitectura de computadores y el lenguaje estructurado de programación COBOL. En esta época, los ordenadores se mostraban como algo difícil de conocer y el almacenamiento de información se realizaba de manera lineal y secuencial. Este nuevo despliegue tecnológico, es decir, la implementación de las bases de datos para el procesamiento en línea, las nuevas tecnologías y los Lenguajes de Cuarta Generación (4GL), permitieron al usuario la facilitarle el control de los sistemas y de la información. Esto dio origen a los primeros Sistemas de Información formales. Los Dispositivos de Almacenamiento de Acceso Directo (DASD, Direct Access Storage Device), surgen en los 70’s permitiendo que la velocidad de acceso a los datos se mejore enormemente, ya que las búsquedas ya no eran lineales, sino directas. Asimismo, también aparecen los Sistemas de Administración de Bases de Datos (DBMS) que permitía al desarrollador el acceso a la información al encargarse del almacenamiento e índices. A inicios del año 1990, las más importantes empresas ya contaban con grandes Centros de Información (CI) que funcionaban como repositorio de datos, brindando información poco disponible. A pesar de esta limitante, los CI otorgaban de cierta manera, la información que los ejecutivos requerían para tomar decisiones. Pero a medida que los años avanzaron, el mercado empezó a comportarse de un modo más complejo y cambiante, lo que obligó a que la tecnología de la información comenzara perfeccionando las herramientas de soporte a las decisiones de tal manera que ofrezcan informaciones precisas y en el momento adecuado para poder definir acciones mejorando el desempeño de la organización. El concepto de Data Warehouse nace entre los años 1992 y 1993, este concepto se asocia a una gran base de datos, es decir, un "recipiente - depósito" único de datos (los cuales pasaron por un proceso de extracción, transformación). Éste repositorio es la parte fundamental para la ejecución práctica de un proyecto de Business Intelligence. Pero al hablar de Business Intelligence, encontramos varios puntos de vista. Para algunos autores es muy importante que la empresa que desea implementar herramientas de Business Intelligence cuente con un "repositorio" único para reunir los datos ya transformados en informaciones. Este "repositorio" no necesariamente es, un
IEST PRIVADO CIBERTEC
CARRERA DE COMPUTACIÓN E INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
16
Data Warehouse, puede ser algo más pequeño y menos complejo como, por ejemplo, un Data Mart (banco de datos diseñado para áreas específicas en forma personalizada), o un banco de datos relacional común, pero independiente de ambiente transaccional (operacional) y exclusivo para contener información que será usada como base para la realización de diversos análisis y proyecciones. El término de Business Intelligence es bastante antiguo. Sin embargo, el avance de la tecnología de la información permitió crear herramientas que facilitó en gran medida todo el proceso de extracción, almacenamiento, consolidación, filtrado, validación y disponibilidad de los datos. Gracias a ello, las empresas empezaron a interesarse en las soluciones de BI de una forma más decisiva, esto a finales de 1996, cuando el concepto se difundió como un proceso de evolución del Executive Information Systems (EIS) - un sistema creado a finales de la década del 70 en el MIT (Massachusets Institute of Tecnology-EUA). El término Business Intelligence se extendió hacia otras herramientas como por ejemplo: Executive Information System - Sistema de Información Ejecutiva (EIS), soluciones Decision Support System - Sistema de Soporte a las Decisiones (DSS), Balanced Scorecard (Indicadores de Gestión), Dashboard (Cuadros de Mando), ER (Reporteadores Empresariales), Data Marts, Data Mining, Herramientas OLAP, cuyo fin principal es dinamizar la capacidad de tomar decisiones, afinar estrategias de relaciones con los clientes y satisfacer las necesidades del sector empresarial. Como pueden darse cuenta, hay mucha similitud entre la red de datos y la red eléctrica. La diferencia fundamental radica en la magnitud de energía que cada red maneja.
1.1.4. Casos de éxito en Inteligencia de Negocio WallMart Pionero en el uso de la información para identificar nuevas oportunidades de mercado Uso de datamining masivo, solución basada en Teradata Caso Clásico: Pañales y Cerveza Es, sin duda, uno de los ejemplos más clásicos de la llamada Business Intelligence (BI), utilizado en las escuelas de negocio de todo el mundo para ilustrar cómo el análisis de los datos de los clientes puede llevar a conclusiones interesantes y aprovechables en el contexto del denominado Market-Basket Analysis: la correlación entre los pañales y la cerveza. Estos dos productos, aparentemente sin ninguna relación, protagonizan esta historia que los profesores y estudiantes de marketing suelen atribuir a lo que ocurrió en los hipermercados WalMart, cuando se empezó a utilizar por primera software analítico para combinar el análisis de los datos de compras de algunas personas obtenidos gracias a sus tarjetas de fidelización. Según la historia, se descubrieron una serie de asociaciones, algunas perfectamente obvias, como que las personas que compraban cereal también compraban leche, o los que compraban ron, también compraban Coca-Cola, y una completamente inesperada: pañales y cerveza.
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
17
Aparentemente, los clientes masculinos cuando compraban pañales el fin de semana, tenían además una gran tendencia a adquirir también cerveza. De ahí surgió toda una amplia gama de teorías psicológicas sobre cómo los hombres, cuando eran enviados por pañales al supermercado, asociaban la idea con la de obtener alguna recompensa para ellos, o relacionaban el fin de semana con tomar cerveza y, a pesar de ser ya padres, realizaban una acción de solteros, que seguramente era aprobada en sus hogares ya que la diferencia era que estos hombres bebían dentro de su casa. Como resultado del descubrimiento de esta correlación, según sus estadísticas, el hipermercado decidió mover la cerveza y ponerla al lado de los pañales, y obtuvieron gracias a ello un incremento de ventas bastante importante. NBA Un resultado interesante fue uno hasta entonces no observado por los entrenadores de los Knicks de Nueva York. El doble marcaje a un jugador puede generalmente dar la oportunidad a otro jugador de encestar más fácilmente. Mezcla datos de jugadores de baloncesto con imágenes de partidos para encontrar patrones y apoyar a la generación de estrategias. “Advanced Scout”, basado en IBM DB2 Universal Database, IBM DB2 Intelligent Miner y Virtual Gold's VirtualMiner AC MILAN El sistema, creado por Computer Associates International, es alimentado por datos de cada jugador, relacionados con su rendimiento, alimentación y respuesta a estímulos externos, que se obtienen y analizan cada quince días. Actualmente el sistema permite predecir alguna posible lesión. El club está ahorrando dinero evitando comprar jugadores que presenten una alta probabilidad de lesión. ODYSSEY Gobierno Español enjuicia a la empresa Odyssey por apoderarse de 18 toneladas de monedas de Oro. Un espectacular sistema de tratamiento de datos llamado «Data Mining». Su funcionamiento es sencillo: se introducen en una base de datos todas las variables imaginables, desde los lugares en los que hay barcos hundidos hasta las corrientes marinas predominantes, los puntos más habituales de tormentas o las rutas que probablemente utilizara cada capitán. De todo ese cóctel, se extrae un modelo que indica, con una fiabilidad impresionante, en qué puntos exactos hay más probabilidades de hallar un tesoro. A partir de ese momento, y después de años de paciente estudio, esa computadora proporciona a Odyssey un detallado y gigantesco mapa del tesoro sin necesidad de escudriñar todo el fondo del Atlántico o el Mediterráneo. SUNAT SAS, el líder en Inteligencia de Negocios, anunció hoy que la SUNAT, ha logrado una mejor detección de la subvaloración de mercancías en la principal aduana peruana, al incrementar en 14 puntos porcentuales el éxito en los hallazgos en el Proceso de Selección de Canales de Control. SUNAT es la primera entidad tributaria en latinoamérica en emplear con éxito técnicas de Minería de Datos en la lucha contra el contrabando y la subvaluación. Solución sobre plataforma SAS, Oracle, Informix, Java.
IEST PRIVADO CIBERTEC
CARRERA DE COMPUTACIÓN E INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
18
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
19
1.2. DATA WAREHOUSING 1.2.1. Data Warehouse y Data Mart Data Mart Orientado a un departamento dentro de la organización, puede ser implementado como una solución para problemas inmediatos, no es necesario para construir un Data Warehouse. Implementación rápida y sencilla a un menor costo de implementación. Cubre necesidades específicas del Negocio, respuestas rápidas por el menor volumen de información y asegura la consistencia de los datos. El empleo de los Datamarts estará determinado por los que toman decisiones. Por ejemplo en una empresa el gerente de ventas necesitará analizar la información de su área, es decir las ventas de la empresa. Inadvertidamente se puede usar datos no compatibles con otros Datamarts que luego alarguen el tiempo de unificación. Si el Data Warehouse es construido primero, se requiere de hardware adicional para soportarDatamarts individuales. Data Warehouse La construcción del Data Warehouse se va haciendo por etapas que normalmente corresponden a las principales áreas operativas de la empresa. Por ejemplo: Área de Ventas, Área Financiero Contable, Área de Recursos Humanos, etc. Estas áreas reciben el nombre de Data Marts. Los Data Warehouses (Base de Datos OLAP, On-Line Analytical Processing) son diseñados para cumplir con un conjunto de metas, las cuales son muy diferentes de los objetivos de un sistema transaccional (OLTP, On-Line Transaction Processing). Por ejemplo, una meta de los OLTP es maximizar la concurrencia mediante el uso de locks, dicho objetivo no es pertinente en el diseño de DW donde las operaciones son sólo de consulta, es decir del tipo SELECT. Además de las técnicas de diseño, un desarrollador de Data Warehousing debe focalizarse en entregar un análisis multidimensional y capacidades de reportes ad-hoc (generación de reportes por parte del usuario experto basados en el conocimiento del negocio). Para realizar esto, el diseñador necesita conocer los requerimientos del negocio tan bien como las técnicas de diseño multidimensional. Sin lugar a dudas, el Data Warehousing es parte integral de lo que algunos autores definen como la “Era de la Información” ya que posibilita la construcción y mantenimiento de estructuras destinadas al análisis de los datos, transformando los datos en información y la información en conocimiento. Estos nuevos conceptos fueron definidos por los padres del DataWarehouse, Bill Inmon y Ralph Kimball, cuyas visiones las revisaremos luego. Hay muchas definiciones de Data Warehouse en la literatura, de las cuales se presenta, las dos más representativas:
IEST PRIVADO CIBERTEC
CARRERA DE COMPUTACIÓN E INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
William Inmon:
Ralph Kimball:
20
“El Data Warehouse es una colección de datos, orientados a un tema, integrados, no volátiles, variantes en el tiempo, organizados para el apoyo a toma de “Un Data Warehouse es una copia de los datos transaccionales, específicamente diseñada para realizar consultas y análisis.”
Necesidad de un Data Warehouse Una de claves del éxito de las corporaciones modernas es el acceso a la información correcta, en el tiempo adecuado, en el lugar correcto y en la forma adecuada. Es muy común escuchar a los ejecutivos decir las siguientes frases: “Tenemos montañas de datos en esta compañía, pero no podemos acceder a ellos” “Nada enloquece más a un gerente que tener dos personas que le presenten el mismo resultado de negocio, pero con diferentes cifras”. “Sólo me interesa ver lo que es importante”. “Todos sabemos qué datos no están bien”. Estos problemas se presentan en la mayoría de las empresas, y pueden ser convertidos en oportunidades y transformados en requerimientos: El Data Warehouse proporciona acceso a los datos corporativos u organizacionales. Los datos en el Data Warehouse son consistentes. El Data Warehouse no contiene solamente datos sino un conjunto de herramientas de consulta, análisis y presentación de la información. La calidad de los datos en un Data Warehouse, conducirá a una reingeniería de las aplicaciones de negocio. De los datos al conocimiento Cuando los datos se ponen en un contexto, se convierten en información, y luego esta información es sintetizada con la ayuda de la experiencia se llega al conocimiento.
DATO
INFORMACIÓN
CONOCIMIENTO
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
21
Componentes Funcionales Los componentes funcionales que son parte del proceso son la adquisición de datos, el almacenamiento y el acceso por parte de usuarios finales. •
Adquisición: Consiste en recoger los datos útiles del sistema de producción. Se debe identificar los datos que sean necesarios para atender los requerimientos de información, luego planificar las extracciones con el fin de evitar saturación en la red, o afectar al sistema transaccional de producción. Los procesos de extracción deben estar sincronizados con la finalidad de garantizar la integridad de la información. Los problemas que surgen al hacer esta sincronización pueden ser muy complejos. Después de extraer los datos del sistema transaccional, estos se deben “preparar” para adecuarlos a la forma del Data Warehouse. Esta “preparación” incluye la correspondencia de los formatos, la limpieza, la transformación y la agregación en muchos casos. La carga es la última fase de la adquisición de datos, esta fase es particularmente importante sobre todo si se trata de volúmenes muy grandes.
•
Almacenamiento: El componente básico del soporte del almacenamiento es el DBMS (DataBase Manager System). El DBMS o motor de base de datos debe tener las características que le permitan responder eficientemente a las exigencias de las consultas analíticas. Para lograrlo debe contar con diversos recursos como el paralelismo, la optimización del indexado con la finalidad de acelerar las consultas agregadas, ordenamientos y agrupaciones. En relación con los tipos de datos, generalmente, se almacenan en formatos relacionales; sin embargo, frente a la gran cantidad de datos en forma de documentos, imágenes, audio y video, los DBMS están evolucionando en el sentido de permitir la gestión de estos tipos de datos. Esta evolución se ve reforzada aún más con la llegada de Internet.
•
Acceso: El acceso al Data Warehouse se da mediante herramientas o aplicaciones de tipo Cliente/servidor o herramientas que pueden utilizarse desde el Web. Hay una gran variedad de herramientas en el mercado y el número de aplicaciones de acceso que se pueden desarrollar es también muy grande. Sea cual sea el tipo de herramienta, tendrá que adaptarse a las exigencias del usuario y su manera de trabajar. En el mundo de la decisión, el análisis es también un proceso iterativo y los resultados de la consulta actual influyen a menudo en la consulta siguiente. Esto se puede resumir en la siguiente frase: “Dame lo que te pido y luego podré decirte lo que realmente quiero“.
Infraestructura Para hacer frente a las necesidades de Data Warehouse, el papel de la informática es definir e integrar una arquitectura sobre la que implementará el Data Warehouse. Se debe considerar dos niveles de infraestructura en un Data Warehouse: la infraestructura técnica o conjunto de componentes materiales y programas, y la infraestructura operativa o conjunto de procedimientos y servicios para administrar los datos, gestionar los usuarios y utilizar el sistema.
IEST PRIVADO CIBERTEC
CARRERA DE COMPUTACIÓN E INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
22
Por un lado, la infraestructura técnica se compone de productos que implementan las tecnologías elegidas, integrados en un conjunto coherente y homogéneo. Por otro lado la infraestructura operativa se compone de todos los procesos que permiten, a partir de los datos de producción, crear y gestionar el Data Warehouse.
ARQUITECTURA DE DATA WAREHOUSE INFRAESTRUCTURA TÉCNICA
INFRAESTRUCTURA OPERATIVA
1.2.2. Tendencias en BI El universo BI no deja de sorprender con su capacidad para renovarse, adaptarse y transformarse, consiguiendo satisfacer las necesidades de los usuarios, colmando sus expectativas, y yendo aún más allá. Las tendencias en Business Intelligence rompen moldes y apuntan en una dirección que, si bien ya se intuía a comienzos de este año, no muchos creyeron que fuese posible alcanzar. Business Intelligence consiste en transformar datos en información, para que esa información pueda convertirse en conocimiento. La toma de decisiones requiere de un análisis que ha de apoyarse en datos estructurados, que necesitan haber sido procesados previamente. El procesado de datos los reúne, los depura, los homologa si es necesario y los deja listos para ser utilizados. La forma de llevar a cabo este proceso hoy día puede ser muy diferente, dependiendo de la madurez tecnológica de la empresa, de su efectividad en la recogida de datos, de sus capacidades de almacenamiento, etc. Sin embargo, existen unos factores diferenciales que marcan la línea entre unas organizaciones y otras. Agilidad, automatización y movilidad serían los pilares fundamentales del BI de última generación. Quienes ya conocen seguramente buscan el ir más allá, explotando todas las posibilidades de su inteligencia de negocio. Las tendencias en BI son: Movilidad: aplicaciones más especializadas y mayor abanico de usuarios. Empleados, clientes, proveedores, el círculo se va ampliando para enriquecer la BI. La Mobile Intelligence es el núcleo alrededor del que orbita todo esta información que permite realizar análisis más específicos y llevar a cabo tareas más complejas, independientemente del lugar, el momento o el dispositivo que se vaya a utilizar para ello. Mayor velocidad de procesamiento para mejores resultados en el análisis predictivo: la integración es la palabra. Minimizar los tiempos de respuesta es una demanda mayoritaria que requiere que toda aplicación de BI englobe desde las reglas de negocio, hasta las funcionalidades, pasando por el análisis y modelado de datos. Los proveedores de soluciones e integradores del mundo BI liderarán el cambio: Una de las tendencias en BI es el mirar más allá de la funcionalidad y la
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
23
arquitectura, colaborando con los usuarios finales al seleccionar una solución y evaluándola conjuntamente. La nueva forma de tomar decisiones a la que es posible acceder gracias al nuevo BI tendrá un gran impacto en la evolución cultural: será el germen del concepto de software social, que procurará entornos de colaboración donde interactúen las redes sociales, el BI y las herramientas analíticas. Los dashboards evolucionan: su expansión apoyada en tecnología puntera, no es más que una confirmación de que el BI debe estar alineado con los objetivos de negocio para garantizar el éxito empresarial. El simple acceso a los datos hace tiempo que dejó de ser suficiente. Hay que buscar soluciones que permitan a los trabajadores ganar concentración sobre las métricas, dotándoles de proactividad. La movilidad es un imprescindible en este camino. El autoservicio es una realidad: tener la capacidad de prescindir del Departamento de IT, poder acceder a los datos de forma sencilla, visual y rápida es sinónimo de efectividad. Para ello los usuarios necesitan la herramienta adecuada, personalizada, completa e interconectada que lo haga posible. BYOD: las políticas de Bring Your Own Device impulsarán la necesidad de contar con Mobile Intelligence en las empresas. Para ello, la tecnología ha de apoyar esta evolución. Entre las tendencias en BI se encuentran las soluciones multiplataforma, que hacen posible no tener que depender de un dispositivo en concreto, sino poder contar con esa libertad que redunda en la productividad y los resultados. Nuevas alternativas en lo concerniente a Big Data tendrán su influencia en el desarrollo en BI. Las opciones crecen y eso significa que la calidad aumenta y los costes se reducen. Es el momento de pensar a lo grande. Lo mismo sucede con las tecnologías In Memory, que se convierten en la corriente principal y lo hacen pasando por delante de disk based Data Warehouse, analytic appliance o columnar database. La nube baja a tierra: el cloud será considerado como una opción más, dejará de marcar la diferencia como lo había hecho hasta ahora y su uso será completamente rutinario. La aceptación generalizada por parte de los usuarios, que han aparcado sus recelos en cuanto a la seguridad de sus datos es el impulsor principal de este cambio de perspectiva, que exigirá que todas las soluciones de BI deban estar preparadas para la nube. La colaboración es una necesidad: su potencial en cuanto a BI consigue que de los datos se extraiga toda la información posible, lo que desemboca en el mejor análisis. Prescindir de esta posibilidad ya no es cuestionable y por eso, en 2014, el BI de todas las empresas ha de permitir a sus usuarios interactuar sin límites de conectividad, ni geográficos, ni temporales. El Business Intelligence será mejor. El modo de usar la información para tomar decisiones se está transformando, prueba de ello es que su orientación es cada vez más estratégica y su prioridad es el proporcionar una visión única, global y completa. BI y Mobile Intelligence deben ser una prioridad en entornos empresariales, ya que son la única forma de alcanzar una ventaja competitiva y mantenerla en el tiempo, gracias a la mejora del servicio al cliente, al control de gastos, al impulso de beneficios y a una toma de decisiones más ágil y más precisa.
IEST PRIVADO CIBERTEC
CARRERA DE COMPUTACIÓN E INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
24
1.2.3. OLTP y OLAP On Line Transacction Processing (OLTP) El sistema On Line Transaction Processing (OLTP) se encarga de dar soporte a los procesos diarios de ingreso y mantenimiento de datos y son en tiempo real. De esa manera, las aplicaciones OLTP sirven para la captura de las transacciones cotidianas (ventas, compras, control de almacén, cuenta corriente, generación de notas de crédito, control de la producción, contabilidad, etc.) y es la fuente principal de datos de las soluciones analíticas. Entre las diferencias principales tenemos que las aplicaciones OLTP poseen volatilidad de datos (los datos sólo permanecen en el sistema por un periodo corto de tiempo) a diferencia de las soluciones analíticas, que requieren de datos históricos para generar diversas perspectivas de análisis. Otra diferencia es la actualizaciones frecuente de los datos (la información es modificada muchas veces en el día), mientras que las aplicaciones analíticas realizan operaciones normalmente, de sólo lectura. Características Diseño orientado a la transacción Volatilidad de los datos Soporte limitado a la toma de decisiones Ejemplos Cobranzas Sistema de control de asistencia Control de almacén On Line Analytical Processing (OLAP) OnLine Analytical Processing (OLAP) es un proceso en el que se emplean herramientas sofisticadas que permiten agilizar el proceso de análisis de información de la empresa, organizada en perspectivas (dimensiones) y métricas permitiendo ejecutar análisis complejos de datos en base a los cuales se tomarán las decisiones del negocio. OLAP permite a los usuarios una fácil y amigable navegación por la información obteniendo el nivel de granularidad (detalle) que requiera para la toma de decisiones. Asimismo, puede generar cálculos adicionales en base a los datos existentes. Los servicios OLAP proveen múltiples formas y niveles de análisis gracias a que los datos se encuentran estructurados con esta finalidad. De esta manera, el usuario puede realizar comparaciones entre periodos anteriores o paralelos, encontrar patrones y tendencias, aislar un grupo de datos con características específicas para realizar un análisis más profundo y sobretodo de una manera amigable, rápida y confiable. Características OLAP Es consolidada. La data se centraliza desde diferentes orígenes de datos en un repositorio central único a la cual tienen accesos los usuarios de toda la organización. Es consistente. Los usuarios deben obtener una única versión de los datos no importando de qué área provengan las consultas ni el momento en que ellas se realicen.
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
25
Es orientada al objetivo. Sólo contiene información relevante para la toma de decisiones, de esta manera la orientación está en cómo se usan los datos y no como se almacenan. Es histórica. Los sistemas OLAP almacenan toda la información histórica de la empresa permitiendo de esta manera, realizar comparaciones entre periodos actuales e históricos. Es de sólo lectura. El sistema OLAP se diseña y optimizan sólo para realizar consultas, la operaciones de actualización, borrado, etc. son exclusivos de los sistemas transaccionales. No es atómica. Los sistemas OLAP contienen datos sumarizados que permiten la velocidad en la consulta.
Figura 4: Cubo OLAP Fuente.- Tomado de https://alexberenguerdotcom.files.wordpress.com/2013/12/olap.png
Como se observa en el gráfico superior en un modelo de datos OLAP, la información es vista como cubos, los cuales consisten de valores cualitativos, atributos (dimensiones) y valores cuantitativos, métricas (medidas). Un analista de negocio ve a una consulta analítica en términos de un cierto número de perspectivas de análisis (dimensiones) tales como productos, cliente, vendedor, tiempo, regiones, fabricantes, o artículos y desea poder analizar un conjunto de valores cuantitativos (cantidades, montos, ratios, etc.) de tal manera que usando estos componentes pueda lograr distintas vistas de una misma consulta. Ejemplo Para la cadena de tiendas de alquiler de videos que posee 3 sucursales, el sistema OLAP le permite presentar información consolidada por cada sucursal, compararla y tomar decisiones apropiadamente.
IEST PRIVADO CIBERTEC
CARRERA DE COMPUTACIÓN E INFORMÁTICA
CATEGORIA
INTELIGENCIA DE NEGOCIOS
26
TIENDA San Borja
Miraflores Drama Comedia Ciencia Ficción Infantil Terror
120 250 52 90 40
100 210 25 75 20
Surco 85 190 45 70 28
Sin embargo, la tienda de alquiler de videos también desearía ver cómo se desarrollan las ventas en el tiempo. Para hacer esto, se necesitarían varias hojas de cálculo.
De esta manera, las medidas que deseamos visualizar del negocio se encontrarán almacenadas en la intersección de las perspectivas de análisis, en sectores llamados “celdas” del cubo, como se grafica a continuación:
M ARZO FEBRERO ENERO DRAMA
110
88
65
COMEDIA
231
142
130
CIENCIA FICCIÓN
29
20
20
INFANTIL
74
64
35
TERROR
27
17
12
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
27
Siguiendo con el ejemplo anterior, con este cubo podemos ahora tomar rebanadas del mismo para responder preguntas como: ¿Cuánto se alquila por categoría de video en cada tienda en un mes dado? Categoría de video por tienda en un mes dado ¿Qué tiendas han mejorado sus alquileres de video dado a través del tiempo? Tienda por tiempo de una categoría de video dado ¿Cuánto se alquila por categoría de video a través del tiempo en una tienda dada? Sistemas OLTP vs OLAP En cuanto a las soluciones transaccionales y las soluciones Data Warehousing también tenemos diferencias: Frecuencia de actualización: las soluciones transaccionales se encuentran en tiempo real, manteniendo la data actualizada. En cambio, las soluciones Data Warehousing, poseen una periodicidad de carga: diario, semanal, mensual, etc, pudiendo estar sus datos en tiempo real o cercano al tiempo real. Estructurado para responder a las transacciones diarias de la empresa y diseñada para conservar una alta integridad de datos, a diferencia de ello, las soluciones Data Warehousing están estructurados para proporcionar facilidad y velocidad en la consulta. Optimizado para las soluciones transaccionales están optimizados para el registro diario de las operaciones del negocio. Las soluciones Data Warehousing están optimizados para la consulta, de tal forma que se dé la manera más amigable y rápida.
1.2.4. Las visiones de Bill Inmon y Ralph Kimball Bill Inmon Bill Inmon es universalmente reconocido con el “Padre del Data Warehouse”. Tiene más de 26 años de experiencia en el campo de las bases de datos y diseño de Data Warehouses, ha publicado cerca de 40 libros y más de 350 artículos en las más importantes revistas especializadas. Su libro más reconocido es “Building DataWarehouse” Bill Inmon ve la necesidad de transferir la información de los diferentes OLTP (Sistemas Transaccionales) de las organizaciones a un lugar centralizado donde los datos puedan ser utilizados para el análisis (sería el CIF o Corporate Information Factory). Insiste además en que ha de tener las siguientes características:
Orientado a temas. Los datos en la base de datos están organizados de manera que todos los elementos de datos relativos al mismo evento u objeto del mundo real queden unidos entre sí. Integrado. La base de datos contiene los datos de todos los sistemas operacionales de la organización, y dichos datos deben ser consistentes. No volátil. La información no se modifica ni se elimina, una vez almacenado un dato, éste se convierte en información de sólo lectura, y se mantiene para futuras consultas. Variante en el tiempo. Los cambios producidos en los datos a lo largo del tiempo quedan registrados para que los informes que se puedan generar reflejen esas variaciones.
La información ha de estar a los máximos niveles de detalle. Los Dw departamentales o datamarts son tratados como subconjuntos de este Dw corporativo, que son construidos para cubrir las necesidades individuales de análisis de cada
IEST PRIVADO CIBERTEC
CARRERA DE COMPUTACIÓN E INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
28
departamento, y siempre a partir de este Dw Central (del que también se pueden construir los ODS (Operational Data Stores ) o similares). El enfoque Inmon también se referencia normalmente como Top-down. Los datos son extraídos de los sistemas operacionales por los procesos ETL y cargados en las áreas de stage, donde son validados y consolidados en el DW corporativo, donde además existen los llamados metadatos que documentan de una forma clara y precisa el contenido del DW. Una vez realizado este proceso, los procesos de refresco de los Data Mart departamentales obtienen la información de él, y con las consiguientes transformaciones, organizan los datos en las estructuras particulares requeridas por cada uno de ellos, refrescando su contenido.
Al tener este enfoque global, es más difícil de desarrollar en un proyecto sencillo (pues estamos intentando abordar el “todo”, a partir del cual luego iremos al “detalle”). Ralph KimBall Ralph Kimball fue co-inventor de Xerox Star Workstation, el primer producto comercial en usar iconos y ventanas. Fue Vice-presidente de Metaphor Computer Systems, fundador y CEO de Red Brick Systems. Kimball es un referente de la metodología dimensional para diseñar grandes Data Warehouses, fue el que realmente explotó al máximo el tema de Data Warehousing. Actualmente enseña Data Warehousing a diferentes grupos y ayuda a clientes con técnicas de diseño específicos. Kimball es columnista de la revista Intelligent Enterprise y tiene relación con Sagent Technology, Inc. Su libro “The Data Warehouse Tookit” es ampliamente reconocido como un pilar sobre la materia. Para Ralph Kimball el Data Warehouse es un conglomerado de todos los Data Marts dentro de una empresa, siendo una copia de los datos transaccionales estructurados de una forma especial para el análisis, de acuerdo al Modelo Dimensional (no normalizado), que incluye, las dimensiones de análisis y sus atributos, su organización jerárquica, así como los diferentes hechos de negocio que se quieren analizar. Por un lado tenemos tablas para las representar las dimensiones y por otro lado tablas para los hechos (las facts tables). Los diferentes Data Marts están conectados entre sí por la llamada bus structure, que contiene los elementos anteriormente citados a través de las dimensiones conformadas (que permiten que los usuarios puedan realizar querys conjuntos sobre los diferentes Data Marts, pues este bus contiene los elementos en común que los comunican). Una dimensión conformada puede ser, por ejemplo, la dimensión cliente, que incluye todos los atributos o elementos de análisis referentes a
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
29
los clientes y que puede ser compartida por diferentes Data Marts (ventas, pedidos, gestión de cobros, etc). Este enfoque también se referencia como Bottom-up, pues al final el Datawarehouse Corporativo no es más que la unión de los diferentes Datamarts, que están estructurados de una forma común a través de la bus structure. Esta característica le hace más flexible y sencillo de implementar, pues podemos construir un Data Mart como primer elemento del sistema de análisis, y luego ir añadiendo otros que comparten las dimensiones ya definidas o incluyen otras nuevas. En este sistema, los procesos ETL extraen la información de los sistemas operacionales y los procesan igualmente en el área stage, realizando posteriormente el llenado de cada uno de los Data Mart de una forma individual, aunque siempre respetando la estandarización de las dimensiones (dimensiones conformadas).
1.2.5. Arquitectura Zachman Introducción a la arquitectura de Zachman La construcción de un Data Warehouse involucra tres tipos de técnicas. En primer lugar, las técnicas empresariales relacionadas con la comprensión del significado de los datos que contiene un Data Warehouse. En segundo lugar las técnicas relacionadas con la tecnología debido a la necesidad de interactuar con muchas tecnologías, distribuidores y usuarios finales. Finalmente las técnicas administrativas, que deben permitir administrar la diversidad de procesos, usuarios, temas de negocio, y tecnologías. Para compartir una visión desde distintos puntos de vista, es necesario tener un diagrama. El mismo permite ver algo complicado y hacerlo inteligible mediante el uso de analogías que simplifican y ayudan a separar una solución compleja en componentes pequeños. Los requerimientos de un Data Warehouse son tan variados y diversos como sus usuarios. Estos requerimientos se pueden analizar desde la perspectiva de cada usuario. Las perspectivas de la arquitectura de Zachman
IEST PRIVADO CIBERTEC
CARRERA DE COMPUTACIÓN E INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
30
El diagrama de Zachman es una de las formas más eficaces de visualizar un sistema desde muchas perspectivas. En una compañía, las personas tienen diferentes roles y, por lo tanto, tienen diferentes perspectivas dependiendo de sus necesidades y usos de la información Hay 5 roles básicos en la creación de un producto:
Planificador: define parámetros básicos, especifica el alcance. El dueño (inversionista): proporciona información sobre el producto y su uso. Diseñador: especifica el producto, de manera que se cubran las expectativas del dueño. Constructor: administra el proceso de construcción y ensamblaje. Sub-contratista: construye cada componente especificado por el constructor.
Las perspectivas se caracterizan por:
Las dimensiones de la arquitectura de Zachman.
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
31
Las dimensiones de la arquitectura de Zachman son una forma abstracta de entender las necesidades de cada perspectiva. Se busca dar respuesta a las siguientes preguntas:
Las dimensiones se caracterizan por:
Beneficios de la arquitectura de referencia La arquitectura de referencia facilita las siguientes tareas: • Evaluación de las inversiones actuales • Análisis de los costos y beneficios • Análisis y administración de riesgos • Evaluación de distribuidores • Evaluación de productos y herramientas • Mantenimiento y mejoramiento • Planeación y administración de proyectos • Evaluar la tecnología • Simulación de proyectos • Arquitectura y diseño Los bloques de construcción de la arquitectura de referencia
IEST PRIVADO CIBERTEC
CARRERA DE COMPUTACIÓN E INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
32
La arquitectura de referencia divide el Data Warehouse en bloques de construcción y capas. • Bloques: se relacionan con la funcionalidad específica del Data Warehouse. • Capas: representan el ambiente necesario para la implementación de los bloques. Una visión de alto nivel de la arquitectura de referencia sería la siguiente:
Los bloques del diagrama de Zachman: El bloque de fuentes de datos en detalle:
Bloque de construcción del Data Warehouse.
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
33
Bloque de construcción de datos derivados:
Bloque de acceso y uso del Data Warehouse:
IEST PRIVADO CIBERTEC
CARRERA DE COMPUTACIÓN E INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
34
Las capas en el diagrama de Zachman La capa de administración de datos
La capa de administración de metadatos
La capa de transporte:
La capa de infraestructura:
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
35
La arquitectura de referencia de Zachman para Data Warehouse nos ayuda a analizar y definir los componentes que deben ser implementados en el Data Warehouse y la forma en que se debe hacer esta implementación. Es útil también para determinar cuáles son los incrementos en la construcción del Data Warehouse.
Resumen 1.
Inteligencia de negocios es obtener conocimiento a partir de datos propios de la empresa para la toma de decisiones.
2.
Existe 03 tipos de informaciones dentro de un negocio: a. Información Estratégica b. Información Táctica. c. Información Operacional
3.
Desde tiempos antiguos se empleaba la información obtenida (experiencias) para tomar la decisión de ciertas tareas en el campo.
4. En la construcción de un proyecto cualquiera, cada persona tiene una perspectiva distinta definida por el rol que desempeña. 5. Las dimensiones de la arquitectura de Zachman, nos ayudan a entender las necesidades de cada perspectiva 6. La arquitectura de regencia de Zachman, específica para Data Warehouse, está compuesta de bloques y capas. Los bloques están relacionados al proceso de DataWarehousing y las capas son el soporte a este proceso. 7. La arquitectura de referencia de Zachman es un instrumento fundamental en el análisis, pues permite identificar en detalle todos los componentes del Data Warehouse.
IEST PRIVADO CIBERTEC
CARRERA DE COMPUTACIÓN E INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
36
8. Una arquitectura es necesaria porque nos dice el orden en el que se deben hacer las cosas y porque da a todos una visión de lo que será un sistema de información, gracias a que muestra un patrón reconocido universalmente. 9. En la construcción de un proyecto cualquiera, cada persona tiene una perspectiva distinta definida por el rol que desempeña Pueden revisar los siguientes enlaces para ampliar los conceptos vistos en esta unidad: o o o o
https://www.youtube.com/watch?v=OODib6aGmOk https://www.youtube.com/watch?v=9maeZ9slKwE https://www.youtube.com/watch?v=z5bIX75nkfg https://www.youtube.com/watch?v=tDtkyMfT-F8
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
37
UNIDAD
2 MODELAMIENTO DIMENSIONAL LOGRO DE LA UNIDAD DE APRENDIZAJE Al término de la unidad, el alumno diseña soluciones de datamart en base a los requerimientos de negocio utilizando modelamiento dimensional. TEMARIO 2.1 Tema 3 2.1.1 2.1.2 2.1.3 2.1.4 2.1.5 2.1.6
: : : : : : :
Diseño de DataMart Modelamiento Dimensional. ¿Qué es un modelo Dimensional? Componentes de un modelo Dimensional Surrogate Key y nivel de granularidad Tipos de modelo Dimensional Documentación de los elementos de diseño Resolución de casos
2.2 Tema 4 2.2.1 2.2.2 2.2.3 2.2.4
: : : : :
Taller de Modelamientos Dimensional Identificando Medidas Identificando dimensiones y sus tipos Diseñando niveles de granularidad Resolución de casos prácticos
ACTIVIDADES PROPUESTAS
Los alumnos identifican el Modelo Dimensional y sus tipos. Los alumnos identifican los componentes del Modelo Dimensional. Los alumnos resuelven casos de casos prácticos de Modelamiento Dimensional.
IEST PRIVADO CIBERTEC
CARRERA DE COMPUTACIÓN E INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
38
2.1. DISEÑO DE UN DATAMART 2.1.1. Modelamiento Dimensional Conceptos preliminares Los componentes fundamentales de la arquitectura de datos de data warehouse son los siguientes: • • • •
Área temática Modelo conceptual Modelo lógico Modelo físico Área temática
Un área temática es una entidad primaria que es importante para la organización. Un área temática típicamente es un sustantivo, por ejemplo Cliente, producto, recurso humano entre otros. Todo negocio está compuesto de un conjunto de áreas temáticas:
Modelo Conceptual Representación gráfica y textual del análisis que identifica los datos que necesita una organización para lograr su misión, sus metas, sus objetivos, funciones y estrategias. Un modelo de datos identifica entidades y sus relaciones entre ellas, proporcionando una visión conceptual del negocio. Modelo lógico Es el modelo que representa las entidades y su estructura inherente. Además de las relaciones entre ellas, es independiente de las aplicaciones individuales. Contiene la implementación de los atributos de las entidades y las reglas de negocio (Diagrama entidad-relación).
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
39
Modelo físico Es la instancia física del modelo lógico. Está conformado por los estándares de codificación, tipos de datos, longitudes, constraints, índices, particiones. ¿Qué es un Modelo Dimensional? El modelo dimensional le permite al usuario ver la data mediante múltiples dimensiones, por ejemplo ver las ventas por producto, por tienda, por mes por año. Un modelo dimensional es un modelo simple que muestra medidas, dimensiones y sus relaciones y que puede ser presentado al usuario para verificación. La información deberá ser presentada utilizando etiquetas de negocio que le sean familiares al usuario final. Este modelo puede ser utilizado para crear un esquema físico. Un modelo dimensional se crea para dar respuesta a requerimientos de análisis como el siguiente: “¿Cuáles fueron los 10 productos más vendidos fabricados por la compañía XYZ basados en las ventas totales por sector para cada trimestre de los dos últimos años?”.
IEST PRIVADO CIBERTEC
CARRERA DE COMPUTACIÓN E INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
40
2.1.2. Componentes de un modelo Dimensional En el modelamiento Dimensional, los componentes principales son: Hechos Dimensiones Hechos Los Hechos serían aquéllos datos que nos proporcionan una información cuantitativa sobre las características del Negocio que queremos analizar. En nuestro caso, los Hechos serán los datos de la acción (“Precio Apertura”, “Precio Cierre”, “Máximo Diario”, “Mínimo Diario”, “Volumen”). Su finalidad es proporcionar información necesaria para la gestión, facilitando el conocimiento del Negocio o Proceso a modelar, y fundamentar, entre otras, la toma de decisiones, facilitar los procesos de marketing (ofertas y promociones), fidelizar clientes, valorar el desempeño de los trabajadores, etc. Dimensión Por otra parte, las Dimensiones buscan determinar un contexto para el análisis de los Hechos. Se trata de grupos homogéneos de elementos, en muchas ocasiones, jerarquizados. Su papel es promocionar la información contenida en los Hechos. Las Dimensiones pueden estar jerarquizadas o no. Por ejemplo, los elementos de la dimensión tiempo son jerarquizables, y se pueden representar en un esquema en árbol. El primer término es “Año”, siendo sus descendientes “Trimestres”, que a su vez tienen como descendientes a los “Meses”, éstos a las “Semanas”, etc. En este contexto, definimos al “Elemento Padre” como el elemento superior en la jerarquía dado un elemento (“Año es el Elemento Padre de “Trimestres”) y como “Elemento Hijo” a los elementos inferiores en la jerarquía dado un elemento (“Meses es el Elemento Hijo de Semanas”). La relación entre los Hechos y las Dimensiones tiene en cuenta la “Granularidad”. Definimos la “Granularidad” como el menor grado de detalle de nuestro análisis. Otra forma de definirlo es cómo el menor nivel al que existe relación entre los Dimensiones y el conjunto de Hechos. Por lo tanto, los Hechos son explicables a partir de datos en un entorno día-sociedad. A partir de aquí, podemos realizar “Roll Up”, que no es más que ir agregando los valores en función de los elementos-Padre, y así sucesivamente hasta llegar al Elemento superior de la jerarquía. El proceso inverso, basado en desagregar en función de los elementos-Hijo, se conoce como “Drill Down”, y busca permitir al analista de la información, una forma de ver más detalle los datos.
2.1.3. Surrogate Key y Nivel de granularidad Surrogate Key En el ejemplo del Dimensión Producto, el campo Producto_Key es la clave primaria de la tabla de dimensión. Una buena práctica es establecer un tipo de dato entero y auto generado para las claves de las tablas de dimensión, pues esto incrementará la velocidad de las consultas (si se efectúan directamente sobre el modelo STAR) o de los procesamientos de información (si las consultas se efectúan a través de un cubo).
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
41
Este tipo de llave conoce como surrogada o artificial. El campo IDProducto sirve para conocer el identificador del producto en su sistema de origen (recuérdese que la información del Data Mart puede tener múltiples orígenes). Este campo será útil durante la escritura de los procesos de población del Data Mart.
Nivel de Granularidad La granularidad representa el nivel de detalle al que se desea almacenar la información sobre el negocio que se esté analizando. Por ejemplo, los datos referentes a ventas o compras realizadas por una empresa, pueden registrarse día a día, en cambio, los datos pertinentes a pagos de sueldos o cuotas de socios, podrán almacenarse a nivel de mes.
Mientras mayor sea el nivel de detalle de los datos, se tendrán mayores posibilidades analíticas, ya que los mismos podrán ser resumidos o sumarizados. Es decir, los datos que posean granularidad fina (nivel de detalle) podrán ser resumidos hasta obtener una granularidad media o gruesa. No sucede lo mismo en sentido contrario, ya que por ejemplo, los datos almacenados con granularidad media podrán resumirse, pero no tendrán la facultad de ser analizados a nivel de detalle. O sea, si la granularidad con que se guardan los registros es a nivel de día, estos datos podrán sumarizarse por semana, mes, semestre y año, en cambio, si estos registros se almacenan a nivel de mes, podrán sumarizarse por semestre y año, pero no lo podrán hacer por día y semana.
2.1.4. Tipos de Modelo Dimensional El modelo dimensional es una adaptación especializada del modelo relacional usada para almacenar datos en depósitos de datos, de modo que los datos fácilmente puedan ser extraídos usando consultas OLAP. En el modelo dimensional, una base de datos consiste en una sola tabla grande de datos que son descritos usando dimensiones y medidas. Existen 02 tipos de esquemas: Modelo Star El modelo estrella (Star Schema) está compuesto de una tabla central llamada tabla de Hechos (Fact Table) y de una o varias tablas periféricas llamadas Tabla de Dimensiones (Dimensional Table).
IEST PRIVADO CIBERTEC
CARRERA DE COMPUTACIÓN E INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
42
Obsérvese el diagrama superior. Este modelo consta de cinco tablas de dimensión: Employee, Product, Customer, Shipper y Time, circundando a una tabla de hechos llamada Sales_Fact. Cada registro de la tabla Sales_Fact representa un hecho de ventas. Sus cinco primeros campos constituyen la clave primaria, y provienen de su relación con cada una de las tablas de dimensión. Las columnas restantes representan las medidas relacionadas con las ventas. A partir de este modelo, es fácil comprender que las métricas de ventas (almacenadas en Sales_Fact) se computan por producto, empleado, cliente, proveedor y tiempo (almacenados en las tablas de dimensión). Modelo Snowflake En el modelo STAR, cada nivel es representado por una columna en la tabla de dimensión. En el modelo SNOWFLAKE, cada nivel está representado por una tabla. Por tanto, en este modelo una dimensión puede estar formada por varias tablas. La siguiente tabla modela la entidad PRODUCTO, en un modelo STAR típico:
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
43
En un modelo SNOWFLAKE, esta tabla se “dividiría” en cuatro:
La siguiente tabla muestra una comparación de diversas características de los modelos STAR y SNOWFLAKE:
En un modelo STAR, la performance de las consultas y del procesamiento del Data Mart mejora considerablemente debido a que el número de uniones necesarias para obtener los datos es menor. En cambio, el modelo SNOWFLAKE, debido al alto número de tablas que produce, tiene un tiempo de procesamiento y respuesta más alto. Por otro lado, un modelo STAR es bastante más sencillo que un modelo SNOWFLAKE. El modelo SNOWFLAKE es más difícil de entender, y sus procesos de carga de datos son más complejos.
IEST PRIVADO CIBERTEC
CARRERA DE COMPUTACIÓN E INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
44
2.1.5. Documentación de los elementos de Diseño Para el modelamiento dimensional se tienen documentos que nos permiten tener un mejor y más claro concepto del modelo final. Así tenemos: -
El Diagrama Star Net Matriz Dimensión – Proceso de Negocio Modelo de Datos
Diagrama Star Net.Es un diagrama que nos muestra a través de líneas, círculos y rectángulos la representación de un modelo dimensional. El rectángulo representa los hechos (medidas), los círculos mayores son las dimensiones, los círculos pequeños corresponden a los atributos de las dimensiones y las líneas permiten la relación entre estos elementos:
Matriz Dimensión - Proceso de Negocio (Bus Matrix).Es un diagrama de matriz que permite identificar que dimensiones intervienen en que proceso de negocio o hecho.
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
45
Modelo Dimensional.Es un modelo desnormalizado basado en dos entidades: Tablas Dimensionales (tablas periféricas) y Tablas de Hecho (tabla central), que en el siguiente punto aprenderemos más a detalle.
2.1.6. Resolución de casos Caso de Diseño – Tarjetas de Crédito
IEST PRIVADO CIBERTEC
CARRERA DE COMPUTACIÓN E INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
46
Enunciado: El área de tarjetas de crédito de un banco desea implementar un DataMart. Se desea visualizar la información de créditos concedidos y pagos hasta llegar a cada tarjeta. Las tarjetas pueden ser de dos tipos: “VISA” y “MASTERCARD”. También se desea visualizar los créditos y pagos por cada vendedor y cada cliente. Cada cliente pertenece a un distrito, cada distrito a una provincia y cada provincia a un departamento. Cada vendedor pertenece a una agencia, y cada agencia pertenece a un distrito, cada distrito a una provincia y cada provincia a un departamento. Las métricas deben visualizarse como totalizados anuales, semestrales, trimestrales y mensuales. Diseñe las dimensiones, las medidas y el modelo de datos. Solución: El primer paso en la construcción de un Data Mart es la definición de las medidas. Del enunciado del problema, puede deducirse que existen dos medidas en este Data Mart: créditos concedidos y pagos. A continuación, se deben establecer las dimensiones del Data Mart. Se desea visualizar la información por cliente y vendedor. Esto sugiere la existencia de dos dimensiones: Cliente y Vendedor. Para cada dimensión, se deben establecer los niveles. Cada cliente está en un distrito, cada distrito en una provincia y cada provincia en un departamento. Por tanto, la dimensión Cliente tiene los siguientes niveles: -
Dimensión Cliente
. Departamento .. Provincia … Distrito …. Nombre cliente Obsérvese el uso de la notación de puntos para representar a los niveles. El nivel más superior se representa por un punto al lado izquierdo, el nivel siguiente por dos puntos, y así sucesivamente. Respecto de la dimensión Vendedor, se sabe que cada vendedor está en una agencia, cada agencia en un distrito, cada distrito en una provincia y cada provincia en un departamento. Por tanto, los niveles de la dimensión Vendedor son: -
Dimensión Vendedor
. Departamento .. Provincia … Distrito …. Agencia ….. Nombre Vendedor Por otro lado, las tarjetas de crédito pueden ser de dos tipos: “VISA” y “MASTERCARD”. Esto sugiere la existencia de la dimensión Tipo Tarjeta, con un solo nivel.
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
-
47
Dimensión Tipo Tarjeta
. Tipo Tarjeta .. Nro. Tarjeta Por último, las medidas deben visualizarse como totalizados anuales, semestrales, trimestrales y mensuales. Por lo general, todo data mart tiene una dimensión que representa las escalas temporales. En este caso, existe una dimensión llamada Tiempo, que tiene la siguiente estructura: -
Dimensión Tiempo
. Año .. Semestre … Trimestre …. Mes
2.2. TALLER DE MODELADO DIMENSIONAL 2.2.1. Identificando Medidas Measures (medidas): Son valores cuantitativos que almacenan las métricas del negocio. Están representados por columnas numéricas en la fact table. Ejemplo: -
Cantidad Vendida Monto Vendido Impuestos Gasto
IEST PRIVADO CIBERTEC
CARRERA DE COMPUTACIÓN E INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
-
48
Costo
Es la parte cuantitativa de los reportes y la pregunta que nos permite identificarla es ¿Cuánto?
2.2.2. Identificando Dimensiones y sus tipos Dimensión: Es una entidad de negocios respecto de la cual se deben calcular las métricas. Ejemplos: clientes, productos, tiempo, vendedor, tienda, ubigeo, etc. Es la parte atribuible de una solución de Business Intelligence, es la parte cualitativa (características) de los reportes. Generalmente provienen de las tablas maestras de los sistemas transaccionales. Las dimensiones están compuestas de dos partes: Atributos y Jerarquías, y en cantidad de registros son las tablas más pequeñas. Las preguntas que nos permiten identificarlas son: ¿Quién?, ¿Qué?, ¿Cuándo?, ¿Dónde? ¿A quién? Son las áreas temáticas, líneas del negocio o sujetos del negocio. Las mismas proveen un método general para organizar la información corporativa Definidas como un grupo de uno o más atributos, separados y distintos uno de otros (es decir, que no se comparten atributos). Dentro de cada dimensión se puede definir los niveles de agregación o sumarización para cada análisis, a estos niveles de granularidad se los caracteriza con el nombre de atributos. Ejemplo: Analizamos las ventas: Por Tienda Por Vendedor Por Producto Por Semana Por Departamento Por Marca Por Mes Por Territorio de Ventas Por País Ejemplo: Dimensión Tiempo
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
49
Dimensión Producto
Tipos de Dimensiones: Las tablas de dimensiones se construyen incluyendo todos los atributos que la incluyen de una forma des normalizada. Existen diversas variantes al momento de diseñar las dimensiones: Dimensiones normales o regulares (Planas) Dimensiones Roll-up Dimensiones Role-Playing Dimensiones Degeneradas Regular Dimensión: Un foreign key existe entre la tabla de Hecho y la tabla dimensional.
TIEMPO_DIM Tiempo_Key Año Semestre Trimestre Mes
TARJETA_FACT Tiempo_Key Cliente_Key Vendedor_Key TipoTarjeta_Key creditos_concedido pagos
CLIENTE_DIM Cliente_Key IdCliente Departamento Provincia Distrito NombreCliente
Dimensiones Roll-up Es una dimensión que es un subconjunto de otra, necesarias para el caso en que tenemos tablas de hechos con diferente granularidad
IEST PRIVADO CIBERTEC
CARRERA DE COMPUTACIÓN E INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
50
MES_DIM Mes_Key Nombre_Mes Año
DIA_DIM Dia_Key dia Mes_Key
CUOTAVENDEDOR_FACT Mes_Key Vendedor_Key Cuota_MontoVenta
VENTADIARIA_FACT Dia_Key Vendedor_Key Cliente_Key Producto_Key Cuota_MontoVenta
Role-Playing Dimensión: Una dimension puede ser usada múltiples veces sobre el mismo cubo/measure group. Se ve dos dimensiones distintas: TiempoVencimiento TiempoPago
TIEMPO_DIM Tiempo_Key Año Semestre Trimestre Mes
TARJETA_FACT Tiempo_Key_Vencimiento Tiempo_Key_Pago Cliente_Key Vendedor_Key TipoTarjeta_Key creditos_concedido pagos
Fact-Dimensión o Dimensión degenerada Es una dimensión basada sobre un atributo de una tabla de hechos, tambien es conocida como dimensión degenerada. El término Dimensión Degenerada, hace referencia a un campo que será utilizado como criterio de análisis y que es almacenado en la tabla de hechos. Esto sucede cuando un campo que se utilizará como criterio de análisis posee el mismo nivel de granularidad que los datos de la tabla de hechos, y que por lo tanto no se pueden realizar agrupaciones o sumarizaciones a través de este campo. Los "números de orden", "números de ticket", "números de transacción", etc, son algunos ejemplos de dimensiones degeneradas. La inclusión de estos campos en las tablas de hechos, se lleva a cabo para reducir la duplicación y simplificar las consultas.
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
51
VENTADIARIA_FACT Nro_Factura Tiempo_Key_Envio Tiempo_Key_Pago Vendedor_Key Cliente_Key Producto_Key Unidades_Vendida Monto_Vendido
Many to many Dimensión Utiliza un grupo de medidas intermedia. Siempre que sea posible, se debe evitar mantener en el DW tablas de dimensiones con relaciones muchos a muchos entre ellas, ya que esta situación puede, entre otros inconvenientes, provocar la pérdida de la capacidad analítica de la información y conducir a una sumarización incorrecta de los datos. Para explicar esta problemática, se tomará como ejemplo la relación existente entre ríos y provincias, es decir: Una provincia tiene uno o más ríos, y un río pertenece a una o más provincias. Además, se tomará como referencia las siguientes tablas pertenecientes a un OLTP, que contienen básicamente los datos relacionados a ríos y provincias: RIO_DIM Rio_Key IdRio NomRio
RECORRIDO_DIM Reccorrido_Key Rio_Key Provincia_Key
PROVINCIA_DIM Provincia_Key IdProvincia NombreProvicncia
2.2.3. Diseñando Niveles de Granularidad Atributos.-. Son las características del negocio. Un grupo de atributos crean una Dimensión. Ejemplo: Dimensión: Tiempo Atributos: Año, Semestre, Trimestre, Mes. Jerarquías.-. Es la distribución de los atributos en niveles. Ejemplo: Jerarquía Ubicación: Departamento Provincia Distrito Jerarquía Calendario: Año Trimestre Distrito Niveles.-.
IEST PRIVADO CIBERTEC
CARRERA DE COMPUTACIÓN E INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
52
Es una forma de organizar los atributos de una dimensión. Los niveles permiten realizar la técnica BI llamada Drill Down / Drill UP. Ejemplo: Jerarquía Ubicación: Departamento Provincia Distrito
Nivel 1 Nivel 2 Nivel 3
2.2.4. Resolución de Caso Práctico Caso Pinacoteca: El instituto Nacional de Cultura desea analizar la siguiente información: La cantidad de cuadros que se encuentran en las pinacotecas (museo) peruanas. El número de visitas y el monto recaudado en cada museo por tipo de entrada. Un tipo de entrada es la forma de pago que realiza la persona (Universitario, Escolar, Adulto, AdultoMayor). Además, es necesario detallar lo anterior por la frecuencia de días, semanas, mes y año. Se desea conocer en cuantas pinacotecas ha estado un cuadro determinado y cuánto tiempo ha permanecido en la pinacoteca. De cada pinacoteca se desea analizar su nombre, ciudad en la que se encuentra y el área en metros cuadrados que tiene. De los cuadros se quiere analizar su nombre, medidas, fecha en la que fue pintado y técnica usada para pintarlo. Cada cuadro es pintado por un determinado pintor (nombre, país, ciudad, fecha de nacimiento y fecha de fallecimiento). Un pintor pueden pertenecer o no a una escuela. Los pintores pueden tener también uno o varios mecenas que los protegen (nombre, país, ciudad de nacimiento, fecha de nacimiento y muerte). Asimismo, se desea conocer la fecha en que se inicia y termina el mecenazgo con cada pintor). A su vez un mismo mecenas puede serlo de varios pintores. Mecenas es la persona que apoya económicamente al pintor para realizar su trabajo. Solución: Identificando Medidas: Cantidad de cuadros Tiempo de permanencia Número de visitas Monto recaudado
Identificando Dimensiones: Cuadro Pintor Pinacoteca Mecenas Tiempo Escuela
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
IEST PRIVADO CIBERTEC
53
Tipo de Entrada
CARRERA DE COMPUTACIÓN E INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
54
BUS MATRIX CUADRO Cantidad de Cuadros Número de Visitas Monto Recaudado Número de Días Duración de Mecenazgo
PINTOR
X X
PINACOTECA MECENAS TIEMPO
ESCUELA TIPO ENTRADA
X
X
X
X
X
X
X
X
X
X X
X
Resumen 1. El modelo dimensional es una base de datos que tiene una estructura adecuada para resolver consultas analíticas. 2. Los componentes de un modelo dimensional son: Grupos de medidas y Dimensiones 3. Existen 02 tipos de esquemas de modelo dimensional: STAR y SNOWFLAKE. 4. Es importante el SK (Surrogate Key) por un tema de performance al momento de efectuar las consultas analíticas.
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
55
5. La granularidad, permite establecer la organización de los datos a fin de poder efectuar el Drill Down o Drill Up. Pueden revisar los siguientes enlaces para ampliar los conceptos vistos en esta unidad:
o o
https://www.youtube.com/watch?v=j0kl1vZjsGE http://www.alankoo.com/2008/06/degenerated-dimensions.html
UNIDAD
3 ETL – Metodología Ralph Kimball IEST PRIVADO CIBERTEC
CARRERA DE COMPUTACIÓN E INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
56
LOGRO DE LA UNIDAD DE APRENDIZAJE Al término de la unidad, el alumno organiza adecuadamente un proyecto aplicando la metodología de Kimball. TEMARIO 3.1 Tema 5 3.1.1 3.1.2 3.1.3
: : : :
ETL Concepto Etapas de proceso ETL Opciones para implementar ETL
3.2 Tema 6 3.2.1 3.2.2 3.2.3 3.2.4
: : : : :
Metodología Introducción a la metodología de Ralph Kimball Identificando las fases de metodología de RK Etapas de un proceso de DataMart y Data Warehouse según RK Actividades y entregables
3.3 Tema 7 3.3.1
: Taller : Desarrollo de un caso aplicando metodología de Ralph Kimball
ACTIVIDADES PROPUESTAS
Los alumnos identifican el proceso ETL y sus etapas. Los alumnos identifican la metodología de Ralph Kimball y su importancia. Los alumnos resuelven casos de casos prácticos aplicando metodología de Ralph Kimball.
3.1. ETL 3.1.1. Concepto Una vez definida la base de datos STAR o SNOWFLAKE para el Datamart, se debe efectuar la población con la información de los sistemas transaccionales. Este proceso puede alcanzar niveles de complejidad muy altos. Los procesos que pueblan el Datamart se denominan procesos ETL (Extraction, Transformation and Loading). Estos procesos extraen la data de los sistemas transaccionales, la transforman para asegurar la uniformidad y consistencia de los datos, y cargan dicha información en el Datamart. Con frecuencia, los procesos ETL deben modificar el formato y la presentación de los datos leídos desde los sistemas transaccionales. La siguiente figura muestra las operaciones de transformación que pueden realizarse:
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
57
Staging área El “Staging área” es el lugar de tránsito de los datos en su camino de la fuente al Data Warehouse. La mayor parte del esfuerzo en la construcción de un Data Warehouse se despliega en el “Staging Área”, donde se construyen y se implementan los procesos de extracción, limpieza, transporte, transformación y carga de los datos. Normalmente el Data Warehouse y los sistemas transaccionales residen en plataformas de bases de datos distintas debido a que las configuraciones que tienen ambos ambientes son muy diferentes, y con la finalidad que los procesos de Soporte a decisiones, que normalmente son pesados, no afecten a los sistemas operacionales. La herramienta que se utiliza para la construcción de los procesos del “Staging área” es la herramienta ETL, que es una herramienta especializada en el tratamiento de los datos, sobre todo en el manejo de volúmenes grandes.
IEST PRIVADO CIBERTEC
CARRERA DE COMPUTACIÓN E INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
58
3.1.2. Etapas de un proceso ETL El proceso de poblar un Data Warehouse se puede dividir en 5 tipos de subprocesos: • • • • •
Descubrir Extraer Transformar Transportar Cargar
Descubrir En esta etapa se analiza la fuente de información, seleccionando los datos a extraer, los niveles de calidad de estos y la disponibilidad de los mismos. Extraer El proceso de extracción se realizara sobre fuentes heterogéneas, es por ello que se debe contar con una herramienta ETL abierta a todas las fuentes y a todas las plataformas.
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
59
Transformar El proceso de transformación se encarga de cambiar los formatos de datos del sistema fuente al sistema destino, así como de realizar la integración de las fuentes y la estandarización de los datos El componente más importante de los procesos de transformación es el mapeo de los datos, que es la base de las definiciones de las reglas de transformación, constituye la fuente más importante de metadatos y es la base sobre la cual se manejan los cambios.
Los procesos de transformación serán muy variados y dependerán de las reglas del negocio, entre los tipos más importantes se pueden distinguir los siguientes: Conversión de llaves concatenadas.
Columna del Warehouse 43 N 00002 02
Llave OLTP =
43N0000202
43
N
00002
02
Cod País
Tienda
Correlativo
Canal
Consolidación de datos
IEST PRIVADO CIBERTEC
CARRERA DE COMPUTACIÓN E INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
60
Separación de campos “FREE - FORM”
Separación de datos que tienen codificación binaria
Derivar datos a partir de las fuentes
Transformando códigos de producción
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
61
Asignación de llaves artificiales
Tabla “Look up” Es una tabla de referencia que básicamente tiene dos columnas que contienen las equivalencias entre los códigos de las fuentes y los códigos de Data Warehouse
Especificaciones del proceso ETL El proceso ETL se especifica en una tabla similar a la de la figura siguiente que incluye el mapeo de la fuente al destino y en la que se incluye las reglas de transformación a implementar.
IEST PRIVADO CIBERTEC
CARRERA DE COMPUTACIÓN E INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
62
Fuentes y objetivos
En general existirán procesos ETL entre la fuente y el warehouse o entre el warehouse y los datamarts o entre el ODS y los modelos de minería de datos, o todas las combinaciones posibles como se muestra en la figura anterior. Estandarización y limpieza de datos Estandarización de datos Es el proceso orientado a la uniformizar los datos en base a las definiciones y luego en base a la realidad. Por ejemplo un caso típico es el que se presenta es cuando existen campos que contienen diferente valor como por ejemplo “Andy” y “Andrew” y que se refieren a la misma persona real, o el caso en el que el campo contiene los mismos valores “Brenda” y “Brenda” pero que en la realidad corresponden a personas distintas.
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
63
Este problema se puede resolver con dos tipos de procesos que son complementarios. El primero un proceso automático que tenga rutinas que permitan identificar automáticamente estos registros y el segundo un proceso de gestión visual que tenga como finalidad complementar al primero.
Limpieza de datos. El problema de la calidad de los datos se puede enfrentar en parte con rutinas de limpieza que permitan reducir el número de registros con error. En el siguiente cuadro se muestra un caso típico de una tabla en la que se registran el número de documento y el nombre digitados y en la que se puede distinguir errores de digitación comunes. Al igual que en el caso anterior el problema se puede enfrentar con rutinas que permitan identificar estos registros de manera automática complementadas por procesos de gestión visual de la información.
No. Doc.
Nombre
02336589
Juan Pérez Costa
2336589 02336689
Pérez Costa, Juan Juan Pérez Costa
Posibles soluciones • Construir rutinas de limpieza y transformación. • Comprar herramientas especializadas en el tratamiento de nombres. • Establecer procesos de gestión visual de la información. La importancia de los metadatos ¿Qué son los Metadatos?
IEST PRIVADO CIBERTEC
CARRERA DE COMPUTACIÓN E INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
64
Los metadatos son como las fichas de catálogo de una biblioteca que ayudan a saber el contenido y la ubicación de un libro. Importancia de los metadatos en el desarrollo del Data Warehouse Cada etapa en la construcción del Data Warehouse genera un conjunto de metadatos propios, estos metadatos se deben unificar en un solo repositorio. Los metadatos que se generan en cada etapa son: En la extracción de las fuentes: • Identificación de campos fuente. • Registro de cambios. • Resolución de inconsistencias. • Mapas • Transformaciones. En el Staging Área: • Integración y segmentación. • Resúmenes, adiciones. • Cálculos previos y derivaciones. • Transformaciones. En el bloque de Acceso y uso: • Proporciona un mapa de navegación para la exploración de la información. • Las herramientas de explotación generan metadatos propios. Tipos de Metadatos por los usuarios que los utilizan: De acuerdo al tipo de usuario los metadatos pueden ser: Metadatos técnicos y metadatos del negocio.
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
65
Arquitectura de metadatos La implementación de un Data Warehouse requiere también la implementación de un repositorio unificado de Metadatos, este repositorio recibirá los metadatos que se generan en todas los bloques de la arquitectura del Data Warehouse.
Los usuarios de los metadatos tendrán necesidad de ver los siguientes metadatos: Usuarios técnicos: • Datos sobre el proceso ETL • Datos sobre el DBMS. • Archivos, arquitectura. • Modelos físico, lógico. • Mapeos. Usuarios de negocio: • Áreas de negocio. • Definiciones de reglas de negocio. • Como utilizar las herramientas. • Significado de la información • Ubicación de la información Fuentes de metadatos Como se puede apreciar en la arquitectura de metadatos, las fuentes de estos últimos son diversas y al igual que las fuentes de datos de un datawarehouse requieren procedimientos ETL que lean los metadatos locales de cada herramienta y los centralicen en un solo repositorio unificado
IEST PRIVADO CIBERTEC
CARRERA DE COMPUTACIÓN E INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
66
Las fuentes de metadatos son: • • • • • • • •
Lógica de programas. Comentarios en los programas Comentarios en archivos de datos. Secuencias de jobs y sus comentarios. Metadatos del repositorio de la herramienta CASE. Modelos de datos. Diccionarios de la base de datos. Documentos que contengan reglas de negocio
3.1.3. Opciones para implementar proceso ETL Los sistemas para BI tienen diferente herramientas para el proceso ETL, por ejemplo Microsoft SQL Server 2014 ofrece múltiples opciones para la implementación de los procesos ETL:
Transact – SQL Consultas Distribuidas El utilitario BCP y la sentencia Bulk Insert SQL Server Integration Services (SSIS)
Esto se verá de manera detallada en las sesiones de laboratorio.
3.2. METODOLOGÍA 3.2.1. Introducción a la metodología de Ralph Kimball. La metodología hace referencia hace referencia al conjunto de procedimientos basados en principios lógicos, utilizados para alcanzar una gama de objetivos que rigen en una investigación científica en una exposición doctrinal.
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
67
Ralph Kimball fue co-inventor de Xerox Star Workstation, el primer producto comercial en usar iconos y ventanas. Fue Vice-presidente de Metaphor Computer Systems, fundador y CEO de Red Brick Systems. Kimball es un referente de la metodología dimensional para diseñar grandes Data Warehouses, fue el que realmente explotó al máximo el tema de Data Warehousing. Actualmente enseña Data Warehousing a diferentes grupos y ayuda a clientes con técnicas de diseño específicos. Kimball es columnista de la revista Intelligent Enterprise y tiene relación con Sagent Technology, Inc. Su libro “The Data Warehouse Tookit” es ampliamente reconocido como un pilar sobre la materia.
3.2.2. Identificación de fases de metodología de Ralph Kimball.
Este diagrama muestra la secuencia de tareas de alto nivel requeridas para el efectivo diseño, desarrollo e implementación de Data Warehouses. El diagrama muestra una vista general del mapa de ruta de un proyecto en el cual cada rectángulo es una columna que nos indica dónde estamos, por dónde pasamos y hacia dónde debemos dirigirnos. Visión de programas y proyectos de Kimball Proyecto, se refiere a una iteración simple del KLC, desde el lanzamiento hasta el despliegue. Programa, se refiere a la amplia coordinación progresiva de recursos, infraestructura, tiempos y comunicación a través de múltiples proyectos. Un programa contiene proyectos múltiples En la realidad los programas no necesariamente inician antes del proyecto, aunque debería ser así. Planificación de proyecto. - Definir el alcance ↔ Entender los requerimientos del negocio. - Identificar tareas - Programación de tareas - Planificar el uso de los recursos.
IEST PRIVADO CIBERTEC
CARRERA DE COMPUTACIÓN E INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
-
68
Asignar la carga de trabajo a los recursos El documento final representa un plan del proyecto.
Refuerza el plan del proyecto. Actividades: - Monitoreo del estado de los procesos y actividades. - Rastreo de problemas - Desarrollo de un plan de comunicación comprensiva que direccione la empresa y las áreas de TI Línea de desarrollo Luego de definir los requerimientos del negocio, enfocar el proyecto a tres líneas (tracks) concurrentes: - Tecnología - Datos - Aplicaciones de BI El flujo de actividad de las líneas, se indican por las flechas. La dependencia entre tareas se indica por el alineamiento vertical de las tareas
Roles del proyecto -
Front Office: Sponsor y Directores
-
Ejecutivos: Jefe de Proyecto, Líder Proyecto del Negocio.
-
Línea regular: Equipo de proyecto principal. o Analista del sistema de negocio o Modelador de datos o DBA o Diseñador ETL
-
Desarrollador de aplicaciones para el usuario final.
-
Equipos especiales: Seguridad, Calidad
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
69
Planificación de Proyecto
Planificación – Generando valor
3.2.3. Etapas de un proceso de Data Mart y Data Warehouse según metodología de Ralph Kimball. Planificación del Proyecto
IEST PRIVADO CIBERTEC
CARRERA DE COMPUTACIÓN E INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
70
La planificación del proyecto es dependiente de los requerimientos del negocio, como podemos apreciar en el diagrama del Business Dimensional Lifecycle (BDL), ya que los requerimientos del negocio determinan el alcance del proyecto, definen los recursos necesarios, etc., la planificación acotará los requerimientos ya sea por cuestiones de recursos y/o tiempo. Esta etapa se concentra sobre la definición del proyecto, específicamente en la identificación del escenario del proyecto para saber de dónde surge la necesidad del Data Warehouse. Factores asociados con estas etapas incluyen: identificación de los usuarios, sponsors, convincentes motivaciones del negocio, cooperación entre áreas de sistemas y negocios, cultura analítica de la organización y análisis de factibilidad (tanto tecnológica como de disponibilidad de datos). Para medir estos factores propone un test de buena disposición del proyecto dónde describe diferentes escenarios posibles. Adicionalmente, propone técnicas (Relevamientos de Alto Nivel, Priorización de Requerimientos y Pruebas de Concepto) para mitigar las deficiencias que el proyecto pudiera tener en algunos de los factores mencionados anteriormente. Cómo metodología de estas etapas propone identificar el alcance preliminar basándose en los requerimientos del negocio y no en fechas límites (Deadlines) construyendo la justificación del proyecto en términos del negocio con indicadores como el ROI (Retorno de Inversión), NPV (Valor Presente Neto) y el IRR (índice de Retorno Interno).
A nivel de planificación del proyecto, establece la identidad del mismo, el personal (staff): los usuarios sponsors, lideres, gerentes del proyecto (tanto de sistemas como del sector usuarios), equipo “corazón” del proyecto (analistas, arquitectos, DBAs, diseñadores, responsables de extracción, desarrolladores, instructores, etc.), equipo “especial” del proyecto (soporte, seguridad informática, programadores, analistas de calidad y testing), el desarrollo del plan del proyecto, el seguimiento y monitoreo. Definición de los Requerimientos del Negocio La definición de los requerimientos del negocio establece la base para las tres etapas paralelas subsiguientes. Estas etapas están focalizadas en la tecnología, los datos y las aplicaciones por lo cual es altamente crítica y es el centro de atención del BDL. Los usuarios finales y sus requerimientos impactan siempre en las implementaciones realizadas de un Data Warehouse. Según la perspectiva de Kimball, los requerimientos del negocio se posicionan en el centro del “Universo del Data Warehouse”. Como destaca siempre el autor, los requerimientos del negocio deben determinar el alcance del data warehouse (qué datos debe contener, cómo debe estar organizado, cada cuánto debe actualizarse, quiénes y desde dónde accederán, etc.). Kimball da consejos y técnicas para descubrir eficazmente los requerimientos del negocio. Estas tácticas y estrategias se focalizan sobre las entrevistas de relevamiento (diferentes tipos, preparación de la entrevista, roles a cubrir, búsqueda de información pre-entrevista, selección de entrevistados, desarrollo de los cuestionarios, planificación, preparación de los entrevistados, conducción de la entrevista, contenido, cierre, revisión de resultados, etc.). Modelado Dimensional
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
71
Ralph Kimball es realmente un referente en el tema de modelado dimensional. Por ejemplo en el Capítulo 6 del libro A Graduate Course on Dimensional Modeling (Kimball,1998), se introducen conceptos avanzados del modelado, tales como, relaciones many to many en esquemas estrella, role-playing dimensions, relaciones recursivas, manejo de granularidades diferentes, múltiples unidades de medida, modelos multimoneda, bandas de rangos, consultas ROLAP avanzadas, análisis market basket, atributos puercoespín, etc. Diseño Físico El diseño físico de las base de datos se focaliza sobre la selección de las estructuras necesarias para soportar el diseño lógico. Algunos de los elementos principales de este proceso son la definición de convenciones estándares de nombres y configuraciones específicas del ambiente de la base de datos. Los índices y las estrategias de particionamiento son también determinadas en esta etapa. Diseño y Desarrollo de Presentación de Datos Todas estas tareas son altamente críticas pues tienen que ver con la materia prima del Data Warehouse: los datos. La desconfianza y pérdida de credibilidad del Data Warehouse serán resultados inmediatas e inevitables si el usuario se encuentra con información inconsistente. Es por ello que la calidad de los datos es un factor determinante en el éxito de un proyecto de Data Warehousing. Es en esta etapa donde deben sanearse todos los inconvenientes relacionados con la calidad de los datos fuente.
Plan -
Crear un diagrama de flujo fuente-destino esquemática, de una página y a nivel global. Probar, elegir e implementar una herramienta de Data Staging. Profundizar en detalle por tabla destino, gráficamente describir las reestructuraciones o transformaciones complejas. Gráficamente ilustrar la generación de las claves surrogadas. Desarrollo preliminar de la secuencialidad de los trabajos.
Carga de dimensiones - Construir y probar la carga de una tabla dimensional estática. La principal meta de este paso es resolver los problemas de infraestructura que pudieran surgir (conectividad, transferencia, seguridad, etc.) - Construir y probar los procesos de actualización de una dimensión. - Construir y probar las cargas de las restantes dimensiones. Fact Tables y automatización - Construir y probar la carga histórica de las Fact Tables (carga masiva de datos). Incluyendo búsqueda y sustitución de claves. - Construir y probar los procesos de cargas incrementales. - Construir y probar la generación de agregaciones. - Diseñar, construir y probar la automatización de los procesos. Diseño de la Arquitectura Técnica Ralph Kimball hace una analogía entre los planos arquitectónicos de una casa y la arquitectura de un Warehouse, Se debe de tener un plan antes de comenzar, no es simplemente reordenar y explotar la información.
IEST PRIVADO CIBERTEC
CARRERA DE COMPUTACIÓN E INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
72
Al igual que en una construcción, los planos sirven para comunicar los deseos entre los clientes y el arquitecto, como así también para medir esfuerzos y materiales necesarios para la obra (comunicación, planificación, flexibilidad y mantenimiento, documentación, productividad y reuso). Finalmente, argumenta Kimball (1998), “un buen conjunto de planos, como cualquier buena documentación, nos ayudará más tarde cuando sea tiempo de remodelar o hacer incorporaciones”. Selección de Productos e Instalación Utilizando el diseño de arquitectura técnica como marco, es necesario evaluar y seleccionar componentes específicos de la arquitectura cómo será la plataforma de hardware, el motor de base de datos, la herramienta de ETL o el desarrollo pertinente, herramientas de acceso, etc. Una vez evaluados y seleccionados los componentes determinados se procede con la instalación y prueba de los mismos en un ambiente integrado de Data Warehousing. Especificación de Aplicaciones para Usuarios Finales Kimball (1998) divide el proceso de creación de las aplicaciones para usuarios finales en dos grandes fases: especificación y desarrollo. Clasifica a los usuarios según su perfil de consulta, desde usuarios con un perfil más estratégico y menos predecibles (Power Users) hasta usuarios netamente operacionales que consumen una serie de reportes estándares (Final Users) pasando por los usuarios gerenciales con uso de interfases push-button (EIS Users). Kimball (1998) destaca cuatro pasos principales (siempre enfatizando el hecho de involucrar a los usuarios en cada uno de estos pasos). -
-
Determinación del conjunto de templates iniciales (identificar reportes candidatos, clasificarlos y priorizarlos) Diseño de la estrategia de navegación dentro de la aplicación (esquema de pantallas, esquema de carpetas –directorios-, criterios de agrupamiento –por datos, por dueño, por regla del negocio, etc.) Determinación de estándares (nombre de objetos, ubicación de objetos, formato de las salidas) Detalle de las especificaciones (definición: nombre, descripción o propósito, frecuencia, parámetros, restricciones, layout, etc.)
Desarrollo de Aplicaciones para Usuarios Finales Selección de un enfoque de implementación - Basado en Web o Inter/Intranet o Usuarios altamente distribuidos o Manejo centralizado de nuevas versiones - Herramienta propietaria o Mayor complejidad de uso o Para usuarios más capacitados o Instalación local - EIS o Acceso estructurado o Secuencialidad de pantallas o Push-Button
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
-
-
-
-
73
Interfase personalizada o Application Programming Interface (API) o Desarrollos propios sobre la base de un conjunto de funcionalidades Desarrollo de la aplicación o Definición de herramienta de acceso al MetaData o Desarrollo de Templates y esquema de navegación de la aplicación o Selección de reportes para pre-ejecución Prueba y verificación de datos o Descripciones o Información duplicada o Relaciones entre atributos o Consistencia e integridad de datos con sistemas fuentes Documentación y Roll Out o Retroalimentación con los resultados de la puesta en producción Mantenimiento o Nuevos templates o Incorporación de nuevos sistemas fuentes o Monitoreo de performance o Eliminación de templates en desuso
Implementación La tecnología que reside en el escritorio del usuario es la última pieza que debe ser ubicada antes de la salida a producción (Roll Out o Deployment). Desafortunadamente, afirma Kimball (1998), las organizaciones frecuentemente subestiman el esfuerzo y el tiempo requerido para esta etapa. Kimball, propone entonces un checklist sobre actividades que deberían ocurrir antes de la implantación, para asegurar que la infraestructura correspondiente al ambiente del usuario esté correcta. El checklist incluye: Configuración de Hardware, Conexión a las Bases, Acceso a Intranet o Internet, Direcciones LAN (si no son dinámicamente asignadas), Auditorias de Tecnología sobre las configuraciones en las que se encontraban las PCs. Asimismo incluye preveer actualizaciones de hardware y software (determinando responsables, proyecto o área de usuario), verificaciones de seguridad (logon de red y base de datos), prueba de procedimientos de instalación en una variedad de máquinas, planificación de instalación con la correspondiente educación a los usuarios. Debe instruirse al usuario en tres aspectos claves: contenido del warehouse, aplicación y herramientas de acceso. Mantenimiento y crecimiento Data Warehousing es un proceso bastante particular cuya evolución es en forma espiral. Esto permite ir afinando cada etapa y retroalimentándola hasta lograr el objetivo principal, que es plasmar el requerimiento del usuario en una base de datos para la toma de decisiones e ir creciendo con el tiempo. Kimball (1998 brinda una serie de puntos a tener en cuenta para mantener exitosamente el Warehouse. Entre ellos se destacan: el continuo soporte y la constante capacitación a usuarios de negocios, el manejo de la infraestructura (monitoreo de base de datos, tráfico, etc.), tuning de rendimiento sobre las consultas, mantenimiento del metadata y procesos ETLs. Otros aspectos involucran el monitoreo regular del cumplimiento de las expectativas sobre el Warehouse (variables de medición del éxito fijadas con anterioridad), relevamiento de casos de estudio
IEST PRIVADO CIBERTEC
CARRERA DE COMPUTACIÓN E INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
74
(situaciones reales donde una decisión basada en información del Warehouse tuvo impacto sobre el negocio). Del mismo modo, la constante publicidad interna del uso del warehouse (permitiendo acceso siempre y cuando se tenga la capacitación correspondiente) y fluida comunicación con los sectores de negocios y sistemas para asegurar la buena salud del Data Warehouse. Gerenciamiento del Proyecto El gerenciamiento del proyecto se encuentra en cada una de las actividades del proyecto, desde su concepción hasta la puesta en producción. Es una fase vital dentro del Business Dimensional Lifecycle (BDL) permitiendo un fluido flujo de los requerimientos del área usuaria hacia el equipo de desarrollo del Data Warehouse. Asimismo el buen manejo de situaciones inesperadas que puedan hacer peligrar el proyecto.
3.2.4. Actividades y entregables. ASEGURAR LA CALIDAD EN LA DATA Esta fase nos indica que el mejoramiento en la calidad de los datos del DWH es un proceso que va más allá de la construcción del mismo DWH. A diferencia de la limpieza de datos que apunta a corregir errores, el proceso de mejoramiento de la calidad busca prevenirlos atacando los problemas desde su origen (Fuente de Datos) y continuando estas mejoras en todo el tiempo debida del DWH; se debe mejorar sus procesos de negocio y concientizar a los usuarios y gerencia de su importancia para que se logre los beneficios deseados. Una forma indirecta para asegurar la calidad en el DWH es mejorar los procesos de negocios que producen los datos o reestructurarlos antes de que automaticen de tal manera que se elimine pasos innecesarios que incluyen costo innecesarios y añaden errores para el DWH.Los puntos más importantes y resaltantes a considerar dentro de una organización para asegurar la calidad de la data de las fuentes de origen, son: -
Definir los datos consistentemente entre todos los futuros usuarios del DWH. Ubicar los programas de captura de datos lo más cerca posible del evento de negocio que origina esos datos. Ingresar reglas de validación automática que se disparen al momento que se ingresan los datos y validen si los mismos son correctos Permitir actualizar los datos siempre. Permitir cargar el valor "desconocido" en cada uno de los campos cuando no se conoce el valor real. Estimular a la organización para que tenga la data lo más actualizados y correcto posible. Hacer que tanto los encargados de ingresar los datos como los encargados de los procesos de negocios se sientan responsables de la calidad de los datos. Si se minimiza los errores de los datos desde el origen, estos nos aseguran que la data que ingresar DWH es confiable para la toma de decisiones en la organización
Entregable en la Política de Calidad - Documento Master de la Política de Calidad de Datos (incluye integradamente aspectos de laExploración de los Datos, explicación del Diseño de las
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
-
75
Soluciones, Ejecución de Rutinas de Limpieza, reglas aplicadas para Asegurar la Calidad en los Datos). Presentación en Power Point de la Política de Calidad del DWH.
FASE DE VISIONADO MILESTONE 0: Aprobación del Estudio de Viabilidad Este milestone consiste en la entrega y aprobación del estudio de viabilidad del área gerencial, siendo este milestone el punto de inicio para que se emprenda el proceso de DWH en la organización. Entregables - Documento del Estudio de Viabilidad MILESTONE 1: Visión y Alcance Aprobados Este milestone culmina con la Fase de Visionado, en este punto tanto el equipo como los clientes se tiene que poner de acuerdo en toda la dirección del proyecto, como que características de la solución se incluirán o no. Entregables - Trabajo en Power Point, presentación de la Fase de Visionado del DWH. - Trabajo realizado en Power Point de la organización y el DWH. - Documento de Visión/Alcance/Restricciones. - Documento de Evaluación de la Solución. - Documento de Estructura del Proyecto MILESTONE 2: Plan de Proyecto Aprobado Es la culminación de la Fase de Planificación, en este milestone los clientes y los miembros del equipo están de acuerdo en los detalles en que se entregarán y cuando. El equipo vuelve a evaluar los riesgos, actualiza las prioridades y establece los últimos detalles de las estimaciones para los recursos y programas, aprueban especificaciones. Los roles y responsabilidades son bien definidas y los mecanismos sirven para direccionar las áreas de los riegos del proyecto. Al terminar este miles toné no significa que todas las decisiones que llegan a la Fase de Planificación sean finales, el equipo debe revisar y aprobar algunas sugerencias cambiantes. Entregables - Trabajo en Power Point, presentación de la Fase de Planificación del DWH. - Plan de Proyecto Master. - Documento de Especificaciones de los Requerimientos. - Documento del Diseño de la Metadata y de los Objetivos Adicionales para el Proyecto del DWH. - Informe de Validación del Modelado. - Informe de la Validación del Diseño. - Documento del Modelo del DWH (Modelamiento, Diseño del DWH). MILESTONE 4: Versión aprobada Este milestone ocurre cuando el equipo tiene direccionado todos los temas destacables esta etapa y tiene versionada la solución o un lugar en el servicio. Una vez que se ha corregido los errores entonces la versión esta lista para ser Aprobada y utilizada. Al término de las verificaciones que realiza el Equipo del DWH, estas se concluyen con la Aprobación Formal de la Prueba de Aceptación del DWH. Esta aprobación involucra verificar que la prueba de un ambiente específico se tiene que
IEST PRIVADO CIBERTEC
CARRERA DE COMPUTACIÓN E INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
76
ejecutar y se incluya las funcionalidades basados en los requerimientos, además esta Aprobación Formal es parte del miles toné. Entregables − Trabajo en Poder Point, presentación de la Fase de Estabilización del DWH. − Informe de la ejecución de las pruebas y los resultados a los módulos de la solución (test, herramientas de prueba, Fuentes de Código y ejecutables probados). − Informe del Miles toné Versión Aprobada. MILESTONE 5: Implantación aprobada Este milestone culmina la Fase de Estabilización, la solución de esta fase debe estar proporcionando las expectativas del valor del negocio para el cliente y el equipo debe tener eficazmente terminado los procesos y las actividades para llegar a alcanzar las metas. El cliente debe estar de acuerdo que el equipo ha conocido sus objetivos antes de que estos sean declarados como una solución en el DWH o se haya concluido el proyecto. Entregables − Trabajo en Power Point, presentación de la Fase de Utilización del DWH. − Guía/Manual del DWH realizado (funcionalidad, uso, proceso de elaboración). − Informe del Milestone Implantación Aprobada (datos de satisfacción del cliente y/ousuario). − Documento de Comparación Alcance/Solución y de la Definición de los siguientes pasos a realizar para continuar el Proceso de Inteligencia de Negocios Balance Costo/Valor Lograr una cuantificación económica de los factores de valor no es fácil ni natural a diferencia de los factores de costos, agregar valor económico a los factores de valor resulta ser en extremo complejo y subjetivo. Una alternativa es hacer una valoración desde la perspectiva de costos evitables, relacionados con los costos de no disponer ella organización de información apropiada, para el proceso de Toma de Decisiones. En este tipo de proyectos es difícil estimar de antemano con exactitud los beneficios económicos, aunque si el valor que introduce en la organización que se implementa, pero se puede mostrar en base a estadísticas realizadas el beneficio que se obtendrá al mediano y largo plazo. En un estudio encargado a la compañía Gartner Group por 20 vendedores y consultores,se encontró un Retorno Promedio Total de la Inversión (Return On Investment, ROI) de401% en 2.3 años. El estudio se realizó sobre 62 organizaciones que implementaron sistemas de apoyo gerencial basados en un DWH. En este estudio se excluyeron los proyectos fracasados, así como los ejecutados por fuera del cronograma y costos debido que sólo interesan los proyectos que fueron ejecutados e implementados correctamente desde el punto de vista de todas las áreas de Ingeniería de Software (fundamentalmente Planificación y Gestión de Cambios). [BI21] Este estudio se resume en siguiente tabla:
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
77
El DWH es una estrategia de largo plazo. Al elaborar un DWH, se debe evaluar el costo el valor considerando un período de tiempo razonable para obtener beneficios. El retorno sobre la inversión de un DWH, se comienza a percibir bastante más tarde del tiempo en el cual se realizó la inversión inicial. Hacer un análisis del costo/valor desde una perspectiva a corto plazo, después de un tiempo de haber concluido el DWH, los costos serán significativamente más altos en proporción al valor inicial, de esta maneras evalúa el valor agregado en los procesos involucrados en el DWH de la organización. Entregables - Trabajo en Power Point, presentación de la Fase de Evaluación del DWH.
3.3. TALLER 3.3.1. Desarrollo de un caso aplicando metodología de Ralph Kimball. Desarrolle el caso Northwind utilizando la metodología de Ralph Kimball. Escenario.Northwind es una empresa que comercializa productos gourmet. Se le pide diseñar una solución de inteligencia de negocios utilizando la metodología de Ralph Kimball que permita satisfacer los requerimientos del negocio. Solución Ricardo Marcelo, Gerente de Ventas de la empresa desea efectuar un análisis de las ventas de los últimos doce meses para preparar un plan de acción con miras a optimizarlas. Algunas de las consultas para las que desearía encontrar respuesta son las siguientes: -
¿Cuáles son los productos de las distintas categorías que menos solicitan los clientes? ¿Cuál es el nivel de ventas de los productos según el país de procedencia? ¿Cuál es el producto de cada proveedor que registra la mayor cantidad de pedidos? ¿Cuánto es el monto mensual transportado por cada empresa de transportes? ¿Cómo se distribuyen las ventas por regiones y por territorios? Los representantes de ventas, ¿tienen el mismo nivel de pedidos colocados? ¿Cuál es la procedencia de nuestros clientes?
IEST PRIVADO CIBERTEC
CARRERA DE COMPUTACIÓN E INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
-
78
¿Cuál es el ranking de productos colocados en el mercado en unidades y en monto?
Objetivo del análisis Analizar las ventas de la empresa. -
Paso 1: Identificar el hecho (FACT)
FACT: la Venta Origen de datos: Orders y [Order details]
- Paso 2: Identificar la granularidad del hecho Grano 1 La Venta de un Producto Origen de datos: [Order details] – Cada registro en [Order details] representa la venta de un producto. Grano 2 Una Venta Origen de datos: Orders – Cada registro de Orders representa una venta, la misma que puede incluir 1 o más productos.
-
Paso 3: Identificar las medidas
Cubo 1 (Ventas x Producto) Unidades vendidas Origen de datos: [Order details].quantity Monto vendido Origen de datos: [Order details].quantity, [Order details].unitPrice Cubo 2 (Ventas x Pedido) Monto vendido Origen de datos: [Order details].quantity, [Order details].unitPrice -
Paso 4: Analizar los requerimientos puntuales para identificar las dimensiones
¿Cuáles son los productos de las distintas categorías que menos solicitan los clientes? Dimensión PRODUCTO-CATEGORIA Origen de datos: [Order details].productID Product.productName, Product.categoryID Categories.categoryName Dimensión CLIENTE Origen de datos: Orders.customerID Customers.companyName
¿Cuál es el nivel de ventas de los productos según el país de procedencia del producto?
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
79
Dimensión PRODUCTO-CATEGORIA Origen de datos: [Order details].productID Product.productName, Product.categoryID Categories.categoryName Dimensión PROVEEDOR Origen de datos: [Order details].productID Product.supplierID Suppliers.companyName Dimensión PAIS_PRODUCTO Origen de datos: [Order details].productID Product.supplierID Suppliers.country ¿Cuál es el producto de cada proveedor que registra la mayor cantidad de pedidos? Dimensión PRODUCTO-CATEGORIA Origen de datos: [Order details].productID Product.productName, Product.categoryID Categories.categoryName Dimensión PROVEEDOR Origen de datos: [Order details].productID Product.supplierID Suppliers.companyName
¿Cuánto es el monto mensual transportado por cada empresa de transportes? Dimensión TRANSPORTISTA Origen de datos: Orders.shipVia Shippers.companyName
¿Cómo se distribuyen las ventas por regiones y por territorios? No hay data disponible para responder a este requerimiento. Los representantes de ventas, ¿tienen el mismo nivel de pedidos colocados? Dimensión EMPLEADO Origen de datos: Orders.employeeID Employees.lastName, Employees.firstName
¿Cuál es la procedencia de nuestros clientes? Dimensión PAIS_CLIENTE Origen de datos: Orders.customerID Customers.country
IEST PRIVADO CIBERTEC
CARRERA DE COMPUTACIÓN E INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
80
¿Cuál es el ranking de productos colocados en el mercado en unidades y en monto? Dimensión PRODUCTO-CATEGORIA Origen de datos: [Order details].productID Product.productName, Product.categoryID Categories.categoryName Resumen: Objetivo del análisis
Ventas
Medidas
unidadesVendidas, montoVendido
Dimensiones
PRODUCTO-CATEGORIA, CLIENTE, PROVEEDOR, PAIS_PRODUCTO, TRANSPORTISTA, EMPLEADO, PAIS_CLIENTE
Cubo 1 Ventas x Producto Cubo 2 Ventas x Pedido
PRODUCTO-CATEGORIA, CLIENTE, PROVEEDOR, PAIS_PRODUCTO, EMPLEADO, PAIS_CLIENTE CLIENTE, TRANSPORTISTA, EMPLEADO, PAIS_CLIENTE
Resumen 1. El “Staging area” es el área más importante de un Data Warehouse, en ella se concentran la mayor parte de los recursos cuando se construye un Data Warehouse. 2. Los procesos ETL son los que permitirán construir el Data Warehouse 3. La herramienta ETL debe ser abierta a todos los tipos de datos y todas las plataformas como sea posible. 4. Las tablas “Look-up” son componentes esenciales de los procesos de transformación. 5. La estandarización y la limpieza de datos está relacionada directamente con la calidad de los datos y se apoya en procesos automáticos y de gestión visual. 6. El problema de estandarización de nombres es común a la mayoría de implementaciones de Data Warehouse. 7. Los usuarios de los metadatos son básicamente técnicos y de negocio. 8. Los metadatos del negocio deben ser presentados adecuadamente y son los que permiten al usuario explorar la información. 9. La metodología se basa en lo que Kimball denomina Ciclo de Vida Dimensional del Negocio (Business Dimensional Lifecycle). Este ciclo de vida del proyecto de Data Warehouse, está basado en cuatro principios básicos: a. Centrarse en el negocio: Hay que concentrarse en la identificación de los requerimientos del negocio y su valor asociado, y usar estos esfuerzos para desarrollar relaciones sólidas con el negocio,
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
81
agudizando el análisis del mismo y la competencia consultiva de los implementadores. b. Construir una infraestructura de información adecuada: Diseñar una base de información única, integrada, fácil de usar, de alto rendimiento donde se reflejará la amplia gama de requerimientos de negocio identificados en la empresa. c. Realizar entregas en incrementos significativos: Crear el almacén de datos (DW) en incrementos entregables en plazos de 6 a 12 meses. Hay que usar el valor de negocio de cada elemento identificado para determinar el orden de aplicación de los incrementos. En esto la metodología se parece a las metodologías ágiles de construcción de software. d. Ofrecer la solución completa: Proporcionar todos los elementos necesarios para entregar valor a los usuarios de negocios. Para comenzar, esto significa tener un almacén de datos sólido, bien diseñado, con calidad probada, y accesible. También se deberá entregar herramientas de consulta ad hoc, aplicaciones para informes y análisis avanzado, capacitación, soporte, sitio web y documentación. 2. Podemos también ver tres rutas o caminos que se enfocan en tres diferentes áreas: a. Tecnología (Camino Superior): Implica tareas relacionadas con software específico, por ejemplo, Microsoft SQL Analysis Services. b. Datos (Camino del medio): En la misma diseñaremos e implementaremos el modelo dimensional, y desarrollaremos el subsistema de Extracción, Transformación y Carga (Extract, Transformation, and Load - ETL) para cargar el DW. c. Aplicaciones de Inteligencia de Negocios (Camino Inferior): En esta ruta se encuentran tareas en las que diseñamos y desarrollamos las aplicaciones de negocios para los usuarios finales.
Pueden revisar los siguientes enlaces para ampliar los conceptos vistos en esta unidad: o o
https://www.youtube.com/watch?v=f0SXEIfOx6k https://www.youtube.com/watch?v=XyFU8qInKl4
IEST PRIVADO CIBERTEC
CARRERA DE COMPUTACIÓN E INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
82
UNIDAD
4 Big Data – Hadoop – Machine Learning – Data Mining LOGRO DE LA UNIDAD DE APRENDIZAJE Al término de la unidad, el alumno conoce aspectos de la tecnología y los elementos de Big Data y Machine Learning. TEMARIO 4.1 Tema 8 4.1.1 4.1.2 4.1.3
: : : :
Big Data Definición de Big Data y su rol en el mundo empresarial Fases de desarrollo de una estrategia Big Data Gobernabilidad de datos para la gestión de volúmenes de datos.
4.2 Tema 9 4.2.1 4.2.2 4.2.3 4.2.4
: : : : :
Hadoop Introducción a Hadoop Arquitectura Administración Hadoop Componentes Hadoop
4.3 Tema 10 4.3.1 4.3.2 4.3.3 4.3.4
: : : : :
Machine Learning Desarrollo de un caso aplicando metodología de Ralph Kimball Escenarios de negocio que utilicen ML Tipos de aprendizaje Algoritmos básicos
4.4 Tema 11 4.4.1 4.4.2 4.4.3 4.4.4
: : : : :
Data Mining Concepto Proceso Normas Usos
4.5 Tema 12 4.5.1
: Semana Integradora : El futuro de la Inteligencia de negocios
ACTIVIDADES PROPUESTAS
Los alumnos identifican los conceptos de tecnología de BI.
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
4.1
83
BIG DATA
4.1.1 Definición de Big Data y su rol en el mundo empresarial Debido al gran avance que existe día con día en las tecnologías de información, las organizaciones se han tenido que enfrentar a nuevos desafíos que les permitan analizar, descubrir y entender más allá de lo que sus herramientas tradicionales reportan sobre su información, al mismo tiempo que durante los últimos años el gran crecimiento de las aplicaciones disponibles en internet (geo-referenciamiento, redes sociales, etc.) han sido parte importante en las decisiones de negocio de las empresas. Vamos a describir algunas características de los componentes principales que constituyen una solución de este tipo.
Concepto.El primer cuestionamiento que posiblemente llegue a su mente en este momento es ¿Qué es Big Data y porqué se ha vuelto tan importante? pues bien, en términos generales podríamos referirnos como a la tendencia en el avance de la tecnología que ha abierto las puertas hacia un nuevo enfoque de entendimiento y toma de decisiones, la cual es utilizada para describir enormes cantidades de datos (estructurados, no estructurados y semi estructurados) que tomaría demasiado tiempo y sería muy costoso cargarlos a un base de datos relacional para su análisis. De tal manera que, el concepto de Big Data aplica para toda aquella información que no puede ser procesada o analizada utilizando procesos o herramientas tradicionales. Sin embargo, Big Data no se refiere a alguna cantidad en específico, ya que es usualmente utilizado cuando se habla en términos de petabytes y exabytes de datos. Entonces ¿Cuánto es demasiada información de manera que sea elegible para ser procesada y analizada utilizando Big Data? Analicemos primeramente en términos de bytes:
IEST PRIVADO CIBERTEC
CARRERA DE COMPUTACIÓN E INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
84
Gigabyte = 109 = 1,000,000,000 Terabyte = 1012 = 1,000,000,000,000 Petabyte = 1015 = 1,000,000,000,000,000 Exabyte = 1018 = 1,000,000,000,000,000,000 Además del gran volumen de información, esta existe en una gran variedad de datos que pueden ser representados de diversas maneras en todo el mundo, por ejemplo de dispositivos móviles, audio, video, sistemas GPS, incontables sensores digitales en equipos industriales, automóviles, medidores eléctricos, veletas, anemómetros, etc., los cuales pueden medir y comunicar el posicionamiento, movimiento, vibración, temperatura, humedad y hasta los cambios químicos que sufre el aire, de tal forma que las aplicaciones que analizan estos datos requieren que la velocidad de respuesta sea lo demasiado rápida para lograr obtener la información correcta en el momento preciso. Estas son las características principales de una oportunidad para Big Data. Es importante entender que las bases de datos convencionales son una parte importante y relevante para una solución analítica. De hecho, se vuelve mucho más vital cuando se usa en conjunto con la plataforma de Big Data. Pensemos en nuestras manos izquierda y derecha, cada una ofrece fortalezas individuales para cada tarea en específico. Por ejemplo, un beisbolista sabe que una de sus manos es mejor para lanzar la pelota y la otra para atraparla; puede ser que cada mano intente hacer la actividad de la otra, mas sin embargo, el resultado no será el más óptimo. ¿De dónde proviene toda esa información? Los seres humanos estamos creando y almacenando información constantemente y cada vez más en cantidades astronómicas. Se podría decir que si todos los bits y bytes de datos del último año fueran guardados en CD's, se generaría una gran torre desde la Tierra hasta la Luna y de regreso. Esta contribución a la acumulación masiva de datos la podemos encontrar en diversas industrias, las compañías mantienen grandes cantidades de datos transaccionales, reuniendo información acerca de sus clientes, proveedores, operaciones, etc., de la misma manera sucede con el sector público. En muchos países se administran enormes bases de datos que contienen datos de censo de población, registros médicos, impuestos, etc., y si a todo esto le añadimos transacciones financieras realizadas en línea o por dispositivos móviles, análisis de redes sociales (en Twitter son cerca de 12 Terabytes de tweets creados diariamente y Facebook almacena alrededor de 100 Petabytes de fotos y videos), ubicación geográfica mediante coordenadas GPS, en otras palabras, todas aquellas actividades que la mayoría de nosotros realizamos varias veces al día con nuestros "smartphones", estamos hablando de que se generan alrededor de 2.5 quintillones de bytes diariamente en el mundo. 1 quintillón = 10 30 = 1,000,000,000,000,000,000,000,000,000,000 De acuerdo con un estudio realizado por Cisco entre el 2011 y el 2016 la cantidad de tráfico de datos móviles crecerá a una tasa anual de 78%, así como el número de dispositivos móviles conectados a Internet excederá el número de habitantes en el planeta. Las naciones unidas proyectan que la población mundial alcanzará los 7.5 billones para el 2016 de tal modo que habrá cerca de 18.9 billones de dispositivos conectados a la red a escala mundial, esto conllevaría a que el tráfico global de datos móviles alcance 10.8 Exabytes mensuales o 130 Exabytes anuales. Este volumen de
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
85
tráfico previsto para 2016 equivale a 33 billones de DVDs anuales o 813 cuatrillones de mensajes de texto. Pero no solamente somos los seres humanos quienes contribuimos a este crecimiento enorme de información, existe también la comunicación denominada máquina a máquina (M2M machine-to-machine) cuyo valor en la creación de grandes cantidades de datos también es muy importante. Sensores digitales instalados en contenedores para determinar la ruta generada durante una entrega de algún paquete y que esta información sea enviada a las compañías de transportación, sensores en medidores eléctricos para determinar el consumo de energía a intervalos regulares para que sea enviada esta información a las compañías del sector energético. Se estima que hay más de 30 millones de sensores interconectados en distintos sectores como automotriz, transportación, industrial, servicios, comercial, etc. y se espera que este número crezca en un 30% anualmente. ¿Qué tipos de datos debo explorar? Muchas organizaciones se enfrentan a la pregunta sobre ¿qué información es la que se debe analizar?, sin embargo, el cuestionamiento debería estar enfocado hacia ¿qué problema es el que se está tratando de resolver? Si bien sabemos que existe una amplia variedad de tipos de datos a analizar, una buena clasificación nos ayudaría a entender mejor su representación, aunque es muy probable que estas categorías puedan extenderse con el avance tecnológico.
IEST PRIVADO CIBERTEC
CARRERA DE COMPUTACIÓN E INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
86
-
Web and Social Media: Incluye contenido web e información que es obtenida de las redes sociales como Facebook, Twitter, LinkedIn, etc, blogs.
-
Machine-to-Machine (M2M): M2M se refiere a las tecnologías que permiten conectarse a otros dispositivos. M2M utiliza dispositivos como sensores o medidores que capturan algún evento en particular (velocidad, temperatura, presión, variables meteorológicas, variables químicas como la salinidad, etc.) los cuales transmiten a través de redes alámbricas, inalámbricas o híbridas a otras aplicaciones que traducen estos eventos en información significativa.
-
Big Transaction Data: Incluye registros de facturación, en telecomunicaciones registros detallados de las llamadas (CDR), etc. Estos datos transaccionales están disponibles en formatos tanto semiestructurados como no estructurados.
-
Biometrics: Información biométrica en la que se incluye huellas digitales, escaneo de la retina, reconocimiento facial, genética, etc. En el área de seguridad e inteligencia, los datos biométricos han sido información importante para las agencias de investigación.
-
Human Generated: Las personas generamos diversas cantidades de datos como la información que guarda un call center al establecer una llamada telefónica, notas de voz, correos electrónicos, documentos electrónicos, estudios médicos, etc.
Crecimiento de Big Data.El Big Data, tiene 02 tipos de crecimiento: Crecimiento vertical y crecimiento horizontal. El crecimiento vertical implica aumentar las capacidades Hardware a un equipo El crecimiento horizontal implica aumentar la cantidad de equipos para distribuir la carga de procesamiento
4.1.2 Fases de desarrollo de una estrategia BIG DATA
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
87
Para implementar esta arquitectura, necesitamos realizar varios pasos. Los resumiremos aquí: -
Recolectar y preparar los datos de redes sociales para el análisis
BigInsights proporciona una variedad de mecanismos de recolección de datos a través de aplicaciones pre-incorporadas. Una vez que las publicaciones de redes sociales basadas en texto residan en BigInsights, es necesario extraer información de interés de forma que pueda ser fácilmente indexada y explorada más adelante. BigInsights proporciona capacidades de análisis de texto sofisticadas para ayudarle a extraer sus entidades de interés, incluyendo productos, personas y sentimientos sobre productos.
IEST PRIVADO CIBERTEC
CARRERA DE COMPUTACIÓN E INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
-
88
Modele entidades empresariales y relaciones de interés
Una aplicación puede impulsar este proceso al especificar un modelo de entidad para Data Explorer para ayudar a establecer diversas opciones de configuración que mostraremos muy pronto. Este modelo de entidad es crítico para el éxito general de su escenario de aplicación. El modelo de entidad capturará el conjunto de entidades y relaciones empresariales importantes que sus analistas empresariales estarán interesados en buscar, descubrir y explorar en Data Explorer. Así, un diseño efectivo de modelo de entidad supondrá una comprensión de cómo y qué querrán buscar y explorar los analistas empresariales. El modelo de entidad capturará el conjunto de configuraciones importantes de su clúster de Data Explorer para reflejar su capacidad y planificación de despliegue. Un poco más adelante, verá cómo capturamos productos y tuiteos como entidades empresariales de interés clave, especificamos con mayor detalle las relaciones entre estas entidades y proporcionamos la información de despliegue de topología del clúster de Data Explorer. -
Desarrolle su primera aplicación de indexado para indexar datos extraídos de redes sociales en Data Explorer
Estará listo para desarrollar su aplicación de indexado al aprovechar el ciclo de vida del desarrollo de la aplicación de BigInsights, lo cual le permite crear, publicar y desplegar su aplicación con un esfuerzo mínimo. Una vez desplegada, la extracción de entidad de sus datos de redes sociales será llevada a una colección de búsqueda de Data Explorer y estará lista para una exploración más detallada utilizando la función de búsqueda por facetas de Data Explorer y para compilar una aplicación de vista de 360 grados.
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
-
89
Utilizando Data Explorer para visualización
Data Explorer Application Builder proporciona una forma de compilar una aplicación que reúne la información relevante sobre datos esparcidos en distintos sistemas. En nuestro escenario de muestra, un ejecutivo de planificación de productos podría interesarse en un producto o familia de productos, así que una aplicación de vista de 360 grados podría incluir retroalimentaciones, problemas de producto e interacciones anteriores con el cliente.
4.1.3 Gobernabilidad de datos para la gestión de volúmenes de datos La información es indudablemente el activo de negocio más importante de toda organización. De tal manera que, un mal manejo de la información puede afectar la toma de decisiones al no haber procesos, políticas y tecnología que permitan garantizar la confiabilidad de los datos. El término de Gobernabilidad se refiere precisamente a ese conjunto de políticas que definen cómo es que se deberían de administrar los datos. Sin este proceso establecido, los datos generados día con día dejan de ser verificados, se encuentran incompletos y desactualizados. Ahora bien, pensemos en el mundo de big data en donde los datos tienen comúnmente una vida útil corta y además se pueden acumular rápidamente, de manera que se vuelve imperativo definir las políticas del ciclo de vida de éstos
IEST PRIVADO CIBERTEC
CARRERA DE COMPUTACIÓN E INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
90
evitando dicha acumulación y así determinar cómo y cuándo eliminar y mantener los datos. Big data está cambiando las características de los datos de cada sistema y para hacerlos utilizables necesitan ser gobernados de una manera más segura y confiable. Recordemos los aspectos de big data definidos a través de las 4 V's: volumen, velocidad, variedad y veracidad. El aspecto de la veracidad cobra especial importancia ya que necesitamos confiar en la información que utilizamos para tomar decisiones. ¿Cómo poder intervenir en la información si no es confiable? Depurando el big data Si bien es posible pensar que cualquier forma de gobierno o intento por “limpiar” nuestra big data en realidad podría eliminar información valiosa, es necesario determinar si los datos deben limpiarse con el mismo criterio que se aplicaría a los datos tradicionales o si se pierde valor al hacerlo. Entonces, ¿deberían establecerse procesos de gobernabilidad de datos para Big Data?, la respuesta es sí, aunque va directamente relacionado con el objetivo de los datos. Existen diversos casos de uso, por ejemplo, el análisis de clientes, el cual se ve más beneficiado cuando los datos tienen mayor calidad. Sin embargo otros casos como el análisis de identidades sospechosas, requiere que los datos sean analizados exactamente cómo son introducidos para descubrir patrones de identidad falsos. Muchos casos de big data incluyen el análisis de información sensible; de tal modo que las organizaciones deben definir las políticas de seguridad para proteger dicha información y esas políticas deben ser monitoreadas y aplicadas. Otro caso interesante es la integración entre un proyecto de gestión de datos maestros (MDM) y big data. Por ejemplo, se pueden extraer los acontecimientos importantes sobre las redes sociales tales como un cambio en el estado civil, el nacimiento de un nuevo integrante de familia o un cambio de domicilio para enriquecer la información maestra actuando como un tipo de fuente de ese sistema. Así, MDM puede desempeñar un papel fundamental en las iniciativas de gobernabilidad para Big Data, proporcionando una única versión, obteniendo como resultado final información valiosa.
Bases de Datos NONSQL
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
91
Las bases de datos (BD) tradicionales son las relacionales que usan un lenguaje Estándar para su manipulación y gestión, el SQL que nace en 1974 basado en Modelo de EF COD. SQL tiene más de 37 años de vida. Son ejemplos de bases de datos relacionales: ORACLE, MYSQL, SQL Server, POTGRESS, DB2, etc. Su éxito se basó en que son una solución para los problemas de gestión y estructuración de la información de las organizaciones, con un fundamento matemático muy fuerte, lenguaje estandarizado (aceptado y adoptado) para su gestión (SQL), con metodologías estructuradas formales para el diseño de los sistemas de información de las organizaciones y con principios de diseño como la regla ACID (atómica consistente aislada y Durable) estas plataformas tienen muchas herramientas desarrolladas. Las bases de datos NOSQL son un conjunto de bases de datos que no se ajustan al modelo de bases de datos relacionales y sus características, estas no tienen esquemas, no usan SQL ni permiten joins, no garantizan la propiedad ACID, escalan horizontalmente, hacen uso amplio de la memoria principal del computador, resuelven el problema de los altos volúmenes de información y la inmensa cantidad de consultas y transacciones diarias, en resumen no son relacionales.
Pero, ¿en qué consisten?, ¿Porque surgieron?, cual es la mejor solución para un problema x determinado ¿para qué tipo de problemas se debe considerar las alternativas NOSQL? Se debería usar una Solución NOSQL para un problema que tradicionalmente se ha resuelto con bases de datos relacionales. ¿Qué se debe tener en cuenta? ¿Reemplazarán las bases de datos relacionales?
-
Origen.
El termino NOSQL cobija varios productos, varios conceptos relacionados sobre almacenamiento, gestión de datos y datos voluminosos. Es lo que denominan un término “umbrela” (“sombrilla”) porque cobija varias elementos. El término fue acuñado por Calor Strozzi en 1998 y resucitado por Eric Evans (un empleado de Rackspace,) en 2009 y el mismo sugirió se llamasen estas bases de datos como Big Data Las bases de datos NOSQL no nacieron en 2009 sino que se remontan a la época de las bases de datos de red y jerárquicas y una serie de productos que no eran relacionales que resuelven problemas que no tienen las características similares a los de: amazon.com, Facebook, Youtube, twitter, Netflix, Yahoo, EBay, Hulu, IBM, y que en la época en que surgieron no se tenía internet. Desde 1965 (Knut 2010) se han venido desarrollando productos para almacenamiento masivo, datos multi valor, de red (grafos) , jerárquicos (arboles), con estructuras B+, productos de procesamiento de transacciones de alto desempeño llave valor (GTM en 2000 de código abierto) Por ejemplo Neo4j empezó en el año 2000, pero si algo contribuyo al desarrollo de los productos NOSQL fueron la serie de “papers” publicados por Google en 2003, 2004 y 2006 sobre cómo construir una infraestructura escalable para el procesamiento paralelo de grandes (enormes) cantidades de datos, que origino Hadoop (y luego Hadoop MapReduce de Yahoo) , más tarde en 2007 Amazon liberó su historia sobre Dynamo el almacenamiento llave/Valor de alta disponibilidad. (Shashank 2011) “La innovación clave de MapReduce es la capacidad de hacer una consulta, dividiéndola y ejecutándola en paralelo a la vez, a través de muchos servidores sobre un conjunto de datos inmenso.”
IEST PRIVADO CIBERTEC
CARRERA DE COMPUTACIÓN E INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
92
En el 2012 la cantidad de productos NOSQL paso a ser un poco más de 120 (Sergey, 2012) Las siguientes fechas corresponden a bases de datos NOSQL recientemente desarrolladas como soluciones a problemas de empresas web de alto volumen de operaciones (transacciones diarias), alto volumen de información (las fechas corresponden a fechas de inicio, o en algunos casos de liberación del producto): JackRabbit Tokyo Cabinet Amazon Dynamo MongoDB Cassandra Proyecto t Voldemort Terrastore Redis Riak HBase Vertexdb
2006 2006 2007 2007 2008 2008 2009 2009 2009 2009 2009
El porque surgen las BD NOSQL se trata enseguida El problema.Unos -
datos interesantes relacionados son: Desde 2010 se están vendiendo más dispositivos móviles que PCs. Son más de 900 millones los usuarios de Facebook. Cada minuto se generan 50 horas de contenido en YouTube Twitter genera casi 8 terabytes de datos con sus más de 90 millones de tuits al día. - Wall-Mart gestiona un millón de transacciones de sus clientes/ hora (2.5 petabytes) - Se estima que en 2015 circularan por el planeta 7.900 exabytes el cluster de producción más grande basado en Cassandra gestiona más de 300 terabytes de datos a través de 400 máquinas
Se han creado más datos en los últimos dos años que todos los años anteriores, se han creado datos del orden de ExaBytes (10 a la 18) por año. Los datos son más entrelazados y conectados, son datos menos estructurados y datos a escala de la web, con mucha lectura escritura, los esquemas (“schemas”) cambian frecuentemente, por ejemplo las aplicaciones sociales no necesitan el mismo nivel de ACID y la orientación del software es hacia servicios (PasS: programas como Servicios) El problema aparece con los sistemas de millones de transacciones al día contra la base de datos, otra elemento más es que se necesita cada vez mayor flexibilidad para escalar (escalabilidad) y porque para solucionarlo se estaban adquiriendo mayores y más potentes computadores. Por tanto las bases de datos NOSQL intentan resolver problemas de almacenamiento masivo, alto desempeño, procesamiento masivo de transacciones (sitios con alto transito) y en términos generales ser alternativas NOSQL a problemas
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
93
de persistencia y almacenamiento masivo (voluminoso) de información para las organizaciones. Pero la gran diferencia es como almacenan los datos. Por ejemplo una factura en el modelo relacional termina guardándose en 4 tablas (con 3 o 4 llaves foráneas – asociaciones involucradas) y en NOSQL simplemente guardan la factura y no se diseña las tablas ni su estructura por adelantado, se almacena, por ejemplo una clave (número de la factura) y el Objeto (la factura) unido a lo anterior podemos afirmar que en las bases de datos relacionales: la lectura de datos es muy costosa, existe mucha transaccionalidad innecesaria, se asumen que los datos son densos y bien estructurados, tienen problema de escalabilidad horizontal y no todos los problemas se pueden modelar para una base un RDBMS
Usuarios La tabla siguiente muestra algunos ejemplos de empresas que están usando BD NOSQL:
Cassandra
HBase MongoDB
Redis Hadoop
Digg, Twitter, Rackspace, IBM, Reddit., Accenture, Adobe, Ericsson Cisco, HP, Netflix, openwave, Facebook, WebEx, Pitney bowes. , Real, Symantec, Adobe, Powerset, Stumbleupon, Yahoo, Twitter, Facebook SourceForge, Justin.tv, foursquare, Bit.ly. www.gov.uk beta .SAP, MTV, Athena Capital Research, Disney, IGN, The National Archives, Guardian., NYTimes, Forbes, Foursquare, LexisNexis, CERN, Springer, and Doodle Github, The Guardian, Craigslist Amazon/A9 , Adobe, AOL, , Ebay , Facebook, Hulu media service, IBM Blue , Last.fm, LinkedIn, New York Times, Microsoft Powerset, Rackspace, Twitter, Yahoo
Clasificación Según el teorema de CAP o teorema de Brewer (año 2000), las bases de datos solo pueden garantizar dos de tres características: -
Consistencia Disponibilidad (“Availability”) Tolerancia a particiones.
Las BD relacionales satisfacen las características CA: es decir Consistencia y disponibilidad pero tiene serios problemas con la Tolerancia a particiones (muchos nodos), para la nube se requiere escalabilidad y se necesita sacrificar consistencia.
IEST PRIVADO CIBERTEC
CARRERA DE COMPUTACIÓN E INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
94
Las BD NOSQL manejan un concepto similar al ACID y se denomina para ellas BASE (Basically Available, Soft-State y Eventual Consistency) donde es de prioridad la disponibilidad sobre la consistencia, es decir que el sistema no estará probablemente en cada instante del tiempo en estado consistente. Las bases de datos se han venido clasificando principalmente en cuatro (4) grupos: o
De clave Valor Documentos Familia de columnas Grafos
De clave Valor.
Este grupo de bases de datos NOSQL cuyo precursor fue Big Table de Google tiene un Modelo con pares clave-Valor. Especialmente útiles para problemas de escrituras masivas de “Streaming” Transacciones tipo son: put (key, value), get (key), remove (key) Ejemplos: Dynamo Amazon, Cassaandra, Voldemort, Redis. Cassandra fue inciado por Facebook y hoy es un proyecto Apache de código Abierto (escrito en java). o De Familias de Columnas. Para definirlos mejor: Son almacenamientos de datos orientados a Columnas Ejemplos: Casandra, Hbase. o
De documentos
Las bases de datos de este grupo permiten la gestión de información semiestructurada orientadas a documentos, son similares a registros, direccionados por una clave única, y se pueden recuperar con su contenido. Tienen un modelado muy natural orientado a la web. Ejemplos: Couchdb, Mongodb, riak o
De Grafos
Los nodos son entidades y los arcos con relaciones y contienen información con uso a menudo de tablas hash distribuidas y ofrecen estructuras de datos sencillas como arrays asociativos o almacenes de pares claves valor. Ejemplos: Neo4j, Flockdb (twiter) Tienen una arquitectura distribuida con datos almacenados redundantemente en distintos servidores
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
4.2
95
HADOOP
4.2.1 Introducción a Hadoop
Demasiados Datos
IEST PRIVADO CIBERTEC
CARRERA DE COMPUTACIÓN E INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
96
Hadoop fue creado por Doug Cutting y Mike Cafarella en 2005. Cutting, trabajaba en en ese momento en Yahoo. Fue desarrollado originalmente para apoyar la distribución del proyecto de motor de búsqueda, denominado Nutch. Apache ™ Hadoop® es un proyecto de software de código abierto que permite distribuir el procesamiento de grandes conjuntos de datos a través de grupos de servidores de los productos básicos. Está diseñado para escalar desde un único servidor a miles de máquinas, con muy alto grado de tolerancia a fallos. En lugar de confiar en el hardware de gama alta, la resistencia de estos grupos proviene de la capacidad del software para detectar y manejar las fallas en la capa de aplicación. El proyecto incluye los siguientes módulos:
Hadoop Common: Las utilidades comunes que apoyan los otros módulos de Hadoop. Hadoop Distributed File System (HDFS ™): Un sistema de archivos distribuido que permite el acceso de alto rendimiento a los datos de la aplicación. Hadoop YARN: Un marco para la planificación de tareas y gestión de recursos de clúster. Hadoop MapReduce: Un sistema basado en el hilo para el procesamiento paralelo de grandes conjuntos de datos.
4.2.2 Arquitectura Hadoop consiste básicamente en el Hadoop Common, que proporciona acceso a los sistemas de archivos soportados por Hadoop. El paquete de software The Hadoop Common contiene los archivos .jar y los scripts necesarios para hacer correr Hadoop. El paquete también proporciona código fuente, documentación, y una sección de contribución que incluye proyectos de la Comunidad Hadoop. Una funcionalidad clave es que para la programación efectiva de trabajo, cada sistema de archivos debe conocer y proporcionar su ubicación: el nombre del rack (más precisamente, del switch) donde está el nodo trabajador. Las aplicaciones Hadoop pueden usar esta información para ejecutar trabajo en el nodo donde están los datos y, en su defecto, en el mismo rack/switch, reduciendo así el tráfico de red troncal (backbone traffic). El sistema de archivos HDFS usa esto cuando replica datos, para intentar conservar copias diferentes de los datos en racks diferentes. El objetivo es reducir el impacto de un corte de energía de rack o de fallo de interruptor de modo que incluso si se producen estos eventos, los datos todavía puedan ser legibles.8 Un clúster típico Hadoop incluye un nodo maestro y múltiples nodos esclavo. El nodo maestro consiste en jobtracker (rastreador de trabajo), tasktracker (rastreador de tareas), namenode (nodo de nombres), y datanode (nodo de datos). Un esclavo o compute node (nodo de cómputo) consisten en un nodo de datos y un rastreador de
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
97
tareas. Hadoop requiere tener instalados entre nodos en el clúster JRE 1.6 o superior, y SSH. Sistemas de archivos Hadoop Distributed File System El Hadoop Distributed File System (HDFS) es un sistema de archivos distribuido, escalable y portátil escrito en Java para el framework Hadoop. Cada nodo en una instancia Hadoop típicamente tiene un único nodo de datos; un clúster de datos forma el clúster HDFS. La situación es típica porque cada nodo no requiere un nodo de datos para estar presente. Cada nodo sirve bloques de datos sobre la red usando un protocolo de bloqueo específico para HDFS. El sistema de archivos usa la capa TCP/IP para la comunicación; los clientes usan RPC para comunicarse entre ellos. El HDFS almacena archivos grandes (el tamaño ideal de archivo es de 64 MB), a través de múltiples máquinas. Consigue fiabilidad mediante replicada de datos a través de múltiples hosts, y no requiere almacenamiento RAID en ellos. Con el valor de replicación por defecto, 3, los datos se almacenan en 3 nodos: dos en el mismo rack, y otro en un rack distinto. Los nodos de datos pueden hablar entre ellos para reequilibrar datos, mover copias, y conservar alta la replicación de datos. HDFS no cumple totalmente con POSIX porque los requerimientos de un sistema de archivos POSIX difieren de los objetivos de una aplicación Hadoop, porque el objetivo no es tanto cumplir los estándares POSIX sino la máxima eficacia y rendimiento de datos. HDFS fue diseñado para gestionar archivos muy grandes. HDFS no proporciona Alta disponibilidad.
Otros sistemas de archivos A junio de 2010, la lista de sistemas de archivos soportados incluye: -
HDFS: El sistema propio de Hadoop. Está diseñado para la escala de decenas petabytes de almacenamiento y funciona sobre los sistemas de archivos de base.
-
Amazon S3. Éste se dirige a clústeres almacenados en la infraestructura del servidor bajo demanda Amazon Elastic Compute Cloud. No hay conciencia de racks en este sistema de archivos, porque es todo él remoto.
IEST PRIVADO CIBERTEC
CARRERA DE COMPUTACIÓN E INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
98
-
CloudStore (previamente llamado Kosmos Distributed File System), el cual es consciente de los racks.
-
FTP: éste almacena todos sus datos en un servidor FTP accessible remotamente.
-
HTTP y HTTPS de solo lectura.
Hadoop puede trabajar directamente con cualquier sistema de archivos distribuido, el cual puede ser montado por el sistema operativo subyacente simplemente usando la URL file://, sin embargo esto tiene un precio: la pérdida de la localidad. Para reducir el tráfico de red, Hadoop necesita saber qué servidores están más próximos a los datos; esta información la pueden proporcionar los puentes específicos del sistema de archivos específico de Hadoop. La configuración por defecto incluye Amazon S3, y el almacén de archivos CloudStore, a través de las URLs s3:// y kfs://. Varios puentes de sistema de archivos de terceros han sido escritos, ninguno de los cuales están actualmente en las distribuciones de Hadoop. Éstas pueden ser más de propósito general que HDFS, el cual está muy sesgado hacia grandes archivos y solo ofrece un subconjunto de la semántica esperada de sistema de archivos Posix Filesystem: no se puede bloquear o escribir en cualquier parte salvo la cola de un archivo.
Job Tracker y Task Tracker: el motor MapReduce Aparte del sistema de archivos, está el motor MapReduce, que consiste en un Job Tracker (rastreador de trabajos), para el cual las aplicaciones cliente envían trabajos MapReduce. El rastreador de trabajos (Job Tracker) impulsa el trabajo fuera a los nodos Task Tracker disponibles en el clúster, intentando mantener el trabajo tan cerca de los datos como sea posible. Con un sistema de archivos consciente del rack en el que se encuentran los datos, el Job Tracker sabe qué nodo contiene la información, y cuáles otras máquinas están cerca. Si el trabajo no puede ser almacenado en el nodo actual donde residen los datos, se da la prioridad a los nodos del mismo rack. Esto reduce el tráfico de red en la red principal backbone. Si un Task Tracker (rastreador de tareas) falla o no llega a tiempo, la parte de trabajo se reprograma. El TaskTracker en cada nodo genera un proceso separado JVM para evitar que el propio TaskTracker mismo falle si el trabajo en cuestión tiene problemas. Se envía información desde el TaskTracker al JobTracker cada pocos minutos para comprobar su estado. El estado del Job Tracker y el TaskTracker y la información obtenida se pueden ver desde un navegador web proporcionado por Jetty. Si el Job Tracker fallaba en Hadoop 0.20 o anterior, todo el trabajo en curso se perdía. Hadoop versión 0.21 añadió algunos autoguardados al proceso; el rastreador de trabajo graba lo que está en el sistema de archivos. Cuando un Job Tracker comienza, busca datos para recomenzar el trabajo donde lo dejó. En versiones anteriores, todo el trabajo activo se perdía cuando se reiniciaba el Job Tracker. Las limitaciones de esto son:
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
99
La asignación de trabajo de los seguidores de trabajo es muy sencilla. Cada rastreador de tarea tiene un número de plazas disponibles, llamadas ranuras o slots (por ejemplo, "4 slots"). Cada mapa activo o cada “reduce” toma (ocupa) una posición. El Rastreador de Trabajo asigna trabajo para el seguidor más cercano a los datos con una ranura disponible. No hay ninguna consideración de la carga activa actual de la máquina asignada, y por tanto de su disponibilidad real. Si una tarea de seguimiento es muy lenta, se puede retrasar toda la operación MapReduce -especialmente hacia el final de un trabajo, donde todo puede estar a la espera de una sola tarea lenta-. Con la ejecución especulativa activada, sin embargo, una tarea simple puede ejecutarse en múltiples nodos esclavos. Así que esta tecnología permite una conexión en red muy eficiente. Programación de tiempo Por defecto Hadoop usa el método FIFO para programar la realización de trabajos desde una cola de trabajo. En la versión 0.19 el job scheduler (programador de trabajos) fue refactorizado fuera de Hadoop, lo cual añadió la habilidad de usar un programador alternativo. Programador justo El fair scheduler (programador justo o limpio) fue desarrollado por Facebook. El objetivo del programador es proporcionar rápida respuesta para trabajos pequeños y calidad de servicio (QOS, en sus siglas en inglés) para trabajos de producción. El fair scheduler se basa en 3 conceptos básicos: -
Los trabajos se agrupan en pools. Cada pool tiene asignada una porción mínima garantizada. El exceso de capacidad se distribuye entre trabajos.
Por defecto, los trabajos que están sin categorizar van a un pool por defecto. Las pools tienen que especificar el nº mínimo de slots de mapa, los reduce slots, y un límite en el número de trabajos ejecutándose. Programador de capacidad El programador de capacidad fue desarrollado por Yahoo. Soporta varias funciones similares a las del fair scheduler. -
Los trabajos son presentados en las colas. A las colas se le asigna una fracción de la capacidad total de recursos. Los recursos libres se asignan a las colas más allá de su capacidad total. Dentro de una cola, un trabajo con un alto nivel de prioridad tendrá acceso a los recursos de la cola.
No es posible la expropiación de recursos cuando se está ejecutando un trabajo. Otras aplicaciones El sistema de archivos HDFS no se restringe a MapReduce jobs. Puede usarse para otras aplicaciones, muchas de las cuales están bajo desarrollo en Apache. La lista incluye la base de datos HBase, el sistema de aprendizaje automático Apache Mahout, y operaciones de matriz. Hadoop puede usarse en teoría para cualquier tipo de trabajo orientado a lotes, en lugar de tiempo real, el cual es muy intensivo en datos, y ser capaz de trabajar en piezas de datos en paralelo. En octubre de 2009, entre las aplicaciones comerciales de Hadoop se incluían:
IEST PRIVADO CIBERTEC
CARRERA DE COMPUTACIÓN E INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
-
100
Registro y/o análisis de fuentes de clics (clickstream) de varios tipos Analíticas de marketing Aprendizaje automático y/o extracción de datos sofisticados (data mining) Procesamiento de imágenes El tratamiento de mensajes XML Web de rastreo y/o procesamiento de textos Archivado general, incluidos los relacionales y datos tabulares, por ejemplo, para cumplimiento
4.2.3 Administración Hadoop ¿Qué es MAP REDUCE? MapReduce es un modelo de programación que Google está utilizando con éxito, está procesando grandes volúmenes de datos. (20000 PetaBytes por día). MapReduce provee una paralelización y distribución automática, tolerancia de fallas, herramientas de estado y monitoreo. Los registros de la fuente de datos (archivos, registros de la base de datos, etc.) se introducen en la función de mapeo como pares de claves de valor (nombre de archivo, lregistros). La función Map () produce uno o más valores intermedios junto con una clave de salida.
(Valor int, KEY 1)
(Valor, KEY 1) TXT Tarea de Mapeo TXT
(Valor, KEY 1)
(Valor, KEY 1)
Shuffle Phase
(Valor int, KEY 2)
Tarea de Reducción
Final (Valor, KEY)
(Valor int, KEY 3)
Después de la fase de mapeo, todos los valores intermedios se combinan en una llave de salida. La función Reduce () combina aquellos valores intermedios en uno o varios valores finales en una misma clave de salida.
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
101
Gran cantidad de entrada de datos...
NODO 1
NODO 2
NODO 3
Porción de Entrada
Porción de Entrada
Porción de Entrada
NODO 1
NODO 2
NODO 3
Proceso de mapeo
Proceso de mapeo
Proceso de mapeo
Pre carga de datos de entrada
datos intermedios de mapeado valores intercambiados por el proceso aleatorio
Proceso de reducción genera una salida
NODO 1
NODO 2
NODO 3
Proceso de reducir
Proceso de reducir
Proceso de reducir
La salida se almacena
La función Map() se ejecuta en paralelo creando diferentes valores intermedios desde diferentes conjuntos de datos de entrada. La función Reduce() también se ejecuta en paralelo cada uno generando una llave de salida diferente. Todos los valores son procesados independientemente. MapReduce es un proceso batch, creado para el proceso distribuido de los datos. Permite de una forma simple, paralelizar trabajo sobre los grandes volúmenes de datos, como combinar web logs con los datos relacionales de una base de datos OLTP, de esta forma ver como los usuarios interactúan con el website. El modelo de MapReduce simplifica el procesamiento en paralelo, abstrayéndonos de la complejidad que hay en los sistemas distribuidos. Básicamente las funciones Map
IEST PRIVADO CIBERTEC
CARRERA DE COMPUTACIÓN E INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
102
transforman un conjunto de datos a un número de pares key/value. Cada uno de estos elementos se encontrará ordenado por su clave, y la función reduce es usada para combinar los valores (con la misma clave) en un mismo resultado. Un programa en MapReduce, se suele conocer como Job, la ejecución de un Job empieza cuando el cliente manda la configuración de Job al JobTracker, esta configuración especifica las funciones Map, Combine (shuttle) y Reduce, además de la entrada y salida de los datos.
HDFS HDFS es el sistema de almacenamiento, es un sistema de ficheros distribuido. Fue creado a partir del Google File System (GFS). HDFS se encuentra optimizado para grandes flujos y trabajar con ficheros grandes en sus lecturas y escrituras. Su diseño reduce la E/S en la red. La escalabilidad y disponibilidad son otras de sus claves, gracias a la replicación de los datos y tolerancia a los fallos. Los elementos importantes del clúster: NameNode: Sólo hay uno en el clúster. Regula el acceso a los ficheros por parte de los clientes. Mantiene en memoria la metadata del sistema de ficheros y control de los bloques de fichero que tiene cada DataNode. DataNode: Son los responsables de leer y escribir las peticiones de los clientes. Los ficheros están formados por bloques, estos se encuentran replicados en diferentes nodos.
4.2.4 Componentes Hadoop Ecosistema de Hadoop en la fundación Apache La fundación Apache dispone de un conjunto bastante amplio y variado de proyectos que se pueden integrar con Hadoop, o interactuar con él, para conseguir mayor
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
103
potencia y capacidad de especialización en los proyectos de Big Data. A continuación enumeramos los más destacados.
Apache HBase: la base de datos HBase es la base de datos oficial de Hadoop. Aunque Hadoop puede interactuar con otras bases de datos relacionales o NoSQL, como Cassandra o BigTable, HBase es el componente oficial/estándar NoSQL a utilizar. HBase está basada en BigTable (de Google) por lo que es una base de datos clave-valor orientada a columnas (columnfamily). Como hemos visto en el post anterior, eso quiere decir que no sigue el esquema relacional y no admite SQL. Sin embargo, es capaz de manejar grandes conjuntos de datos con operaciones simultáneas de lectura y escritura.
Apache Hive: el data warehouse Hive es un sistema de Data Warehouse para Hadoop que facilita la agregación de los datos para realizar informes (reporting) y análisis de grandes datasets. Hive permite realizar consultas sobre los datos usando un lenguaje similar a SQL, llamado HiveQL. Además permite utilizar los tradicionales MapReduce cuando el rendimiento no es el correcto. Permite conexiones JDBC/ODBC, por lo que se integra fácilmente con otras herramientas de Business Intelligence.
IEST PRIVADO CIBERTEC
CARRERA DE COMPUTACIÓN E INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
104
Apache Sqoop: la herramienta de ETL Sqoop significa SQL-to-Hadoop. Se trata de una herramienta diseñada para transferir de forma eficiente información entre Hadoop y bases de datos relacionales. Básicamente, Sqoop permite importar tablas individuales, o bases de datos enteras, a HDFS. Además, genera clases Java gracias a las cuales se puede interactuar fácilmente con los datos importados. Otra de sus funcionalidades principales es la importación desde bases de datos SQL directamente a Hive.
Apache Mahout: la plataforma de data mining Mahout es una plataforma de aprendizaje autónomo y data mining construida sobre Hadoop. Uno de sus principales objetivos consiste en ayudar a descubrir patrones, de manera automática, en grandes volúmenes de datos. Conseguir detectar patrones reales y útiles en los datos sin intervención humana es uno de los grandes retos del Big Data, por eso Mahout todavía tiene diferentes clases sin implementar. En general, Mahout tiene algoritmos de recomendación, clustering y clasificación.
Apache Lucene: el motor de búsqueda Lucene es un motor de búsqueda escrito en Java que permite indexar cualquier texto para luego buscar por palabras clave, o por cualquier otro criterio de búsqueda, en tiempo récord. Aunque en principio Lucene sólo funciona sobre texto plano, existen plugins que permiten la indexación y búsqueda de contenidos en documentos Word, PDF, XML o páginas HTML. El proyecto Apache Solr es una plataforma complementaria de la fundación Apache que aporta funcionalidades muy interesantes al software base de Lucene.
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
105
Apache UIMA: el framework para estructurar información UIMA significa Unstructured Information Management Applications (Aplicaciones de gestión de información desestructurada). Se trata de un framework que permite analizar grandes volúmenes de datos no estructurados, como texto, vídeo, audio, etc… y obtener conocimiento que sea relevante para el usuario final. Por ejemplo a partir de un fichero plano es posible descubrir que entidades son personas, lugares u organizaciones. Apache UIMA tiene ciertas semejanzas con nuestro servicio Classora Media Support, aunque no está tan maduro ni especializado.
Apache Stanbol: la librería de componentes semánticos Stanbol es un conjunto de librerías semánticas que permiten realizar operaciones de enriquecimiento de contenidos. En general, pueden utilizar el cruce con bases de conocimiento para complementar el texto de entrada con contenidos externos relevantes, como definiciones enciclopédicas, imágenes, vídeos o componentes de redes sociales. Un proyecto complementario a Apache Stanbol es Apache Jena, que permite construir aplicaciones utilizando los recursos de la web semántica, como las APIs de Linked Data.
Apache ZooKeeper: la herramienta de sincronización Zookeeper significa el guardián del Zoo. Se trata de un proyecto que proporciona una infraestructura centralizada para servicios basados en cluster (es decir, que se ejecutan en paralelo) y que necesitan estar sincronizados. Por ejemplo, datos de configuración, jerarquías de nombres, detalles de procesado… etc. De esta forma, ZooKeeper ofrece un punto de acceso común a una gran variedad de objetos ampliamente utilizados en grandes entornos de clúster.
IEST PRIVADO CIBERTEC
CARRERA DE COMPUTACIÓN E INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
106
Apache Avro: el sistema de serialización Avro es un sistema de serialización de datos, es decir, una plataforma para codificar y homogeneizar los datos de forma que se puedan transmitir de forma óptima por la red. Dado que los proyectos en Hadoop suelen mover cantidades descomunales de datos, es recomendable emplear serialización para procesarlos y almacenarlos. Esta serialización puede ser en texto plano, JSON, en formato binario… etc. Avro permite almacenar y leer datos fácilmente desde diferentes lenguajes de programación y está optimizado para minimizar espacio en disco.
Apache Pig: el helper para analizar grandes volúmenes de datos Apache Pig es una plataforma que permite simplificar el análisis de grandes volúmenes de datos proporcionando un lenguaje de alto nivel. Su objetivo es que los usuarios de Hadoop se puedan centrar más en el análisis de los datos y menos en la creación de programas MapReduce. Su nombre viene de una analogía con los cerdos: al igual que los cerdos comen de todo, el lenguaje de programación Pig está pensado para poder trabajar en cualquier tipo de datos. Pig consta de dos componentes: el lenguaje PigLatin y su entorno de ejecución.
Apache Flume: el agregador de logs Flume es un proyecto para capturar, analizar y monitorizar datos de ficheros de logs. En general, es capaz de agregar y mover grandes volúmenes de logs desde diferentes
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
107
servidores a un repositorio central, simplificando así el proceso de recolección. También emplea las operaciones MapReduce de Hadoop para procesar los logs en paralelo. Otro proyecto de Apache muy parecido a Flume en cuanto a funcionalidad y objetivos es Apache Chukwa, la principal diferencia es que Chukwa está pensado para ser usado en batch.
4.3
MACHINE LEARNING
4.3.1 Concepto El aprendizaje automático o aprendizaje de máquinas es una rama de la inteligencia artificial cuyo objetivo es desarrollar técnicas que permitan a las computadoras aprender sin demasiadas indicaciones explicitas (lógicas de programación). Se trata de crear programas capaces de generalizar comportamientos a partir de una información no estructurada suministrada en forma de ejemplos. Una definición más estricta: “Es un programa de computador que aprende de la experiencia E, respecto a alguna tarea T y con medida de rendimiento o performance P, si el desempeño sobre la tarea T, medido por P, mejora con la experiencia E.” En términos generales, el Machine Learning convierte grandes cantidades de datos en porciones pequeñas de información útil; es decir, gracias a un software de Aprendizaje Automático podemos procesar, analizar, agrupar y consolidar datos para generar información valiosa que permita reconocer y decodificar patrones complejos y predecir tendencias o comportamientos futuros, con el fin de facilitar la toma de decisiones inteligentes basadas en esa información. Hace no mucho tiempo, utilizar el Machine Learning requería implementar software muy complejo y equipo de vanguardia, así como contratar personal especializado, y resultaba muy caro y difícil. Actualmente, los avances tecnológicos han permitido que el Aprendizaje Automático sea cada vez más accesible y que un mayor número de personas y empresas comiencen a practicar la minería de datos (sin necesidad de tener grandes conocimientos, escribir códigos o invertir demasiado tiempo) para descubrir todas las posibilidades y beneficios de este tipo de solución. En resumen, el Aprendizaje Automático permite:
Extraer información valiosa para comprender y definir una situación o problema.
IEST PRIVADO CIBERTEC
CARRERA DE COMPUTACIÓN E INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
108
Procesar, clasificar, interpretar, analizar y evaluar la información disponible. Predecir escenarios y situaciones. Tomar decisiones inteligentes y evaluar las probables consecuencias. Generar aprendizaje, implementar mejoras y automatizar procesos. Presentar reportes.
Ahora el Machine Learning no es sólo cosa de robots o ciencia ficción: está al alcance de todos. Es necesario que las empresas identifiquen esta gran ventaja competitiva y saquen el máximo partido a los beneficios que ofrece.
4.3.2 Escenarios de negocio En el mundo de los negocios, el Machine Learning puede ayudar a potenciar servicios y estrategias: encontrar prospectos, clasificar clientes, realizar previsiones de demanda, detectar fraudes. Hoy en día aún son pocos los empresarios que han descubierto el enorme potencial del Machine Learning aplicado en los negocios, no obstante que genera gran valor al integrarlo con los sistemas empresariales: se puede prever la demanda, detectar fallas y anomalías, definir un target publicitario, hacer recomendaciones en línea, mejorar la experiencia del cliente, reducir el riesgo de fallos sistémicos, aumentar los ingresos y obtener significativos ahorros, entre muchas otras posibilidades. A manera de ejemplo, estas son sólo algunas de las aplicaciones prácticas del Machine Learning en los negocios: Sector: Financiero / Telecomunicaciones / Venta al detalle (Retail) El ML puede ayudar a identificar:
Prospectos Clientes insatisfechos Clientes leales
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
109
Clientes morosos
El ML puede ayudar a obtener:
Publicidad más efectiva Menor riesgo de crédito Menos fraudes Disminución en la tasa de deserción (churn rate)
Sector: Biomédico / Biométrico Usos en medicina:
Detección Diagnóstico y pronóstico Descubrimiento de fármacos Usos en seguridad:
Reconocimiento facial
Verificación de firma, iris y/o huella dactilar Huellas de ADN
IEST PRIVADO CIBERTEC
CARRERA DE COMPUTACIÓN E INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
110
Sector: Computación / Internet Usos en interfaces:
Asistente para solucionador de problemas Reconocimiento de escritura y dictado Detección de ondas cerebrales Usos en Internet:
Mejorar el hit ranking
Filtrar spam Categorizar textos Traducir textos Recomendaciones
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
111
4.3.3 Tipos de aprendizaje Existen 02 tipos de aprendizaje: Aprendizaje Supervisado: En el aprendizaje supervisado, se cuenta con un conjunto de datos (dataset) para lo cual, ya se sabe cual es el resultado correcto o esperado, por tanto se toma el dataset como base para realizar las tareas de predicción. Aprendizaje No Supervisado: En el aprendizaje no supervisado, se trabaja con problemas en los cuales no se sabe, o se sabe muy poco, respecto a los resultados que se desean predecir o esperar, se pueden encontrar estructuras a partir de los datos, sobre los cuales, no se conoce el efecto de las variables.
Distinción entre Aprendizaje supervisado y no supervisado El aprendizaje supervisado se caracteriza por contar con información que especifica qué conjuntos de datos son satisfactorios para el objetivo del aprendizaje. Un ejemplo podría ser un software que reconoce si una imagen dada es o no la imagen de un rostro: para el aprendizaje del programa tendríamos que proporcionarle diferentes imágenes, especificando en el proceso si se trata o no de rostros. En el aprendizaje no supervisado, en cambio, el programa no cuenta con datos que definan que información es satisfactoria o no. El objetivo principal de estos programas suele ser encontrar patrones que permitan separar y clasificar los datos en diferentes grupos, en función de sus atributos. Siguiendo el ejemplo anterior un software de aprendizaje no supervisado no sería capaz de decirnos si una imagen dada es un rostro o no pero sí podría, por ejemplo, clasificar las imágenes entre aquellas que contienen rostros humanos, de animales, o las que no contienen. La información obtenida por un algoritmo de aprendizaje no supervisado debe ser posteriormente interpretada por una persona para darle utilidad.
4.3.4 Algoritmos Básicos Los principales algoritmos usados en el Machine Learning son:
IEST PRIVADO CIBERTEC
CARRERA DE COMPUTACIÓN E INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
112
Supervised learning: o Tareas de Clasificacion: Nearest Neighbor naive Bayes Decision trees Classification rule learners Neural networks Support vector machine o Tareas de regresion (numeric): Linear regression Regression trees Model trees Neural networks Support vector machine Unsupervised learning: o Association rules (pattern detection) o k-means clustering (clustering)
Algoritmo KNN Este método supone que los vecinos más cercanos nos dan la mejor clasificación y esto se hace utilizando todos los atributos; el problema de dicha suposición es que es posible que se tengan muchos atributos irrelevantes que dominen sobre la clasificación: dos atributos relevantes perderían peso entre otros veinte irrelevantes.
Nearest Neighbors, la K representa un valor numérico entero. Se encuentra en la categoría de aprendizaje supervisado. Clasifica nuevos casos etiquetándolo en base a la cercanía de otros elementos que se encuentran etiquetados. Utiliza el algoritmo de Euclides para el cálculo de la distancia entre puntos (coordenadas)
Ejemplo:
Tomato (sweetness = 6, crunchiness = 4) Food type = ¿ ?
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
113
Ploteo:
Clasificar:
IEST PRIVADO CIBERTEC
CARRERA DE COMPUTACIÓN E INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
114
Cálculo:
Se concluye que la distancia mínima corresponde a Naranja (1.4), por lo tanto, el tomate es una fruta. Algoritmo K-Means K -means es un método de agrupamiento, que tiene como objetivo la partición de un conjunto de n observaciones en k grupos en el que cada observación pertenece al grupo más cercano a la media. Es un método utilizado en minería de datos. La agrupación del conjunto de datos puede ilustrarse en una partición del espacio de datos en celdas de Voronoi. El problema es computacionalmente difícil. Sin embargo, hay eficientes heurísticas que se emplean comúnmente y convergen rápidamente a un óptimo local. Estos suelen ser similares a los algoritmos expectation-maximization de mezclas de distribuciones gausianas por medio de un enfoque de refinamiento iterativo empleado por ambos algoritmos. Además, los dos algoritmos usan los centros que los grupos utilizan para modelar los datos, sin embargo k-means tiende a encontrar grupos de extensión espacial comparable, mientras que el mecanismo expectation-maximization permite que los grupos que tengan formas diferentes.
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
115
Principalmente sirven para poder determinar clústeres en un conjunto de datos. Los Clúster son grupo de Ítems que contienen características comunes. Se encuentra en la categoría de aprendizaje NO supervisado. La K representa el número de clúster que se desean crear y en su mayoría de casos es un parámetro que recibe el algoritmo (lo define el usuario) Se aplica principalmente en segmentación de mercados, visión artificial, geostadistica, astronomía y minería de datos en agricultura
Ejemplo:
Se agrupará en dos clústeres. Paso 1: Crear los grupos El enunciado pide crear 2 Clusters, así que se deben crear dos conjuntos de manera aleatoria. No hay problema en la aleatoriedad, usted puede crear dos grupos donde el primer conjunto tenga un elemento y el segundo conjunto tenga los tres elementos restantes. En otro caso puede crear un grupo donde el primer conjunto tenga dos elementos y el otro conjunto tenga los otros dos elementos restantes, e incluso puede crear un conjunto con cero elementos y el otro conjunto contenga los cuatro elementos restantes.
IEST PRIVADO CIBERTEC
CARRERA DE COMPUTACIÓN E INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
116
La aleatoriedad de la agrupación no va afectar el resultado final. Decidimos (de manear aleatoria) crear un grupo con los elementos A y C; y otro grupo con los elementos B y D. Cluster1
Cluster2
Paso 2: Se calcula el centroide para cada clúster El enunciado pide crear 2 Clúster, así que se deben crear dos conjuntos de manera aleatoria. Cluster1
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
117
Cluster2
Los valores de cada medicina (peso y PH) se consideran como coordenadas, para calcular el centroide se obtiene la media aritmética de cada coordenada de los valores. Paso 3: Calcular la distancia hacia los centroides. Se utiliza el teorema de Euclides para la distancia entre dos puntos
Por cada elemento se calcula la distancia de sus coordenadas hacia las coordenadas de cada centroide. Se recalcula el nuevo centroide verificando aquel que tiene la menor distancia.
IEST PRIVADO CIBERTEC
CARRERA DE COMPUTACIÓN E INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
118
El algoritmo termina si el nuevo centroide calculado es el mismo que el centroide anterior para todo los elementos. En este caso para el Cluster1 para el elemento C el nuevo centroide es C2 (diferente al anterior) y para el Cluster2 el nuevo centroide para el elemento B es C1 (diferente al anterior) Paso 4: Bucle. Debido a que en el caso anterior los nuevos centroides fueron diferente a su centroide original, se forma los nuevos grupos de cluster (es decir, el elemento C pasa al cluster 2 y el elemento B pasa al clúster 1) y se repite los pasos anteriores.
Hallando nuevos centroides:
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
119
Se observa que en este blucle los nuevos centroides calculados no fueron diferentes al actual por tanto el bluce finaliza y ese seria los clusters con los elementos de características comunes. Resultado final:
4.4
DATA MINING
4.4.1 Concepto Una parte fundamental de la plataforma de soporte a decisiones son los procesos de minería de datos basados en algoritmos estadísticos y en algoritmos de descubrimiento de información en Bases de datos (KDD). Este tipo de procesos están orientados a descubrir patrones, tendencias, relaciones, agrupamientos relevantes para el negocio que hasta este momento eran desconocidos.
IEST PRIVADO CIBERTEC
CARRERA DE COMPUTACIÓN E INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
120
Los roles participantes en un proceso de minería de datos son los siguientes: • • •
Análisis del negocio Análisis estadístico y matemático Análisis de la información.
El análisis del negocio determina las variables a analizar y los temas a analizar, luego en la interpretación de los resultados que se obtengan con los algoritmos. El análisis estadístico y matemático es la correcta aplicación de los algoritmos a los problemas reales de la empresa. El análisis informático se encarga del soporte tecnológico y la provisión de información para los algoritmos, se enfrentan los problemas de calidad y de normalización de la información.
Los factores que propiciaron el crecimiento de la minería de datos son: El Data warehouse, que proporciona la información integrada y se ha enfrentado a los problemas de calidad de los datos. La reducción de los costos del hardware, lo que permite procesar grandes volúmenes de información aplicando algoritmo complejos. La evolución de las herramientas como los algoritmos, que facilitan al usuario la tarea de análisis. Las herramientas En el siguiente esquema se puede apreciar las funcionalidades básicas de las herramientas de minería de datos.
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
121
Algoritmos estadísticos La aplicación del análisis estadístico tiene las siguientes fases: Se utilizan para detectar patrones no usuales de datos. Estos patrones se explican mediante modelos estadísticos o matemáticos. Las funciones incorporadas en una herramienta de análisis estadístico son las siguientes:
Funciones de visualización. Funciones exploratorias. Funciones estadísticas. Funciones de administración de datos. Funciones de grabación y reproducción. Herramientas de presentación. Herramientas de desarrollo. Tiempo de respuesta razonable.
Los retos del trabajo con algoritmos estadísticos son los siguientes: Trabajo intenso. Los resultados dependen de la habilidad del analista. Muchas veces no se sabe qué buscar. Es complicado trabajar con datos no-numéricos. Algoritmos de descubrimiento de conocimientos. El proceso KDD busca extraer información implícita no trivial de las bases de datos, que no era conocida y que sea de utilidad. Para lograrlo se procesa la información con algoritmos neuronales, árboles de decisión, entre otros. El proceso KDD tiene las fases que se indican en la figura adjunta
IEST PRIVADO CIBERTEC
CARRERA DE COMPUTACIÓN E INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
122
Tecnología del descubrimiento de conocimientos Basada en algoritmos para patrones y relaciones. Tareas genéricas:
Análisis de dependencias. Clasificación Descripción de conceptos. Redes neuronales. Detección de desviaciones.
Retos
Calidad de datos. Bases de datos muy grandes. Desempeño y costos. Técnicas de analistas empresariales. Calidad de datos. Bases de datos muy grandes. Desempeño y costos. Técnicas de analistas empresariales.
4.4.2 Proceso El proceso de Data Mining puede dividirse en 6 pasos: -
Selección del conjunto de datos: aquí se decide cuáles van a ser las variables objetivos (aquellas que se quieren predecir o inferir), las variables independientes y la selección de registros (datos) a utilizar.
-
Análisis de las propiedades de los datos: mediante, por ejemplo, histogramas y/o diagramas de dispersión. Búsqueda de valores atípicos (outliers) y ausencia de datos.
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
123
-
Transformación o pre procesamiento del conjunto de datos de entrada: en éste paso, se normalizan los datos a una misma escala. También se decide cómo se van a tratar datos faltantes, atípicos o dudosos. Una posibilidad es tratarlos como un tipo de dato especial o bien se decide descartarlos.
-
Selección y aplicación de técnicas de minería de datos: se construye un modelo, el cual será utilizado sobre los datos para predecir las clases mediante clasificación o para descubrir grupos similares mediante segmentación.
-
Extracción de conocimiento: una vez aplicado el paso anterior, se buscan patrones de comportamiento en los valores de las variables del problema o relaciones de asociación entre dichas variables.
-
Interpretación y evaluación de datos: el modelo debe ser validado comprobando que las conclusiones arrojadas son válidas y satisfactorias. Si el modelo final no supera ésta evaluación, el proceso puede repetirse desde el principio o a partir de cualquiera de los pasos anteriores.
4.4.3 Normas Parámetros de minería de datos incluyen: -
Asociación - en busca de patrones donde evento es conectado a otro evento El análisis de secuencia o la ruta - buscar patrones en un evento lleva a otro caso después. Clasificación - en busca de nuevos patrones (Puede resultar en un cambio en la forma en que se organizan los datos, pero eso está bien). Clustering - encontrar y documentar visualmente grupos de hechos no conocidos previamente. Forecasting - descubrir patrones en los datos que pueden conducir a predicciones razonables acerca del futuro (Esta área de minería de datos que se conoce como el análisis predictivo.)
Técnicas de minería de datos se utilizan en muchas áreas de investigación, incluyendo las matemáticas, la cibernética, la genética y la comercialización. Minería Web, un tipo de minería de datos utilizados en la gestión de relaciones con clientes (CRM), se aprovecha de la enorme cantidad de información recogida por un sitio Web para buscar patrones de comportamiento de los usuarios.
4.4.4 Usos Aplicaciones de Uso Cada año, en los diferentes congresos, simposios y talleres que se realizan en el mundo se reúnen investigadores con aplicaciones muy diversas. Sobre todo en los Estados Unidos, el data mining se ha ido incorporando a la vida de empresas, gobiernos, universidades, hospitales y diversas organizaciones que están interesadas en explorar sus bases de datos. En el Gobierno: El FBI analizará las bases de datos comerciales para detectar terroristas. A principios del mes de julio de 2002, el director del Federal Bureau ofInvestigation (FBI), John Aschcroft, anunció que el Departamento de Justicia comenzará a introducirse en la vasta cantidad de datos comerciales referentes a los hábitos y preferencias de compra
IEST PRIVADO CIBERTEC
CARRERA DE COMPUTACIÓN E INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
124
de los consumidores, con el fin de descubrir potenciales terroristas antes de que ejecuten una acción. Algunos expertos aseguran que, con esta información, el FBI unirá todas las bases de datos probablemente mediante el número de la Seguridad Social y permitirá saber si una persona fuma, qué talla y tipo de ropa usa, su registro de arrestos, su salario, las revistas a las que está suscrito, su altura y peso, sus contribuciones a la Iglesia, grupos políticos u organizaciones no gubernamentales, sus enfermedades crónicas (como diabetes o asma), los libros que lee, los productos de supermercado que compra, si tomó clases de vuelo o si tiene cuentas de banco abiertas, entre otros. La inversión inicial ronda los setenta millones de dólares estadounidenses para consolidar los almacenes de datos, desarrollar redes de seguridad para compartir información e implementar nuevo software analítico y de visualización. En la Empresa Detección de fraudes en las tarjetas de crédito. En 2001, las instituciones financieras a escala mundial perdieron más de 2.000 millones de dólares estadounidenses en fraudes con tarjetas de crédito y débito.
El Falcon Fraud Manager es un sistema inteligente que examina transacciones, propietarios de tarjetas y datos financieros para detectar y mitigar fraudes. En un principio estaba pensado, en instituciones financieras de Norteamérica, para detectar fraudes en tarjetas de crédito. Sin embargo, actualmente se le han incorporado funcionalidades de análisis en las tarjetas comerciales, de combustibles y de débito. El sistema Falcon ha permitido ahorrar más de seiscientos millones de dólares estadounidenses cada año y protege aproximadamente más de cuatrocientos cincuenta millones de pagos con tarjeta en todo el mundo aproximadamente el sesenta y cinco por ciento de todas las transacciones con tarjeta de crédito. Descubriendo el porqué de la deserción de clientes de una compañía operadora de telefonía móvil. Este estudio fue desarrollado en una operadora española que básicamen- te situó sus objetivos en dos puntos: el análisis del perfil de los clientes que se dan de baja y la predicción del comportamiento de sus nuevos clientes. Se analizaron los diferentes históricos de clientes que habían abandonado la operadora (12,6%) y de clientes que continuaban con su servicio (87,4%). También se analizaron las variables personales de cada cliente (estado civil, edad, sexo, nacionalidad, etc.). De igual forma se estudiaron, para cada cliente, la morosidad, la frecuencia y el horario de uso del servicio, los descuentos y el porcentaje de llamadas locales, interprovinciales, internacionales y gratuitas. Al contrario de lo que se podría pensar, los clientes que abandonaban la operadora generaban ganancias para la empresa; sin embargo, una de las conclusiones más importantes radicó en el hecho de que los clientes que se daban de baja recibían pocas promociones y registraban un mayor número de incidencias respecto a la media. De esta forma se recomendó a la operadora hacer un estudio sobre sus ofertas y analizar profundamente las incidencias recibidas por esos clientes. -
Al descubrir el perfil que presentaban, la operadora tuvo que diseñar un trato más personalizado para sus clientes actuales con esas características. Para poder predecir el comportamiento de sus nuevos clientes se diseñó un sistema de predicción basado en la cantidad de datos que se podía obtener de los nuevos clientes comparados con el comportamiento de clientes anteriores. -
Hábitos de compra en supermercados.
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
125
Un estudio muy citado detectó que los viernes había una cantidad inusualmente elevada de clientes que adquirían a la vez pañales y cerveza. Se detectó que se debía a que dicho día solían acudir al supermercado padres jóvenes cuya perspectiva para el fin de semana consistía en que- darse en casa cuidando de su hijo y viendo la televisión con una cerveza en la mano. El supermercado pudo incrementar sus ventas de cerveza colocándolas próximas a los pañales para fomentar las ventas compulsivas, Prediciendo el tamaño de las audiencias televisivas. La British Broadcasting Corporation (BBC) del Reino Unido emplea un sistema para predecir el tamaño de las audiencias televisivas para un programa propuesto, así como el tiempo óptimo de exhibición (Brachman y otros, 1996). El sistema utiliza redes neuronales y árboles de decisión aplicados a datos históricos de la cadena para determinar los criterios que participan según el programa que hay que presentar. La versión final se desempeña tan bien como un experto humano con la ventaja de que se adapta más fácilmente a los cambios porque es constantemente reentrenada con datos actuales.
En la Universidad Conociendo si los recién titulados de una universidad llevan a cabo actividades profesionales relacionadas con sus estudios. Se hizo un estudio sobre los recién titulados de la carrera de Ingeniería en Sistemas Computacionales del Instituto Tecnológico de Chihuahua II, en Méjico (Rodas, 2001). -
Se quería observar si sus recién titulados se insertaban en actividades profesionales relacionadas con sus estudios y, en caso negativo, se buscaba saber el perfil que caracterizó a los exalumnos durante su estancia en la universidad. El objetivo era saber si con los planes de estudio de la universidad y el aprovechamiento del alumno se hacía una buena inserción laboral o si existían otras variables que participaban en el proceso. Dentro de la información considerada estaba el sexo, la edad, la escuela de procedencia, el desempeño académico, la zona económica donde tenía su vivienda y la actividad profesional, entre otras variables. Mediante la aplicación de conjuntos aproximados se descubrió que existían cuatro variables que determinaban la adecuada inserción laboral, que son citadas de acuerdo con su importancia: zona económica donde habitaba el estudiante, colegio de donde provenía, nota al ingresar y promedio final al salir de la carrera. A partir de estos resultados, la universidad tendrá que hacer un estudio socioeconómico sobre grupos de alumnos que pertenecían a las clases económicas bajas para dar posibles soluciones, debido a que tres de las cuatro variables no dependían de la universidad. En Investigaciones Espaciales Proyecto SKYCAT. Durante seis años, el Second Palomar Observatory Sky Survey (POSS-II) coleccionó tres terabytes de imágenes que contenían aproximadamente dos millones de objetos en el cielo. Tres mil fotografías fueron digitalizadas a una resolución de 16 bits por píxel con 23.040 x 23.040 píxeles por imagen. El objetivo era formar un catálogo de todos esos objetos. El sistema Sky Image Cataloguing and Analysis Tool (SKYCAT) se basa en técnicas de agrupación (clustering) y árboles de decisión para poder clasificar los objetos en estrellas, planetas, sistemas, galaxias, etc. con una alta confiabilidad (Fayyad y otros, 1996). Los resultados han ayudado a los astrónomos a descubrir dieciséis nuevos quásars con corrimiento hacia el rojo que los incluye entre los objetos
IEST PRIVADO CIBERTEC
CARRERA DE COMPUTACIÓN E INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
126
más lejanos del universo y, por consiguiente, más antiguos. Estos quásars son difíciles de encontrar y permiten saber más acerca de los orígenes del universo. En los Clubes Deportivos Los equipos de la NBA utilizan aplicaciones inteligentes para apoyar a su cuerpo de entrenadores. El Advanced Scout es un software que emplea técnicas de data mining y que han desarrollado investigadores de IBM para detectar patrones estadísticos y eventos raros. Tiene una interfaz gráfica muy amigable orientada a un objetivo muy específico: analizar el juego de los equipos de la National Basketball Association (NBA). El software utiliza todos los registros guardados de cada evento en cada juego: pases, encestes, rebotes y doble marcaje (double team) a un jugador por el equipo contrario, entre otros. El objetivo es ayudar a los entrenadores a aislar eventos que no detectan cuando observan el juego en vivo o en película. Un resultado interesante fue uno hasta entonces no observado por los entrenadores de los Knicks de Nueva York. El doble marcaje a un jugador puede generalmente dar la oportunidad a otro jugador de encestar más fácilmente. Sin embargo, cuando los Bulls de Chicago jugaban contra los Knicks, se encontró que el porcentaje de encestes después de que al centro de los Knicks, Patrick Ewing, le hicieran doble marcaje era extremadamente bajo, indicando que los Knicks no reaccionaban correctamente a los dobles marcajes. Para saber el porqué, el cuerpo de entrenadores estudió cuidadosamente todas las películas de juegos contra Chicago. Observaron que los jugadores de Chicago rompían su doble marcaje muy rápido de tal forma que podían tapar al encestador libre de los Knicks antes de prepararse para efectuar su tiro. Con este conocimiento, los entrenadores crearon estrategias alternativas para tratar con el doble marcaje. La temporada pasada, IBM ofreció el Advanced Scout a la NBA, que se convirtió así en un patrocinador corporativo. La NBA dio a su veinti- nueve equipos la oportunidad de aplicarlo. Dieciocho equipos lo están haciendo hasta el momento obteniendo descubrimientos interesantes. -
4.4.5 Análisis de Forecasting El Forecasting consiste en la estimación y el análisis de la demanda futura para un producto, utilizando los datos históricos de venta, estimaciones de marketing e información promocional, a través de diferentes técnicas de previsión con el objetivo de mejorar el flujo de información en la cadena de suministro y preparar las diferentes áreas de la organización (compras, logística, transporte, producción, finanzas) para las operaciones futuras. El forecasting se debe considerar como un factor fundamental para el éxito de toda la empresa y está directamente relacionado con el resultado final de la organización. Rolling forecast (pronóstico dinámico) es un proceso de revisiones periódicos (suele ser mensual) de las previsiones donde se recogen las últimas tendencias del mercado, se analizan la ventas y se actualizan las previsiones acorde a las novedades del negocio. Permiten a las empresas reaccionar con mayor rapidez ante cambios del entorno y pensar en el negocio como un proceso dinámico y constante en lugar de un evento estático. Es un proceso recomendable para cualquier todo tipo de empresa que necesita almacenar producto, independientemente de sus tamaño o actividad. Problemas comunes ocasionados por falta de un proceso de rolling forecast: -
Altos costos de stocks y obsolescencia
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
-
4.5
127
Frecuentes roturas de stock e inventario desequilibrado Bajos niveles de servicio al cliente Pérdida de ventas y resultados insatisfactorios
SEMANA INTEGRADORA
4.5.1 El futuro de la Inteligencia de Negocios Las herramientas informáticas desarrolladas en los últimos años en el terreno de la gestión empresarial ha sufrido una gran serie de cambios, que responden a la demandas que los usuarios de este tipo de aplicaciones producen durante la experiencia de uso de dichas herramientas. Tal es el caso del Business Intelligence, sector que en los últimos tiempos ha vivido las modificaciones e innovaciones de las nuevas tecnologías de software que constantemente llegan al mercado, ofreciendo un servicio superior y una funcionalidad para resolver mayor cantidad de inquietudes en el campo empresarial. La puesta en práctica de sistemas Business Intelligence ha demostrado que este método para la captura, proceso y posterior análisis de los datos relevantes de las operaciones productivas, da como resultado la toma de decisiones más inteligentes, y permite plantear pronósticos acertados, dotando así a las compañías de verdaderas estrategias con potencial competitivo. Como ejemplo de ello, mencionaremos el caso de la reconocida productora Twentieth Century Fox, que desde hace años ha implementado el sistema BI para diversas actividades relacionadas a sus negocios.
Tal fue el éxito obtenido por dicha compañía, que sus ejecutivos decidieron implementar el BI para incluso predecir los filmes, argumentos y actores que pueden llegar a ser populares en cada sector de los Estados Unidos y en los distintos países del mundo. Gracias a esta evaluación, XX Century Fox puede decidir qué películas producir y cuáles no, obteniendo así un ahorro en sus inversiones que rondan los 100 millones de dólares anuales. De la misma manera que la productora cinematográfica ha incorporado el sistema BI como herramienta esencial para encarar sus negocios, esta solución presenta características ventajosas para cualquier tipo de compañía, incluso para pequeñas y medianas empresas. Un futuro muy prometedor
IEST PRIVADO CIBERTEC
CARRERA DE COMPUTACIÓN E INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
128
Debido a las virtudes de este sistema, los expertos aseguran que en un futuro a corto plazo se estima que la utilización de Business Intelligence aumentará en un 40%, ya que las herramientas que brinda esta solución empresarial permitirán conocer las preferencias de los consumidores, incluso a nivel individual. Se prevé que en los próximos años habrá una explosión dentro del mundo de la tecnología informática empresarial, que finalmente llevará a que todas las organizaciones decidan abandonar los métodos tradicionales de manejo de información, para utilizar sistemas BI, con el fin de contar con una herramienta administrativa que ofrezca los elementos necesarios para establecer una estrategia adecuada que responda a los cambios del mercado en tiempo real. Herramientas a nuestro alcance También se estima que la utilización de BI representará un cambio notable en lo que actualmente conocemos como promociones de productos, ya que este sistema ofrecerá las herramientas para encarar un proyecto publicitario acorde a los productos y los clientes. Gracias al método de manejo de información que se realiza por intermedio de Business Intelligence, las empresas podrán efectuar una selección más precisa al tomar las decisiones que involucran el público al cual irá dirigido el mensaje de mercadotecnia. De esta manera, el BI producirá un ahorro de más de 200 billones de dólares al año a nivel mundial, evitando el desperdicio que ocasiona la publicidad innecesaria que es la actual base de la mercadotecnia directa. Las funcionalidades que ofrecerá BI en el futuro son ilimitadas. En este punto podríamos citar una acertada frase de Bill Gates, quien en una oportunidad mencionó: "BI ayuda a rastrear lo que en realidad funciona y lo que no". En ello justamente reside la mayor ventaja de este sistema, que en la práctica ha demostrado ser la mejor solución para el manejo de la información de las empresas, las cuales resultan notablemente beneficiadas gracias a la incorporación de Business Intelligence.
4.5.1.1
Tendencias tecnológicas y redes sociales
Tendencias tecnológicas.Existen unas cuantas tendencias que no se pueden negar. Comprender los números Según cada una de las fuentes confiables que podemos encontrar, hay casi 3.000 millones de personas conectadas a Internet en este momento; para 2020 este número será de casi 4.000 millones. De acuerdo a Cisco, para el año 2020 habrá más de 50.000 millones de dispositivos conectados en el mundo. A algunas personas les gusta llamarlo el "Internet de las cosas", otros lo llaman "Machine 2 Machine" o "M2M". No importa cómo lo llames, éstas son cantidades inconcebiblemente grandes de personas y dispositivos que están todos conectados. Entonces, ¿cómo solucionamos el problema?
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
129
Se usarían tres leyes para que ayuden a entender el ritmo de cambio: la Ley Moore, la Ley de rendimientos acelerados y la Ley de Metcalfe. La Ley de Moore llama así por Gordon Moore, cofundador de Intel. Él escribió un famoso artículo 1965 en el que planteaba que la densidad de los semiconductores de silicio duplicaría cada 18 meses.
de se en se
Esto fue así por un tiempo, pero ahora, a causa de la Ley de rendimientos acelerados (que establece que el ritmo de cambio tecnológico se está acelerando de forma exponencial) sabemos que esta duplicación del poder informático ocurre mucho más rápido que eso. Luego está la Ley de Metcalfe, la cual nos dice que el valor de una red aumenta de forma proporcional al cuadrado del número de usuarios. Si todo esto suena demasiado geek, no te preocupes; a continuación detallamos cómo pensar de forma simple sobre el notable ritmo de los cambios tecnológicos y el enorme número de personas. 1) La tecnología está cambiando a un ritmo cada vez más rápido. De hecho, hoy en día experimentarás el ritmo más lento de cambios tecnológicos de tu vida. 2) Mientras más personas se conectan, más potente se vuelve la red. Conectividad: todo lo que se puede conectar, estará conectado El precio y el tamaño de la tecnología de sensores están disminuyendo a un ritmo predecible (la Ley de Moore y la Ley de rendimientos acelerados), lo cual nos indica que todo lo que se puede conectar, estará conectado. Todo... ¿Qué exactamente podría significar eso para nosotros? Sobrecarga de información: los datos son más poderosos ante otros datos En 2015, tu teléfono inteligente seguirá siendo el centro de tu universo electrónico... y sabrá más sobre ti de lo que supo alguna vez. Los teléfonos inteligentes son el punto de central de recopilación de datos para tu vida en conexión y los usuarios promedio los comprueban alrededor de 150 veces cada día. Por supuesto, veremos nuevos dispositivos móviles este año: portátiles, autos inteligentes, casas inteligentes y más... pero todos se conectarán con y a través de tu teléfono inteligente. Entonces, mientras que en 2015 todavía hay una aplicación para eso, nuestro mundo que gira en torno a los teléfonos inteligentes es temporal. A medida que interactuamos de forma pasiva y activa con la tecnología conectada, representaremos un consorcio de herramientas de recopilación de datos. Nuestros teléfonos inteligentes podrían ser la pieza central de ese consorcio, pero también crearemos datos con nuestra ropa, tecnología portátil, casas inteligentes, autos inteligentes, etc. Recuerda, todo lo que se puede conectar, estará conectado. Seguridad y privacidad: todo lo que puede ser hackeado, será hackeado Tal y como hemos aprendido de los hackeos muy públicos en el último año (el cual culminó con el espectacular ataque a Sony), existe una mayor necesidad de protocolos de seguridad y privacidad. Todo lo que puede ser hackeado, será hackeado. Pero probablemente no de la forma que piensas sobre el hackeo. Las violaciones de los protocolos de seguridad cibernética cubren un amplio espectro, desde el escándalo de la fotografía del desnudo de Jennifer Lawrence tramada a nivel social, hasta los ataques de los
IEST PRIVADO CIBERTEC
CARRERA DE COMPUTACIÓN E INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
130
estados nación por medio del uso de armas súper cibernéticas y de clasificación militar. El ataque cibernético a Sony no se trataba de la libertad de expresión, sino simplemente de la libertad. Durante siglos hemos utilizado a los monarcas, jefes de estado, religión y sistemas políticos para controlarnos unos a otros. Cualquiera o todos estos métodos de control parecen débiles al compararlos con la capacidad de hacer daño que motiva a los hackers. Las interrupciones de energía, el saqueo de los registros contables o médicos, la manipulación del alumbrado público, el lanzamiento de misiles... la lista es prácticamente interminable. Un mundo donde la gente no puede diferenciar entre una amenaza creíble y un correo electrónico mal redactado es, de hecho, un mundo aterrador. Crecí durante la Guerra Fría y mi visión de un mundo post-apocalíptico se encuentra en algún lugar entre "Mad Max" y "The Terminator". Pero las cosas no sucederán así. La gente simplemente vivirá con el temor de que sus vidas privadas queden expuestas, de perder sus fortunas y básicamente temor de todo. En un mundo digital, todo lo que haces, tocas, ves y sientes es vulnerable a la manipulación digital. Toma 50 de las empresas Fortune 500 y colócalas en la misma situación de Sony. Toma 10 de los mayores bancos del mundo y haz lo mismo... cuando llegue un correo electrónico amenazante, ¿lo tomarás en serio? Esta podría ser una visión más precisa de un mundo post-apocalíptico "digital". Acceso versus la propiedad: el alquiler está aumentado, la compra está disminuyendo La compra de los medios físicos (CD, DVD, etc.) sigue disminuyendo y la tendencia a la baja se está acelerando. Las descargas de los medios digitales también están disminuyendo. Los consumidores cada vez más están cómodos con la opción de "alquilar" contenido mediante el pago por acceso a los servicios de suscripción: música, películas, programas de televisión, incluso los juegos y libros están avanzando hacia un modelo de acceso. En resumen: "el alquiler está aumentando, la compra está disminuyendo". Tú conoces la historia: si no estás pagando por un servicio con dinero en efectivo, la empresa está utilizando tus datos como moneda. Esta tendencia continuará, obligándonos a aprender cómo negociar los datos de la misma forma que negociamos con otras monedas. La "economía a pedido": ¡lo quiero ahora! La opción "a pedido" no es algo nuevo; pregúntale a cualquier persona que haya cuidado a un bebé. Lo que es nuevo es la velocidad con la que está evolucionando la infraestructura tecnológica para entregar casi todo lo que puedes solicitar a pedido, aunque de forma heterogénea. El espacio vacío es evidente y la tendencia es clara: Las organizaciones intentan satisfacer con avidez todas nuestras demandas (lo más inmediato que sea posible). Se trata de buscar la conveniencia a diferencia de cualquiera cosa que hayamos visto antes y realmente está recién empezando. -Los audios y videos a pedido son comunes. Los modelos comerciales necesitan estar al día. – El servicio automotriz a pedido está emergiendo. Los servicios de taxis y limosinas contratadas a nivel mundial están en auge.
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
131
-Las habitaciones de hotel a pedido están surgiendo. Los legisladores y los grupos de presión hoteleros están protestando indignados por ello. ¿Qué sucederá después? Los alimentos, vivienda y transporte a pedido son obvios. La venta al por menor y servicios de todo tipo a pedido son menos obvios y los comodines son los meta servicios que evolucionarán para darle sentido a nuestro mundo a pedido. ¿Qué hace un gestor de fondos cuando una aplicación –que utiliza la computación en nube para hacer su investigación sobre la base de un conjunto de datos creado por el comportamiento de la inversión privada– sustituye su puesto de trabajo (no solo de forma estratégica sino también transaccional)? ¿Qué hace una persona experta en reparaciones cuando los fabricantes pueden diagnosticar problemas en la Internet pública y requerir los servicios de trabajadores externos semi calificados para que hagan un mejor trabajo, más rápido y más barato? ¿Qué sucede cuando el fabricante resuelve tu problema mediante la implementación de vehículos no tripulados y robots? ¿Crees que es demasiado exagerado? Recuerda la ley de Moore, la Ley de rendimientos acelerados y la Ley de Metcalfe. Eso sucederá en un abrir y cerrar de ojos virtual. Redes Sociales.Definitivamente, 2014 fue un gran año para el marketing digital, con momentos culminantes como el #IceBucketChallenge, el selfie de Ellen durante los Oscars, la campaña #BringBackOurGirls, o el fenómeno #Bendgate. También ha sido un año impresionante para las redes sociales: -
Instagram alcanzó 300 millones de usuarios activos Cada segundo, 2 personas se convirtieron en miembros de LinkedIn Facebook consiguió mil millones de usuarios móviles activos al mes Cada día se enviaron un promedio de 500 millones de tweets El 53% de los usuarios de Google+ interactuaron con una marca de una manera positiva.
Tras un breve vistazo a lo que el año pasado significó para la esfera digital, vamos a mirar las principales tendencias del 2015 en las redes sociales. Mayor énfasis en el servicio al cliente online Las redes sociales, un espacio donde un número cada vez mayor de clientes está activo, ofrece plataformas para un servicio al cliente más directo, facilitando una experiencia más humana. En 2015, las marcas se convertirán en expertas en hacer de las redes sociales una ventaja. En un ecosistema de marcas-consumidores cada vez más automatizado y menos personal, las marcas confiarán en las redes sociales para enriquecer, diferenciar y mejorar la reputación de la empresa.
IEST PRIVADO CIBERTEC
CARRERA DE COMPUTACIÓN E INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
132
Responder a las preguntas de los clientes online de una manera responsable, inteligente y oportuna, demostrará ser una gran oportunidad para destacar a través de un servicio al cliente excelente. El desarrollo de redes sociales de nicho Tras el éxito de las grandes empresas del sector (Facebook, Twitter, Instagram, etc.) el último par de años, 2015 será el momento de las redes más pequeñas, de las redes de nicho. Plataformas que permiten a los usuarios conectarse con menos personas que tienen los mismos intereses o aficiones. Redes como Kerboodle (dirigido a las personas que les gusta ir de compras), Foodie (una comunidad para compartir recetas) o Ravelry (una comunidad para diseñadores y personas interesadas en hacer punto) servirán como una fuente de inspiración para nuevas plataformas, basadas en intereses. Además, como la mayoría de las redes sociales obtienen beneficios a través de la publicidad pagada, los redes de nicho serán el nuevo sueño de los anunciantes, ya que conseguirán acceso directo a su público objetivo. El auge de la tecnología ponible o “wearable technology” Según nuestra investigación, en el último año, la conversación sobre accesorios o prendas inteligentes ha aumentado en un 190%, el mismo aumento que ha sufrido la producción de este tipo de dispositivos. En 2015, dejaremos de utilizar este tipo de tecnología para tareas muy simples, y como afirman los expertos, un elemento clave para este año será la salud. Microsoft, Google y Apple ya han lanzado sus propias “plataformas de salud”, y los médicos están cada vez más interesados en cómo se puede utilizar esta tecnología para proporcionar información sobre la salud.
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
133
Ademas se espera que Apple Watch, el primer complemento inteligente de Apple, sea un gran éxito. Es probable que este lanzamiento vaya a beneficiar la industria, aumentando la confianza en esta nueva ola de la informática. Establecer relaciones con vloggers La popularidad de los vloggers, bloggers jóvenes independientes que filman diversos aspectos de su día a día para deleite de sus miles de seguidores, ya está marcando la forma que tomarán en el futuro el marketing y la publicidad. 17 de los 100 canales de Youtube con más suscripciones son blogs, una gran oportunidad para que las marcas se involucren. Otra tendencia que veremos este año es que los profesionales del marketing contactarán a vloggers para revisiones y publicidad. Y por qué no, tal vez algunos comenzarán a crear sus propios canales de vlogging. Más privacidad en las redes sociales En 2014, Twitter dio a los usuarios la posibilidad de compartir los tweets públicos en conversaciones privadas, mientras que Facebook lanzó “Rooms”, una aplicación para chats de grupo anónimos. Además, aplicaciones de redes sociales anónimas como Snapchat, Secret o Whisper ganaron popularidad rápidamente.
IEST PRIVADO CIBERTEC
CARRERA DE COMPUTACIÓN E INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
134
La mensajería privada/anónima es un área con mucho potencial para ser explorado por las marcas. En 2015, habrá un cambio de enfoque para este canal y las marcas empezarán a incluirlo en su estrategia de redes sociales. La evolución de los medios pagados o paid media Como Aaron Lee aconseja, este año el presupuesto para el paid media será más importante que nunca. La cada vez mayor competición por publicar contenido llevará al paid media a otro nivel, con las empresas tratando de satisfacer la demanda de los consumidores de buen contenido.
El uso de las redes sociales solo seguirá aumentando, y podemos esperar que el alcance orgánico continúe disminuyendo a medida que el volumen de contenido en estas redes se incremente.
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
135
Menos ventas, más atención Los departamentos de marketing van a seguir reconociendo la importancia de hablar con los clientes, un nuevo diálogo frente al anterior monólogo. Contar una historia, en lugar de “empujar” un mensaje, marcará una gran diferencia para los que entienden que, en las redes sociales, mostrar preocupación por tu público (respondiendo sus preguntas, compartiendo contenido que les ayude a resolver sus problemas o interactuando con ellos) importa más que promover tus servicios o productos. Vamos a ver mensajes más humanos, relacionados con la vida real. La gente tiende a responder mucho mejor a campañas, vídeos, imágenes, etc. que hablan de ellos; a historias con las que se puedan identificar fácilmente. Y las marcas más inteligentes sacarán todo el provecho a esta oportunidad. Instagram seguirá creciendo En el último año Instagram se ha convertido en la red más popular para compartir imágenes y vídeos. Según Forrester, los posts en Instagram generan 58 veces más participación por seguidor que Facebook, y 120 veces más que Twitter.
Este año se espera que la publicidad en Instagram aumente a medida que el número de usuarios siga creciendo. Así que podría valer la pena darle una oportunidad a Instagram si es que todavía no lo has hecho y quieres aumentar tu publicidad en las redes sociales. “Marketing ágil”: un diferenciador clave para las marcas El marketing ágil, actuar rápidamente con respuestas a la información en tiempo real, es una habilidad vital para los líderes de marketing de hoy en día. El tweet Dunk in the Dark de la Super Bowl 2013 o el tweet más reciente de KitKat #Bendgate, son dos buenos ejemplos de cómo reacciones oportunas a eventos externos de gran escala pueden ayudar a las marcas a incrementar su reputación online.
IEST PRIVADO CIBERTEC
CARRERA DE COMPUTACIÓN E INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
136
2015 va a animar a otras marcas a intentar replicar este éxito monitorizando tendencias, acontecimientos mundiales y los cambios del sector en tiempo real, minuto a minuto. Estas son algunas de las principales tendencias en las redes sociales que creemos que tendrán lugar este año.
4.5.1.2
La Web como repositorio de información
Durante los últimos años, se produjo el asentamiento de Tecnologías de la Información innovadoras de impacto en la economía, los negocios y la sociedad en general: Web 2.0, Web Semántica, y la Web 3.0 como convergencia de las anteriores. La nueva Web ha traído nuevos modelos tecnológicos: Software como Servicio, Virtualización y Almacenamiento Web. Estos modelos han traído un nuevo paradigma tecnológico, económico y social: La Computación o Informática en Nube (Cloud Computing). La información digital se encuentra en todas partes de nuestra sociedad, circula por las redes, se visualiza en la pantalla, se escucha en los teléfonos móviles, todos los artefactos materiales, históricamente asociados a nuestras prácticas de acceso a la información, libros, revistas, discos, carteles, tablas, álbumes de fotos, ceden terreno ante las herramientas electrónicas, gadgets. Las empresas se convierten en digitales. Se está produciendo una separación entre el soporte físico y el contenido, pero está separación es ilusoria, se necesita que toda esta información se almacene en alguna parte; el almacenamiento está sufriendo, también una gran transformación, el soporte no desaparece pero se transforma. El almacenamiento web está comenzando a sustituir al almacenamiento físico en DVD, pendrive, etc. La gestión de la información se va a concentrar en los grandes centros de datos y se ofrecerán a los particulares, a las empresas y organizaciones, herramientas de almacenamiento y difusión. Pero hay mucha información almacenada en los videoblogs (YouTube, Hulu), sitios de fotografías (Flickr, Picasa), enciclopedias digitales (Wikipedia, Europeana), redes sociales (Facebook, Twitter). Nadie puede saber en qué disco duro está almacenada una fotografía del sitio Flickr, o una canción de un grupo francés en Spotify o un libro digitalizado en Amazon, y desde el punto de vista tecnológico tampoco sabemos cuál es el procesador que está trabajando para nosotros o nuestra empresa. Esta nueva arquitectura se denomina “informática en la nube o en nube” o “computación en la nube o en nube”. Los datos y las aplicaciones se reparten en nubes de máquinas, cientos de miles de servidores de ordenadores pertenecientes a los gigantes de Internet y poco a poco a cientos de grandes empresas, universidades, administraciones, que desean tener sus propios centros de datos a disposición de sus empleados, investigadores, doctorandos, etc. Cloud Computing es un conjunto de tecnologías de computación que están configurando un nuevo orden mundial en las TI que parte, esencialmente, de las expectativas creadas por la Web 2.0 entre los usuarios personales y corporativos. La idea clave tal vez sea que las TI se convierten en un servicio, de modo que las aplicaciones del software no tienen por qué existir en un lugar concreto sino que pueden estar compuestos de múltiples piezas procedentes de múltiples sitios. La idea clave es que los usuarios, las empresas, las grandes corporaciones acceden a los servicios de TI a través de la “nube”, los clientes pueden acceder bajo demanda,
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC
INTELIGENCIA DE NEGOCIOS
137
siguiendo el modelo “gratuito” o de “pago” por uso, a un gran número de recursos informáticos de modo dinámico, dotándose así de una enorme capacidad de procesamiento y almacenamiento sin necesidad de instalar máquinas localmente, lo que se traduce en considerables ahorros de tiempo e incluso de consumo energético. La demanda de este tipo de computación remota está en auge y está originando que las empresas busquen lugares económicos para alojar sus centros de datos. Buscan una mezcla de características: edificios económicos, electricidad barata y fuerza laboral de coste reducido. Numerosas consultoras estadounidenses y también europeas buscan sedes para sus centros de datos, desde IBM y HP, hasta Pepsico o Coca Cola Company. Por consiguiente los repositorios de información web se convierten en pieza clave del nuevo modelo de negocio en el que ya estamos inmersos; y para ello vamos a tratar de acercarnos a lo que actualmente existe y se demanda.
IEST PRIVADO CIBERTEC
CARRERA DE COMPUTACIÓN E INFORMÁTICA
INTELIGENCIA DE NEGOCIOS
138
Resumen 1. Big Data es las tres “V”: Volumen, Velocidad, Variedad. 2. Big Data tiene Data Estructurada y no Estructurada. 3. Hadoop es el framework que permite gestionar BIG DATA 4. El core de Hadoop se compone de: HDFS y Map Reduce. 5. Machine Learning es aprendizaje de máquinas, es una rama de la inteligencia artificial cuyo objetivo es desarrollar técnicas que permitan a las computadoras aprender sin demasiadas indicaciones explicitas 6. ML tiene 02 tipos de aprendizaje: Supervisado y No Supervisado 7. ML, presenta 02 algoritmos básicos: KNN y K-means. 8. Data Mining consiste en descubrir, en los datos, cosas que no son evidentes y que sean útiles para el negocio. 9. Las tecnologías de minería se Descubrimiento de conocimiento.
categorizan
en:
Análisis
estadístico
y
Puede revisar los siguientes enlaces para ampliar los conceptos vistos en esta unidad: o o o
http://blog.classora.com/2013/08/30/tecnologias-de-big-data-el-ecosistema-hadoop/ http://kb.tableau.com/articles/knowledgebase/administering-hadoop-hive?lang=es-es http://news.microsoft.com/es-es/2015/07/13/microsoft-anuncia-nuevas-oportunidadespara-sus-socios-de-negocio-en-worldwide-partner-conference/
CARRERA DE COMPUTACIÓN
IEST PRIVADO CIBERTEC