Metodologías para el Data WareHousing
Mg. Samuel Oporto Díaz
Mapa del Curso Inteligencia de Negocios
Metodología Kimball
Planeamiento del Proyecto
Modelo del Negocio
Modelado Dimensional
Modelado Físico
ETL
Reportes
Minería de Datos
Tabla de Conte Contenido nido • Antecedentes Antecedentes • Metodología Kimball – Planificación del proyecto – Requerimientos del Negocio – Línea tecnológica • Arquitectura tecnológica • Selección e instalación de productos
– Línea de datos • Modelo dimensional • Modelo físico • ETL
– Línea de aplicación del BI • Diseño del BI • Desarrollo del BI
– Despliegue • Despliegue • Crecimiento • Mantenimiento
Objetivos 1. Presen Presentar tar los los enfoq enfoques ues para para el desarr desarroll ollo o de DWH 2. Pres Presen enta tarr la met metod odol olog ogía ía de de Kimb Kimbal alll
ANTECEDENTES
Metodologías OLAP / OLTP Sistemas de Información •
Los procesos a automatizar son repetibles y previsibles. • Modelado Entidad Relación. • Atención en una rápida modificación en línea de los datos.
Data Warehouse • • •
El uso de los datos es exploratorio y menos predictible. Modelado multidimensional. Enfocado en la carga y la presentación de los datos
DWH no es solamente crear un conjunto de reportes que corren periódicamente. Se trata de preguntas que hay que alcanzar y que puede llevar a lugares imprevistos.
Conceptos Clave • Datamart. Repositorio de datos especifico. – Diseñado para responder las preguntas específicas. – Diseñado para servir las necesidades de unidades de negocio (ventas, comercialización, operaciones, contabilidad, etc.) – Es construido usando modelado dimensional
• Data warehouse. Repositorio de datos organizacional – Almacena datos de toda la empresa y de todas las áreas. – Es una colección empresarial de datamarts. – Contiene data masiva e integrada
• Inteligencia de Negocios. – Reportes y análisis de datos almacenadas en el DWH – Data warehouse/business intelligence (DW/BI) se refiere al sistema completo de extremo a extremo.
Metodologías para el DWH Top-Down
Bottom-Up
Hybrid
Federated
Profesional
Bill Inmon
Rodolfo Kimball
Muchos profesionales
Doug Hackney
Énfasis
DWH
DataMarts
DWH y DataMarts
Integrado a entornos BI heterogéneos
Diseño
Modelo normalizado basado en la empresa
El modelo dimensional de datamarts, usa esquema de estrella
Modelos locales y uno o Una arquitectura de mas esquemas de arquitecturas; comparte estrella dimensiones, hechos, reglas, definiciones a través de la organización
Arquitectura Compuesto de varios niveles de áreas de interés y datamarts dependientes
Área de interés y datamarts
Modelo empresarial normalizado de alto nivel; datamarts iníciales.
Data set
Contiene datos atómicos Carga datamarts con y sumarizados datos atómicos y sumarizados vía un área de interés no persistente
DWH datos a nivel atómico; datamarts datos sumarizados
Realidad del cambio en organizaciones y sistemas
Uso de cualquiera significado posible para integrar las necesidades de negocio
Historia de DWH Inmon. 1990 Publica Building the Data Warehouse 2002 Mejora su libro y define una arquitectura como una colección de fuentes dispares en almacenes de datos detalles y variantes en el tiempo. Kimball 1996 Publica The Data Warehouse Toolkit 2002 Mejora su libro y define multiples bases de datos llamados datamarts que son organizados por procesos de negocio, pero usan medios de datos estandarizados para la empresa.
Top-Down
Botton-Up
Enfoques acerca del DWH • Bill Inmon
Normalizado.
– Building the Data Warehouse – Corporate Information Factory
• Ralph Kimball -> Dimensional. – The Data Warehouse Lifecycle Toolkit – The Data Warehouse Toolkit
Enfoques acerca del DWH • Bill Inmon – – – –
Top-Down
El DWH usa modelo de datos de toda la empresa El DWH es un depósito de datamarts Más tiempo para implementar. Fracasos por falta de paciencia y de compromiso
• Ralph Kimball -> Bottom-Up – Inicia con un datamart, luego otros datamarts. – El flujo de datos: fuente datamart datamart DWH – Rápido de implementar, por etapas – Necesita asegurar: • La consistencia de la metadata. • Estar seguro que cada cosa es llamado por su nombre.
ENFOQUE INMON
El modelo Inmon • Consiste de todas las bases y sistemas de información de una organización – Modelo CIF (Corporate Information Factory) – Fabrica de Información corporativa.
• Define el medio ambiente de las bases de datos como: – – – –
Operacional DWH atómico Departamental Individual
• El DH es parte de un todo más grande (CIF)
Modelado Inmon Tres niveles en el modelado de los datos • Entidad Relación – Relaciones entre entidades, atributos y relaciones
• Modelo MID-Level (MID-Level Model o *DIS*) – Conjunto de items de datos – Conjunto de datos por departamento – Cuatro construcciones: 1. Agrupamiento de datos primarios 2. Agrupamiento de datos secundarios 3. Conectores 4. Datos de “Tipo de”
• Modelo de datos físico – Optimizado para mejor rendimiento (de-normalizado
Modelado Inmon • Relación entre los niveles Uno y Dos del modelo de datos de Inmon
ENFOQUE KIMBALL
Enfoque Kimball • El modelo dimensional se inicia con tablas: – De hechos – De dimensiones
• Los hechos contienen metricas • Las dimensiones contienen atributos – Puede contener grupos de datos repetidos
• Los datos no están normalizados • Accesible al usuario final
El ciclo de vida Kimball
El ciclo de vida Kimball • Ilustra el flujo general de implementación de un DWH. • Identifica secuencia de tareas ordenadas y actividades principales que debe suceder concurrentemente. • Muchas necesidades deben ser acomodadas para lograr única necesidad de la organización. • No todos los detalles de las tareas del ciclo de vida deben ser ejecutados en todos los proyectos.
Ciclos de vida KLC, SDLC, y DBLC
Planificación
Análisis
DB Initial Study
DB Design
Ejecución Diseño del Sistema detallado
Ejecución
Mantenimiento
Kimball LifeCycle
System Development Life Cycle
Comprobación
Operación
Mantenimiento
Data Base Life Cycle
Ciclo de Vida • Planificación del proyecto • Requerimientos del Negocio • Línea tecnológica – Arquitectura tecnológica – Selección e instalación de productos
• Línea de datos – Modelo dimensional – Modelo físico – ETL
• Línea de aplicación del BI – Diseño del BI – Desarrollo del BI
• Despliegue – Despliegue – Crecimiento – Mantenimiento
Planificación del programa/proyecto • Visión de programas y proyectos de Kimball – Proyecto, se refiere a una iteración simple del KLC Desde el lanzamiento hasta el despliegue. – Programa, se refiere a la amplia coordinación progresiva de recursos, infraestructura, tiempos y comunicación a través de múltiples proyectos Un programa contiene proyectos múltiples • En la realidad los programas no necesariamente inician antes del proyecto, aunque debería ser así.
Planificación del programa/proyecto • Planificación de proyecto. – Definir el alcance ↔ Entender los requerimientos del negocio. – Identificar tareas – Programación de tareas – Planificar el uso de los recursos. – Asignar la carga de trabajo a los recursos – El documento final representa un plan del proyecto.
Administración del programa/proyecto • Refuerza el plan del proyecto. • Actividades: – Monitoreo del estado de los procesos y actividades. – Rastreo de problemas – Desarrollo de un plan de comunicación comprensiva que direccione la empresa y las áreas de TI
Línea de desarrollo • Luego de definir los requerimientos del negocio, enfocar el proyecto a tres líneas (tracks) concurrentes: – Tecnología – Datos – Aplicaciones de BI
• El flujo de actividad de las líneas, se indican por las flechas • La dependencia entre tareas se indican por el alineamiento vertical de las tareas
Ejercicio 1 • Identifique roles para el equipo de desarrollo de un DWH
Ejercicio 1 • Identifique roles para el equipo de desarrollo de un DWH • Front Office: Sponsor y Directores • Ejecutivos: Jefe de Proyecto, Líder Proyecto del Negocio. • Línea regular : Equipo de proyecto principal. – – – –
Analista del sistema de negocio Modelador de datos DBA Diseñador ETL
• Desarrollador de aplicaciones para el usuario final. • Equipos especiales: Seguridad, Calidad
Ejercicio 1
Ejercicio 2 • Identifique los recursos necesarios para el desarrollo del proyecto.
Ejercicio 2 • Identifique los recursos necesarios para el desarrollo del proyecto. • Los recursos pueden ser: – Humanos – Equipamiento – Servicios de terceros – Tiempo
Ciclo de Vida • Planificación del proyecto • Requerimientos del Negocio • Línea tecnológica – Arquitectura tecnológica – Selección e instalación de productos
• Línea de datos – Modelo dimensional – Modelo físico – ETL
• Línea de aplicación del BI – Diseño del BI – Desarrollo del BI
• Despliegue – Despliegue – Crecimiento – Mantenimiento
Definición de requerimientos del negocio • El éxito del proyecto depende de una comprensión sólida de las necesidades de negocio. • Comprender los factores claves que dirigen el negocio es crucial para traducir exitosamente las necesidades de negocio en las consideraciones de diseño
Requerimientos del Negocio • Requerimientos de uso de información – Tipo de información que las personas necesitan. – Tipo de análisis.
• Requerimiento de datos – – – –
Fuente de datos Calidad de datos y limpieza de datos Almacenamiento de datos Carga de datos
Proceso de definición de requerimientos
Bus Matrix • Relaciona los procesos organizacionales a las entidades u objetos que participan en el proceso. • Cada fila es un proceso y cada columna una dimensión
Priorización de Procesos
Recolección de Requerimientos • Quién va ha ir a recoger los requerimientos?. • Los usuarios pueden ser clasificados como: – Ejecutivos Senior – Administradores de departamentos clave – Analistas de negocio – DBA de sistemas operacionales – Personal de TI • Los ejecutivos senior le darán un sentido de dirección y alcance para su almacén de los datos.
Ciclo de Vida • Planificación del proyecto • Requerimientos del Negocio • Línea tecnológica – Arquitectura tecnológica – Selección e instalación de productos
• Línea de datos – Modelo dimensional – Modelo físico – ETL
• Línea de aplicación del BI – Diseño del BI – Desarrollo del BI
• Despliegue – Despliegue – Crecimiento – Mantenimiento
Diseño de la arquitectura tecnológica • Marco arquitectural completo del proyecto • Consideraciones a tomarse en cuenta: – Las necesidades de negocio – Medio ambiente tecnológico actual – Dirección técnica estratégica planeada.
Selección de producto e instalación • Basado en la arquitectura técnica diseñada. • Evaluación y selección de – Plataforma de hardware – DBMS (base de datos) – Herramienta ETL – Herramientas de consultas (query tools) – Herramienta de reportes. • Instalación de productos/componentes/herramientas. • Prueba de productos instalados para garantizar la integración de extremo a extremo con el entorno del DWH.
Ciclo de Vida • Planificación del proyecto • Requerimientos del Negocio • Línea tecnológica – Arquitectura tecnológica – Selección e instalación de productos
• Línea de datos – Modelo dimensional – Modelo físico – ETL
• Línea de aplicación del BI – Diseño del BI – Desarrollo del BI
• Despliegue – Despliegue – Crecimiento – Mantenimiento
Línea de datos
Diseño del modelo dimensional
ETL
Diseño del modelo físico
Modelado dimensional • Análisis de los datos de un proceso de negocio para: – identificar la granularidad de las tablas de hechos – dimensiones y atributos asociados – hechos numéricos. • Contiene los mismos datos y relaciones que un modelo normalizado en la 3FN, pero estructurado de manera diferente. • Mejora el entendimiento y desempeño de consultas al DW • Las construcciones primarias son: – Tablas de hechos – Tablas de dimensiones
Modelado dimensional – tabla de hechos • Contiene métricas derivadas de un proceso de negocio o un evento. – Ventas, contabilidad, logística, etc.
• El MD debe ser estructurado alrededor de un proceso del negocio • Se diseña vistas similares y consistentes de los datos para toda la organización. • La granularidad de la tabla de hechos, debe ser el más atómico posible • Esto permite mayor flexibilidad y extensibilidad.
Modelado dimensional – tabla de dimensiones • Contiene la descripción de atributos y características asociadas con medidas de eventos tangibles y específicos, tales como clientes, productos, representantes de ventas. • Los atributos de dimensión son usados por limitar, agrupar, o rotular una pregunta. • Las relaciones jerarquicas N:1 son denormalizadas en tablas de dimensión simples.
Esquema de estrella • Una tabla de hechos • Varias tablas de dimensiones. • Ejemplo: – Asuma este esquema para una cadena de venta al por menor. – El hecho puede ser el ingreso de dinero.
Esquema de copo de nieve • Es una variación del esquema de estrella. • Es un esquema más complejo que el esquema de estrella porque las tablas que describen las dimensiones están normalizadas.
Esquema de copo de nieve • Desventajas: – Las tablas de hecho ocupan +90% del almacenamiento, (el beneficio es poco). – Normalizar las tablas de dimensión pueda deteriorar la ejecución de un DWH.
• Ventajas: – Es apropiado si se presenta alguna de las siguientes condiciones: • Una dimensión es esparcida • Una dimensión tiene una lista muy larga de atributos
• En la práctica, muchos DWH normalizarán algunas dimensiones y otros no (usan una combinación de copo de nieve y de estrella)
Diseño físico • Preparando el entorno de base de datos. • Preparando la seguridad apropiada. • Estrategia preliminar de afinamiento (tuning) de indexación y agregación. • Si son apropiadas las bases de datos OLAP que se diseñan durante este proceso.
ETL Diseño y desarrollo • Es la fase más importante. – Corresponde al 70% del riesgo y esfuerzo de un proyecto de DWH. – Capacidades de sistema ETL: • Extracción • Limpieza y conformidad • Entrega y administración
ETL • Los datos en bruto son extraídos de los sistemas operacionales y transformados en información significativa para el negocio • Los procesos ETL deben diseñados mucho antes que cualquier datos sea extraída de la fuente • Se verifica la calidad de los datos de entrada. • Las condiciones de calidad de datos se controlan continuamente
Ciclo de Vida • Planificación del proyecto • Requerimientos del Negocio • Línea tecnológica – Arquitectura tecnológica – Selección e instalación de productos
• Línea de datos – Modelo dimensional – Modelo físico – ETL
• Línea de aplicación del BI – Diseño del BI – Desarrollo del BI
• Despliegue – Despliegue – Crecimiento – Mantenimiento
Aplicación del BI • Aplicaciones que consultan, analizan y presentan información desde el modelo dimensional. • Las aplicaciones BI entregan valor al negocio desde la solución DW/BI. • La meta es entregar capacidades al negocio para soportar y mejorar la toma de decisiones. 1. Diseño de Aplicaciones BI. 2. Desarrollo de aplicaciones BI.
Aplicación del BI • Diseño de Aplicaciones BI. – Identifica las aplicaciones de BI candidatas y interfaces de navegación apropiadas – Orienta las necesidades de los usuarios. – Produce la especificación de las aplicaciones BI
• Desarrollo de aplicaciones BI. – Configuración de la metadata del negocio y de la infraestructura de herramientas. – Construcción y validación de aplicaciones BI analíticas y operacionales y un portal de navegación.
Ciclo de Vida • Planificación del proyecto • Requerimientos del Negocio • Línea tecnológica – Arquitectura tecnológica – Selección e instalación de productos
• Línea de datos – Modelo dimensional – Modelo físico – ETL
• Línea de aplicación del BI – Diseño del BI – Desarrollo del BI
• Despliegue – Despliegue – Crecimiento – Mantenimiento
Despliegue • Si la planificación se ha ejecutado se puede asegurar: – Los resultados de las líneas de tecnología, datos y aplicación del BI. – Disponibilidad de la infraestructura de capacitación y apoyo. • El despliegue debe ser bien sincronizado. • El despliegue debe ser aplazado si todas las piezas, tales como entrenamiento, documentación, y validación de datos, no están listos para la liberación de producción.
Mantenimiento • Cuando el sistema esta en producción • Incluye: – Tareas técnico operacionales que son necesarias para mantener el sistema operando óptimamente. • Monitorio del uso. • Tuning del desempeño. • Mantenimiento de la tabla de índices. • Backup del sistema. • Apoyo permanente, capacitación y comunicación con los usuarios finales
Crecimiento • Los DWH tienden a expandirse (si son exitosos) • Es considerado como un signo de éxito. • Nuevos requerimientos deben ser priorizados. • Empezar el ciclo de nuevo – Construir sobre las bases ya establecidas. – Enfoque en los nuevos requerimientos