Estudiante: Hammer Slegde Herrera Panta. Docente:
Ing. José Alberto Garay Mendoza.
Curso:
Inteligencia de Negocios.
Escuela:
Ingeniería de sistemas.
Ciclo:
VIII.
SULLANA – Perú 2017
Actividad Nro. 12 Opinan sobre los criterios de evaluación de las actividades de aprendizaje de la cuarta unidad. Los criterios de evaluación están muy bien planteados y precisos, los cuales en el transcurso del tiempo se van a desarrollar por los conocimientos adquiridos en las clases presenciales que dicta usted docente tutor. Estos criterios indican los objetivos que tenemos que llegar a desarrollar, las cuales son las metas que el curso tiene como finalidad, que nosotros tenemos que aprender de ellas, también son utilizadas para brindar la información necesaria.
Hacer una investigación precisa y clara sobre procesos ETL. Mencione 03 Ejemplos que usted conozca personalmente o encontrado en internet Introducción. Los sistemas o procesos ETL (Extact-Transform-Load) son la base de la construcción de cualquier sistema Data Warehouse (aunque además puedan ser utilizados para otros muchísimos cometidos). Un sistema bien diseñado extrae la información de los sistemas origen, asegura la calidad y consistencia de los datos, homogeniza los datos de sistemas divergentes para que puedan ser utilizados de una forma conjunta (procesando y transformando la información si es necesario) y finalmente genera los datos en el formato apropiado para que puedan ser utilizados por las herramientas de análisis. Como bien dice Ralph Kimball en su libro “The Datawarehouse ETL Toolkit“, los sistemas ETL construyen o “se cargan” un Data Warehouse. La construcción de un sistema este tipo es una actividad que no está en primera línea de fuego y no es visible para los usuarios finales, pero fácilmente consume el 70% de las necesidades de recursos para el desarrollo y mantenimiento de un sistema DW. Además, estos procesos no son solamente un mero traspaso de información de un sistema u otro. Son mucho más, pues pueden dar un valor significativo a los datos. Unos procesos mal definidos, mal validados, pueden cargarse un sistema de BI impecablemente diseñado, pero mal alimentado por unos procesos mal construidos. El proceso de construcción de un sistema ETL puede ser extraordinariamente exigente y complejo, estando además limitado por muchos aspectos, como pueden ser los requerimientos, los formatos y deficiencias de los datos de origen, las habilidades del personal disponible, las necesidades de los usuarios fi nales, el presupuesto del proyecto, las ventanas de tiempo para los procesos de actualización, etc. Teniendo en cuenta esto, no se debe nunca despreciar la importancia, el tiempo y recursos que se han de utilizar para su construcción.
Los requerimientos afectan a cómo va a ser nuestro sistema ETL. Existen diferentes elementos que van a afectar en cómo va ser o como vamos a construir nuestro sistema ETL. Los más importantes son los requerimientos. La elección de uno o varios procesos de negocio, las dimensiones e indicadores que vamos a analizar, su granuralidad, etc., van a determinar cosas tan dispares como los orígenes de datos que vamos a tener que utilizar, la forma de procesar la información, la complejidad de los procesos, etc. Esto nos va a hacer darnos cuenta de lo importante que son dichos requerimientos y su correcta definición en todas las tareas que rea licemos a continuación, incluyendo la definición de la arquitectura de nuestros procesos ETL.
Implementación de Procesos ETL. Como explica muy bien Kimball en su libro, los procesos ETL son similares a un restaurante y su cocina. En el comedor, los comensales degustan los platos como lo harían los analistas de negocio con los datos utilizando sus correspondientes herramientas de análisis. Puertas atrás, en el interior, en la cocina, se preparan los platos, se analizan y limpian los ingredientes, desechando aquellos que no están en condiciones, se trocean, se cocinan, hasta elaborarlos tal y como serán presentados a los clientes.
El área de Staging según Kimball
De forma similar, el área de Stage será lo mismo para nuestro DW. Es un lugar al que solo acceden las personas especializadas en la integración de datos, fuera del alcance de los usuarios. Allí los datos son extraídos, depurados, limpiados, conformados y normalizados, manipulados o calculados, y preparados para ser cargados en el DW donde podrán ser accedidos por los usuarios para realizar análisis con las diferentes herramientas de las que dispongan. Los procesos en el área de Staging pueden incluir o no un almacenamiento de datos (aunque sea temporal), cuestión que dependerá de cómo se diseñen los procesos, de los volúmenes de información o de otras cuestiones. Básicamente, tenemos 4 tipos de pasos en esta área:
Extracción: los datos son extraídos de los sistemas origen, que pueden ser tanto bases de datos, como ficheros (estructurados o no) u otros orígenes. Los procesos de extracción pueden ser a veces el lugar idóneo para realizar las primeras acciones sobre los datos, como formateo, conversiones de tipos, conversión de juegos de caracteres, etc.
Depuración: en esta etapa de los procesos ETL se procesa la calidad de los datos, revisando valores válidos, consistencia, eliminación de valores redundantes, chequeo de reglas complejas, etc. Puede ser necesaria la intervención humana en determinados casos.
Conformación/normalización: la información es unificada, conformada y normalizada. Los indicadores y ratios son calculados de una forma racional, lo mismo que los atributos de las dimensiones, para que estén unificados y en todos los sitios donde aparezcan tengan la misma estructura y el mismo significado.
Entrega: la información está preparada para ser analizada. Se entrega al DW para que las herramientas de análisis puedan utilizarla, en los formatos idóneos para dicha tarea.
Creación o no de un Área de Datos en el Stage. La decisión de almacenar los datos físicamente en el área de Stage o no (y realizar su procesamiento en memoria) es una elección de diseño a la hora de construir los procesos ETL. Muchas veces puede ser la búsqueda de un equilibrio entre el procesamiento en memoria o disco, o la búsqueda de la forma más rápida de extraer la información de los sistemas origen para luego procesarla de una forma independiente, o la posibilidad de relanzar los procesos en el caso de que haya algún problema, lo que determine esta elección.
Teniendo en cuenta esto, pueden ser razones de peso para tener esta área de almacenamiento intermedio las siguientes:
Recuperabilidad: los datos son almacenados en el área stage una vez son extraídos del sistema origen. A partir de ahí, se lanzan los procesos de transformación. En el caso de que haya algún problema, estas tablas de staging nos permiten recuperar y relanzar los procesos sin volver a interferir en los sistemas operacionales (esto solo tendrá sentido cuando los volúmenes de información sean lo suficientemente grandes).
Backup: nos pueden permitir disponer de backups de los datos en un punto determinado, lo que nos puede permitir relanzar procesos o recuperar situaciones en un punto anterior en el tiempo.
Auditoria: el área de stage nos puede permitir realizar a uditoria o verificación de procesos, así como realizar comprobaciones en cómo estaban los datos antes y después de los procesos (igualmente sin recurrir a los sistemas origen).
Ejemplo de sistema ETL con almacenamiento en el área de S tage
En nuestro caso, vamos a construir un área de stage que será un punto intermedio de almacenamiento de la información a procesar antes de su carga en el DW. El área de Stage puede ser procesada de muchas maneras, desde ser limpiada cada vez que comienza un proceso de extracción y ser un mero lugar temporal donde realizar los procesos, hasta ser persistente y accesible para repetir procesos de carga o para validación. Normalmente se utiliza un enfoque hibrido según el tipo de procesos a realizar. El área de Stage es un área reservada donde solo podrán acceder los procesos ETL (en ningún caso los usuarios), y deberá de estar debidamente dimensionada para contener los volúmenes de información necesarios, según el tipo de persistencia de los datos en ella que hayamos elegido. A continuación, vamos a repasar algunas formas de analizar y documentar los orígenes de información, como paso previo a la realización de cualquier tipo de proceso ETL. Después definiremos y documentaremos nuestra área Stage y detallaremos posteriormente algunas técnicas ETL para el tratamiento de determinadas situaciones, para pasar finalmente al diseño de los procesos.