AA5-EV1-VALIDACION DE TECNICAS DE MIGRACION Y HERRAMIENTAS ETCL
Presentado por:
ALBA RUBY MESA YEPES GREISON DARIO PEMBERTY VELEZ LUISA FERNANDA CANO
ESPECIALIZACION BASE DE DATOS SENA Mayo 30 d !01"
ALCALDIA DE SAN ANTONIO DEL SENA MIGRACI#N$ SECRETAR%A DE HACIENDA T&CNICAS E'ISTENTES Existen varias técnicas relacionadas con los procesos de migración de datos, a continuación se relacionan las más utilizadas en los procesos actuales.
SINCRONIZACI#N DE BASE DE DATOS Es una técnica muy utilizada en procesos de migración de datos, consiste en hacer que dos bases de datos sean equivalentes en el mismo tiempo. e logra mediante la copia de datos y metadatos de una base de datos origen a una base de datos destino mediante una herramienta tecnológica. !os asistentes de sincronización de los "#$ son con%igurados con las bases de datos origen y la base de datos destino, parametrizando la ubicación de particiones y métodos de seguridad.
IMPORTACI#N(E'PORTACI#N DE ARCHIVOS )CSV* O 'ML A TRAV&S DE COMANDOS DE CONSOLA O INTERFAZ GR+FICA Para las actividades de migración de datos es muy com&n utilizar archivos para el movimiento de los datos. e pueden utilizar di%erentes tipos de archivos, pero los %ormatos más usados son los archivos de texto, llamados archivos planos, que guardan la in%ormación sin %ormato usando solo caracteres. !os sistemas de codi%icación más comunes para estos archivos son: '()), )*+-+/ o !at0n+/ y 1nicode. !os archivos de texto pueden tener %ormato delimitado utilizando coma 2,3, punto y coma 243 o 5abulaciones para delimitar los campos de%iniendo de esa %orma columnas y %ilas. 5ambién pueden tener %ormato de ancho %i6o para los campos, que se utiliza para delimitar columnas y %ilas. 1n %ormato de archivo plano muy usado es el 7.(89 2(omma+eparated+8alues, en espaol 8alores eparados por (oma3, donde el delimitador usado es una coma. "uy usado para movimientos de datos con ho6as de cálculo. *tro %ormato &til para la migración de datos es el 7.;"!9 2e;tensible "arc
SENTENCIAS DML 1na posibilidad de los "#$ es la utilización de sentencias $"! para generar scripts =! que permiten realizar migraciones de bases de datos existentes. En un script =! se pueden realizar las siguientes tareas: •
(opia de seguridad para creación de todos los usuarios, grupos, inicios de sesión y permisos.
• •
(reación o actualización de código para la implementación de una base de datos. (reación de un entorno de pruebas.
!os procesos se orientan al uso de las sentencias $"!, para realizar el paso de datos de la base de datos de origen a la base de datos destino, a través de los entornos administrativos de los "#$.
PROCEDIMIENTOS ETCL )E'TRACCI#N, TRANSFORMACI#N, LIMPIEZA Y CARGA* Esta técnica se basa en el diseo y construcción de procedimientos técnicos para realizar Extracción, 5rans%ormación, !impieza y (argue de $atos 2E5(!3. !os procedimientos o pasos necesarios para el desarrollo de un proyecto de migración de datos utilizando la metodolog0a E5(! son:
En todo proceso de migración, se ha de proceder a ./a do2 o 42 22/a2 por lo cual pueden usarse di%erentes técnicas, siendo las más comunes: •
•
•
P6ado d da/o2$ Permite explorar los propios datos, agregando a los de origen las reglas necesarias. Esta técnica hace posible también el obtener resultados acerca de duplicidades o errores en los datos. L78a d da/o2$ Puede llevarse a cabo empleando para ello una herramienta de $ata =uality que ayude a eliminar errores, incorrecciones o duplicidades, entre otras inconsistencias4 y que, al mismo tiempo, enriquezca y homologue los datos, preparándolos para el sistema de destino. Co.9:. a d2/./a2 ;./2 d da/o2$ 5écnica que precisa de una herramienta ad hoc que garantice el hacerlo en condiciones de simultaneidad.
!as venta6as que proporciona el usar estas tecnolog0as se traducen en un aumento de la precisión, reducción del 0ndice de errores, mayor agilidad y optimización del tiempo4 ya que su automatización evita los procesos manuales, algo que supone su principal bene%icio.
artner en cuanto a las cualidades que la herramienta ha de presentar: • • •
• •
•
'daptabilidad a distintos sistemas operativos y plata%ormas hard?are. (apacidades de gestión de datos: en cuanto a miner0a, per%ilado y calidad. @abilidades para monitorizar, gestionar y controlar los procesos de integración de datos: en lo relativo a gestión de errores, recolección de estad0sticas de e6ecución, controles de seguridad, etc. (apacidades *'. (apacidades de diseo y entorno de desarrollo: como soporte para test, representaciones grá%icas, modelos y %lu6os de datos y %lu6os de datos, etc. (ualidades de arquitectura e integración re%eridas al grado de interoperabilidad, compactación y consistencia de los di%erentes componentes que la %ormen.
'unque la elección de un so%t?are de E5! no es sencilla, su repercusión en el curso del proyecto es decisiva. 1na decisión correcta pasa por la automatización y en base a ella quedan garantizados: • • • • •
1n aumento en la velocidad de desarrollo del proyecto. !a descentralización del control de la e6ecución y de todos los procesos. 1na mayor agilidad en el negocio. "ayor precisión. "inimización de errores.
HERRAMIENTAS ETCL
APLICACI#N DE USO LIBRE B./6$ Es una herramienta E5! de uso libre, desarrollada entre los aos ABBC D AB/, hecha en 6ava y traba6a con base a lengua6es de base de datos Postgre=! o "y=!> Esta herramienta se creó para %acilitar el traba6o con archivos 5;5, (8 o archivos de %uente de datos ;"!. Para recuperar los datos que tendrán que de%inir un dato de tiempo y una entidad, que está representado por datos a calcular o para mostrar. 5odos los ob6etos &tiles serán creados por #enetl dentro de una base de datos "y=! o Postgre=!. !a aplicación también es capaz de recuperar automáticamente los datos mediante el uso de diversas tareas plani%icadas de su sistema. "ediante el uso de #enetl podrá se ha podido recuperar %ácilmente la in%ormación de los archivos de datos planos, la organización y el %iltrado de acuerdo con su dato de tiempo y entidad.
Caa?/2/?a2 B./6 T?.o6oa2$ Fava C update B Postgre=! .-.B 2con el apoyo plpgsql3 "y=! -.G con %unción de *!$HP'I*J$ de inicio de sesión de usuario 2para controlador suministrado3 (on Iindo?s 2se utiliza Ktareas programadasK3 #enetl .C %unciona en !inux. R@;./o2 T?.?o2: e6ecución de Fava 2FJE3 /.C base de datos Postgre=! .- con soporte plpgsql base de datos de "y=! -.G con *!$HP'I*J$ la %unción de inicio de sesión de usuario o el controlador o%icial de "y=! 2no incluido3 Probado en sistemas de G bits E76o: Lombre Etl5oolM $e%inir Lombre, Este nombre es también el nombre de la tabla de Postgre=! o tabla de "y=! donde se almacenan las l0neas de datos. 1n archivo llamado KEtl5ool.batK se creará en la carpeta de origen de datos. • • •
• •
•
• • •
•
•
$ebe presionar enter para validar su nombre Etl5ool, y luego se pueden guardar los parámetros.
APLICACI#N SMBD SELECCIONADO 1> S
!os paquetes, que son las unidades de almacenamiento de estas tareas de migración se pueden guardar en archivos dtsx o en la base de datos en %ormato ;"!. 1na vez implementado el paquete puede ser depurado.
Caa?/2/?a2 SSIS • •
U6/a V2o.: =! erver AB/ )ntegration ervices R@;./o2 T?.?o2$ • • •
•
)nstalar en un equipo de G bits )nstalar en un servidor dedicado para E5! i requiere las caracter0sticas en tiempo de diseo de )ntegration ervices, también debe instalar #usiness )ntelligence $evelopment tudio. i necesita las versiones de A bits de las herramientas y del motor en tiempo de e6ecución de )ntegration ervices para e6ecutar ciertos paquetes en modo de A bits, también debe instalar #usiness )ntelligence $evelopment tudio.
!> ORACLE =AREHOUSE BUILDER$ Es una complete herramienta para todos los aspectos de administración de datos y metadatos. Esta brinda caracter0sticas para asegurar la calidad de datos, que integran el modelado relacional y multidimensional y que permiten la administración de todo el ciclo de vida de datos y metadatos
E./72 ETL O7/o. !a opción empresarial E5! 2Enterprise E5! *ption3 para Iarehouse #uilder es una opción que puede ser adquirida con *racle Iarehouse #uilder como parte de la edición empresarial del motor de base de datos 2*racle $# Enterprise Edition3.
Qigura / *pciones de Iarehouse #uilder. Este resumen e6ecutivo cubre &nicamente la E5! Enterprise *ption como se muestra en la %igura /.
O7?o.2 Aa.8ada2 7aa Caa d Da/o2 En grandes implementaciones, más y más procesos se e6ecutan en paralelo, agotando los recursos debido a las grandes cantidades de datos que participan en la carga. (omo parte de la Enterprise E5! *ption, Iarehouse #uilder permite e6ecutar cargas de datos usando métodos rápidos y e%icientes tales como el *racle $ata Pump y transportable tablespaces. Esta es una aproximación completamente di%erente al movimiento de datos que se realiza por medio de con6untos de datos controlados por el motor de base de datos. !os incrementos en velocidad de carga se deben entonces a la omisión de las capas =! tradicionales.
So7o/ a D.2o.2 L./a./ Caa./2 I./ado En Iarehouse #uilder la lógica de dimensiones lentamente cambiantes es diseada en los metadatos de la dimensión. !a dimensión captura toda la lógica que será aplicada a los datos que se insertan dentro de la misma.
Qigura A. $imensiones !entamente (ambiantes
1na vez, los usuarios de negocio han decidido que atributos son importantes, el modelador de datos disea la dimensión. (on los pasos de E5! el desarrollador ve esta dimensión como cualquier otra. El siguiente paso es de%inir cómo e%ectuar los cambios y actualizaciones en la dimensión. Iarehouse #uilder automatiza esto basado en la
de%inición de la dimensión. !a combinación entre estos pasos, el diseo y la estandarización hacen que los procesos relacionados con dimensiones lentamente cambiantes presente un alto desempeo en su e6ecución.
Ta8a L.a6 d P.?7o a F. !os servicios de administración de dependencias 2Iarehouse #uilder $ependency "anagement 3 le permiten prever el e%ecto que puedan tener los cambios que se hagan en cualquier lugar de los metadatos del sistema E5! antes de que estos puedan a%ectarlo y deterióralo.
Qigura . Propagando cambios en el sistema.
Por primera vez, tendrá la posibilidad de administrar los cambios de su sistema de manera proactiva. (omo un e6emplo 2Qigura 3, usted puede propagar los cambios a través de su sistema haciendo uso el "apping Editor.
Ad.2/a?:. d Co.;a?o.2 Aa.8ada2 5ener que mover sistemas o aplicaciones de un ambiente a otro 2por e6emplo de desarrollo a producción3 es un problema %recuente.
(on la Enterprise E5! *ption de Iarehouse #uilder, es posible generar un modelo para con%igurar los ambientes de desarrollo, pruebas y producción a niveles separados. Para mover los cambios desde el ambiente de desarrollo a producción, el código generado en desarrollo es modi%icado en producción solo en áreas espec0%icas. Por e6emplo, la in%ormación sobre las conexiones es substituida por la de%inida en desarrollo.
VENTAAS, DESVENTAAS, TIEMPOS Y COSTO DE LAS HERRAMIENTAS> T?.?a
D2?7?:.
S.?o.8a?:. d a2 d da/o2
Es una técnica muy utilizada en procesos de migración de datos, consiste en hacer que dos bases de datos sean equivalentes en el mismo tiempo. e logra mediante la copia de datos y metadatos de una base de datos origen a una base de datos destino mediante una herramienta tecnológica. !os asistentes de sincronización de los "#$ son con%igurados con las bases de datos origen y la base de datos destino, parametrizando la ubicación de particiones y métodos de seguridad. Jequerimientos técnicos
S
8enta6as •
=! Estándar
erver •
•
•
•
Es un sistema de gestión de base de datos. Es &til para mane6ar y obtener datos de la red de redes. Los permite olvidarnos de los %icheros que %orman la base de datos. i traba6amos en una red social nos permite agregar otros servidores de =! erver. Por e6emplo, dos personas que traba6an con =! erver, uno de ellos se puede conectar al servidor de su otro compaero y as0 se puede ver las bases de datos del otro compaero con =! erver. =! permite administrar permisos a todo. 5ambién permite que alguien conecte su =!* al nuestro, pero sin embargo podemos decirle que no puede ver esta base de datos, pero otro s0.
$esventa6as •
•
•
•
5iempo
1tiliza mucho la memoria J'" 3 2a.a2> para las instalaciones y emana /: utilización de so%t?are. 'nálisis de Lo se puede utilizar como practicas porque se proh0ben datos muchas cosas, tiene emana A: restricciones en lo particular. y !a relación, calidad y el precio "igración validación de está muy deba6o comparado con in%ormación oracle. 5iene muchos bloqueos a nivel de página, un tamao de página emana : %i6o y demasiado pequeo, una *ptimización pésima implementación de los de proceso tipos de datos variables.
ORACLE =AREHOUSE BUILDER
*racle Estándar
•
•
•
•
•
•
•
*racle es el motor de base de datos ob6eto+ relacional más usado a nivel mundial. Puede e6ecutarse en todas las plata%ormas, desde una Pc hasta un supercomputador. *racle soporta todas las %unciones que se esperan de un servidor KserioK: un lengua6e de diseo de bases de datos muy completo 2P!N=!3 que permite implementar diseos KactivosK, con triggers y procedimientos almacenados, con una integridad re%erencial declarativa bastante potente. Permite el uso de particiones para la me6ora de la e%iciencia, de replicación e incluso ciertas versiones admiten la administración de bases de datos distribuidas. El so%t?are del servidor puede e6ecutarse en multitud de sistemas operativos. Existe incluso una versión personal para Iindo?s x, lo cual es un punto a %avor para los desarrolladores que se llevan traba6o a casa. *racle es la base de datos con más orientación hac0a )L5EJLE5.
•
•
•
!as versiones más recientes de 3 2a.a2> *racle son la //g, /Bg, g, g, desde el lanzamiento original de emana /: de la se sucedieron varias 'nálisis versiones con correcciones, datos hasta alcanzar la estabilidad en la .B.. El motivo de tantos emana A: y %allos %ue, al parecer, la "igración validación de remodelación del sistema de almacenamiento por causa de la in%ormación introducción de extensiones emana : orientadas a ob6etos. El mayor inconveniente de *ptimización *racle es quizás su precio. de proceso )ncluso las licencias de Personal *racle son excesivamente caras, en mi opinión. *tro problema es la necesidad de a6ustes. 1n error %recuente consiste en pensar que basta instalar el *racle en un servidor y enchu%ar directamente las aplicaciones clientes. 1n *racle mal con%igurado puede ser desesperantemente lento. 5ambién es elevado el coste de la in%ormación, y sólo <imamente han comenzado a aparecer buenos libros sobre asuntos técnicos distintos de la simple instalación y administración.
PRECIO LICENCIA S
Ediciones de =! erver AB/ E./72
)deal para...
Jendimiento con%iable y completo para satis%acer los requisitos de base de datos y de #usiness )ntelligence más exigentes. !a edición Enterprise proporciona los niveles de servicio y rendimiento más altos para las cargas de traba6o de nivel /.R B;2.22 1na plata%orma amplia que permite I./66.? a las organizaciones compilar e implementar soluciones de #) seguras, escalables y administrables. Quncionalidad de #usiness S/a.dad )ntelligence y administración de datos básica para cargas de traba6o que no son cr0ticas, con recursos de 5) m0nimos.
D6o7
Precio de *pen L! 21$3
"odelo de licencia
$isponibilidad de canal
Por n&cleoRR
!icencias por volumen, hosting
S/,A-GRRR
ervidor T ('!RRRR
!icencias por volumen, hosting
S,BRRR
Por n&cleoRR
!icencias por volumen, hosting
S,C/CRRR
ervidor T ('!RRRR 8ersión completamente %uncional de Por usuario =! erver que permite a los desarrolladores compilar, probar y demostrar aplicaciones con so%t?are de =! erver de una manera rentable.
!icencias por volumen, S/RRR hosting, minorista 2QPP3 !icencias por volumen, SRRR minorista 2QPP3
PRECIO LICENCIA ORACLE
http:NN???.oracle.comNusNcorporateNpricingNprice+listsNbusiness+intelligence+price+list+ BC/C.pd%
BIBLIOGRAFIA>
http:NNblog.po?erdata.esNel+valor+de+la+gestion+de+datosNbidN-/ANE5!+t+cnicas+de+ migraci+n+y+tipos+de+so%t?are https:NNplatzi.comNblogNque+es+postgresqlN http:NN???.oracle.comNtechnologyNproductsN?arehouseN//gr/NdatasheetsN?arehouse+ builder+//g+etldatasheet.pd%