1
Universidad Nacional José Faustino Sánchez Carrión F acultad de Ingeniería E.A.P. de Ingeniería Informática Ciclo VI Tema: BI (Business Intelligence).
RESUMEN EJECUTIVO La capacidad de observación y análisis de los temas de Minería de Datos y de Modelamiento de datos nos dan como resultados esperados un conglomerado de información necesaria para nuestra formación administrativa y darle las soluciones correspondientes a los problemas que enfrentaremos como ingenieros. Empezamos este resumen con BI (Business Intelligence o inteligencia de Negocios) dentro de lo cual trata sobre el proceso de analizar los bienes o datos acumulados en la empresa y extraer una cierta inteligencia o conocimiento de ellos, la finalidad de ello es de llegar a la obtención de buenas decisiones para el futuro de la empresa. En el segundo capítulo de la presente investigación de Minería de Datos tocamos los temas importantes que debemos tener en cuenta para la buena decisión, decisión, ellos son:
Es la respuesta de la tecnología de información a la descentralización en la toma de decisiones. Coloca información de todas las áreas funcionales de la organización en manos de quien toma las decisiones. También proporciona herramientas para búsqueda y análisis. DataMining: Una actividad de extracción cuyo objetivo es el de descubrir hechos contenidos en las bases de datos. En la mayoría de los casos se refiere a un trabajo automatizado. Como herramienta principal que se utilizan dentro de los programas de gestión del conocimiento como soporte a la toma de decisiones. DataMart: Es el subconjunto de un DataWarehouse con un propósito específico. Para definir como un almacenamiento de información temática orientado a cubrir las necesidades y permiten acceder a la información corporativa para la gestión, control y apoyo a la toma de decisiones. DataWarehouse:
En esta tercera y última parte pa rte tocamos los Modelos de datos que no es más que una colección de datos relacionados, y una descripción de estos datos, diseñados para cumplir con las necesidades de información de una organización. organización.
ESARROLLO
D
EL TEMA
D
1. DEFINICION DE ASPECTO ASPECTOS S TEORICOS TEORICOS a. ¿QUÉ ES BI? BI? Business Intelligence o Inteligencia de Negocios es el proceso por el cual se analizan datos acerca de clientes, productos y el entorno en el cual una empresa funciona para poder obtener 9 de junio de 2011
2
Universidad Nacional José Faustino Sánchez Carrión F acultad de Ingeniería E.A.P. de Ingeniería Informática Ciclo VI Tema: BI (Business Intelligence).
cierto conocimiento acerca de posibles situaciones que pudieran surgir. Al adquirir ese conocimiento, se puede decir que se obtuvo inteligencia acerca de la situación, por lo que ahora esa información es procesada por medio de un sistema computacional que lo almacena como una base de datos. Al estar almacenado dentro de esa base de datos, el proceso ayuda a los tomadores de decisiones con esta toma de las decisiones correctas en el tiempo correcto por medio de la inteligencia que se adquirió con los datos antes mencionados. Esta toma de decisiones ayuda a que se consideren riesgos, ventajas, desventajas, desventajas, oportunidades oportunidades y toda clase c lase de situaciones que puedan afectar directamente a una empresa.
b. ¿PAR PAR A QUÉ BUSINESS INESS INTELLIGENCE? 1. Mejora R entabilidad entabilidad de e-Business Existe software libre para aplicar técnicas de web mining como STstat y Analog, estos mediante su aplicación nos permite obtener información sobre las preferencias de los usuarios tanto para mejorar la rentabilidad del negocio como para dirigir estrategias de infraestructura y mantenimiento. mantenimiento.
2. Atracción, retención de clientes y predicción de Ventas Gracias al análisis predictivo que realizan las plataformas BI podemos atraer nuevos clientes evaluando la posibilidad de cual producto busca el nuevo cliente rentable para la empresa, como así también cuales son los clientes en riesgo de ser perdidos de manera de tomar decisiones proactivas para retenerlos. Con respecto a la maximización de ventas es indiscutible que si la empresa no tiene el producto y o servicio que el cliente busca, el mismo lo encontrara en la competencia. 3
. R educir educir el fraude e identificar los riesgo El análisis de las transacciones de una empresa nos permite comprender fluctuaciones, no solamente calculando promedios, que pueden llevarnos decisiones desacertadas, sino también detección de varianzas que nos permitirían reducir el riesgo al mínimo.
4. Presentar soluciones basadas en el conocimiento del negocio Independientemente de la cantidad de información de la cual se disponga, la mejor forma de interactuar tanto con responsables de la empresa como con los clientes, es la presentación visual, de allí la importancia de la interface gráfica, que debe responder de forma interactiva, presentando como un mapa visual del proceso completo. 9 de junio de 2011
3
Universidad Nacional José Faustino Sánchez Carrión F acultad de Ingeniería E.A.P. de Ingeniería Informática Ciclo VI Tema: BI (Business Intelligence).
c. ¿QUÉ FUNCIONES PUEDE HACER BUSINESS INTELLIGENCE? Si se maneja Business Intelligence dentro de una empresa, con este proceso se pueden generar reportes generales dentro de una empresa, se puede generar una base de datos de clientes, se puede crear un escenario con respecto a una decisión, se pueden hacer pronósticos de ventas, se puede intercambiar información, se pueden realizar análisis multidimensionales, se pueden procesar datos, se puede manipular la estructura en la que se tomen las decisiones, se puede mejorar el servicio al cliente, entre muchas otras funciones más. Todas estas funciones le dan a una empresa la oportunidad de poder acertar con respecto a la situación económica y, sobre todo, la oportunidad de poder tener más confianza a la hora de que las decisiones más importantes sean tomadas.
d. ¿EN QUÉ ÁREAS SE UTILIZA BI? Entre las áreas en las que más comúnmente se utilizan técnicas de Business Intelligence están:
Ventas: Aquí se realizan análisis de ventas, de productos, de líneas, mercados, pronósticos y proyecciones, además de que también se utiliza en la detección de clientes que pueden ser muy importantes. Marketing: Aquí se realizan segmentaciones y análisis de los clientes, además de que se le da seguimiento a los nuevos productos en el mercado. Finanzas: Aquí se realizan los análisis relacionados con los gastos y las razones financieras. Manufactura: Aquí se realizan los análisis de producción, los cuales son de desperdicios, de calidad y de inventarios, además de que se revisa la productividad en líneas. Embarques: Aquí se realizan análisis que dan seguimientos a los embarques y, que en caso de alguna eventualidad, realizan análisis de causas.
e. ¿QUÉ FACTORES INFLUENCIAN EL BI? Entre los distintos factores que influencian lo que es el Business Intelligence están:
Los clientes: son el aspecto más crítico para el éxito de una empresa. Sin los clientes la empresa simplemente fracasaría, ya que no tendría para quién trabajar. El proceso de Business Intelligence permite que se tenga amplio conocimiento acerca de sus preferencias, sus decisiones y sus cambios para que en el momento preciso se pueda establecer una solución que pueda arrojar excelentes resultados a la hora de que se tengan que tomar decisiones importantes.
La competencia: son un aspecto incómodo a la hora de competir. Ellos tienen las mismas metas que la empresa por lo que siempre se debe de estar un paso adelante para poder 9 de junio de 2011
4
Universidad Nacional José Faustino Sánchez Carrión F acultad de Ingeniería E.A.P. de Ingeniería Informática Ciclo VI Tema: BI (Business Intelligence).
triunfar. El proceso de Business Intelligence ayuda a poder estar al tanto de las acciones de todos para poder tomar las decisiones propias de la mejor manera posible en el tiempo correcto.
Los colegas de la empresa: son otro aspecto importante, ya que deben de tener la misma información estratégica, de lo contrario la ineficiencia estará dentro de la empresa. El proceso de Business Intelligence ayuda a que todos los colegas dentro de la empresa puedan estar informados de la misma manera para evitar la ineficiencia antes mencionada.
El ambiente económico: es un aspecto que ayuda a estar al tanto de la situación económica que se vive en cierto momento. El proceso de Business Intelligence ayuda a que se tomen decisiones prudentes y que se evalúen las operaciones que se r ealicen de acuerdo al tiempo que se vive.
Las operaciones internas: es el aspecto que se refiere a cómo funciona la empresa día a día en todas las áreas que incluye. El proceso de Business Intelligence ayuda a que se lleve un registro de la manera en la que funciona la empresa y también ayuda a tener un manejo mucho más sencillo de ésta.
f . ¿Qué beneficios que obtengo al utilizar BI? Business Intelligence es una de las armas más efectivas que se pueden tener cuando se está en un mercado lleno de competencia y en el cual la supervivencia depende de la efectividad que se puede llegar a obtener con el tiempo. Los principales beneficios que puede arrojar Business Intelligence a las empresas que lo utilizan son: la eliminación de pronósticos desatinados o que no posean una base bien fundamentada; el fortalecimiento de la comunicación entre los distintos departamentos mientras coordina las actividades; el dar soporte a las empresas cuando se trata de responder de una manera rápida y eficiente a los cambios financieros, de preferencias de los usuarios o de posibles externalidades; el brindar la oportunidad de elevar el éxito de una empresa completa por medio de las decisiones que se toman; y para concluir, el brindar a la empresa la oportunidad de estar por encima de toda competencia en el mercado.
g. ¿Cuál es el futuro de BI? El futuro de Business Intelligence es muy prometedor, ya que día con día la competencia es más dura y se necesitan de sistemas más avanzados que puedan dar acercamientos más detallados de lo que se debe de hacer. Desde hace algunos años que las tecnologías de información tomaron forma, muchos expertos ya no definen este proceso como Business
9 de junio de 2011
5
Universidad Nacional José Faustino Sánchez Carrión F acultad de Ingeniería E.A.P. de Ingeniería Informática Ciclo VI Tema: BI (Business Intelligence).
Intelligence, sino como Business Performance Management. En este nuevo término, ahora se define como todos los procesos de una empresa que ayudan a optimizar todos sus recursos, sean materiales, humanos o financieros, y poder adaptar cualquier proceso de la mejor manera posible para poder obtener los mejores resultados. Dentro de la pirámide de organización del BPM, se puede observar que el proceso es iterativo y que comienza su etapa en el nivel táctico para después pasarse al operacional, el cual conlleva al sistema de información, que es el que divide los datos hacia el nivel estratégico o hacia los valores para los indicadores. Si se llegó al nivel estratégico, este manda los valores a los indicadores, los cuales son los que vuelven a comenzar el proceso iterativo por medio del intercambio de la información con los niveles táctico y operacional. Se espera que Business Intelligence evolucione de cierta manera que en el futuro sea una necesidad de toda empresa y que la misma competencia haga que se creen las herramientas de Business Intelligence más sofisticadas que jamás se hayan creado.
2. Minería de Datos Una
definición de Minería de Datos es ³el descubrimiento eficiente de información valiosa, noobvia de una gran colección de datos´, cuyo objetivo ³es ayudar a buscar situaciones interesantes con los criterios correctos, complementar una labor que hasta ahora se ha considerado ³intelectual´ y de alto nivel, privativa de los gerentes, planificadores y administradores. Además, de realizar la búsqueda fuera de horas pico, usando tiempos de máquina excedentes´. La utilidad de la Minería de Datos ya no se pone a discusión, por lo cual está tecnología está siendo aplicada por muchas herramientas de software. Las técnicas de aplicación varían de acuerdo a la herramienta, algunas la instrumentan haciendo uso de redes neuronales (SPSS Neural Connection), otras con generación de reglas (Data Logic) o Arboles de Decisión. En puede verse una clasificación de las herramientas para desarrollar minería, de acuerdo a su técnica de aplicación. La Minería de Datos se realiza utilizando la técnica que construye cubos de n-dimensiones, conocida como generalización y sumarización en cubos de datos, técnica implantada en una base de datos relacional. La generalización de los datos se puede desarrollar en los niveles que se considere necesario usar y así realizar análisis a diferentes niveles de conceptos. En los cubos formados, la herramienta permite definir regiones de interés en las cuales se buscan patrones de comportamiento, al término de la ejecución de las búsquedas los resultados se muestran en reportes de tipo texto y gráficas.
9 de junio de 2011
6
Universidad Nacional José Faustino Sánchez Carrión F acultad de Ingeniería E.A.P. de Ingeniería Informática Ciclo VI Tema: BI (Business Intelligence).
Descripción
del Proceso de Minería
La herramienta desarrollada, se llama Módulo Minería de Datos y tiene el modelo de trabajo Cliente/Servidor, donde, se distinguen 4 actividades principales:
Definición del cubo y configuración de los niveles de búsqueda.
R ealizar solicitudes de
El proceso principal de minería; generación de la región y búsqueda de un patrón
minería, en una estación de trabajo o cliente
determinado, en el Servidor
La visualización de resultados de la búsqueda en el Cliente.
Para realizar la minería con el módulo, se siguen los pasos:
Definir el cubo de datos o espacio de búsqueda de mineros
Generalización o definición de los niveles de búsqueda en cada una de las dimensiones del cubo
Generar los datos y cargar el cubo de datos
Definir los horarios de trabajo de los procesos de minería
Generar las preguntas (definir región y patrón a buscar)
Solicitar ejecución del proceso de extracción y análisis.
Ejecución de la extracción de la región solicitada y la búsqueda del patrón
R evisar e Interpretar
los resultados
2.1. ¿Qué es DataWarehouse? Es un proceso, no un producto. Es una técnica para consolidar y administrar datos de variadas fuentes con el propósito de responder preguntas de negocios y tomar decisiones, de una forma que no era posible hasta ahora. Desde el punto de vista de la construcción de un DataWarehouse, podemos decir que es una colección de base de datos integrados, no volátil que ayuda a la toma de decisiones donde cada unidad de datos es relevante en un momento de tiempo. 9 de junio de 2011
7
Universidad Nacional José Faustino Sánchez Carrión F acultad de Ingeniería E.A.P. de Ingeniería Informática Ciclo VI Tema: BI (Business Intelligence).
2.1.1. ¿Qué elementos lo componen? Vista
la definición anterior, para hablar de un DataWarehouse en sentido estricto, estaríamos ante un sistema que conjugara como mínimo los siguientes elementos:
a. Archivos de Bases de datos residentes en el sistema que soporta la gestión de la compañía, o procedentes de fuentes externas a la empresa. Pueden ser tanto los provenientes de un mainframe que soporte un esquema de transacciones en línea, como los datos externos adquiridos por un departamento de Marketing, etc.
b. Herramientas que efectúen las labores de extracción de datos desde las fuentes y ayuden a su transformación y reorganización, como pasos previos a su depósito en el ³repositorio´ o ³Target´, que, para entendernos, será el almacén donde se vuelquen los datos una vez preparados.
c. Un repositorio de datos sobre un servidor, entendiendo por tal no una determinada arquitectura de máquina, sino simplemente un ordenador que maneje una base de datos, y que sea capaz de poner los datos a disposición de las personas que posteriormente los analizan. Si habláramos de modelo cliente-servidor, sería el ³Back-end´ o parte trasera de la aplicación.
d. Herramientas Front-End, utilizadas por los profesionales en negocios, para el acceso y análisis de los datos. Habitualmente, muy sencillas de operar por los usuarios de negocio, y desarrolladas en entorno gráfico. Para una gran mayoría de potenciales usuarios estaríamos hablando de algo tan sencillo como Microsoft Excel y sus Tablas Dinámicas.
2.1.2. ¿Qué aportan? En una época donde comenzamos a considerar que una de las principales ventajas competitivas puede estar en el manejo eficiente de la información, la respuesta es sencilla: aportan facilidad e inmediatez en el manejo de la información por parte de quien realmente la necesita, que es el ejecutivo que debe tomar las decisiones. Cuando un sistema de este tipo está correctamente diseñado, no hay necesidad de reuniones con el Director de Sistemas de Información para solicitarle una información que nunca estuvo prevista, que colapsará a su personal, y que llegará, en el mejor de los casos, varios días después de haber sido solicitada.
9 de junio de 2011
8
Universidad Nacional José Faustino Sánchez Carrión F acultad de Ingeniería E.A.P. de Ingeniería Informática Ciclo VI Tema: BI (Business Intelligence).
2.1.3. ¿Qué precauciones tomar? Para seleccionar adecuadamente las herramientas de soporte y automatizar los procesos del sistema, deberemos tener en cuenta como mínimo que: y y
y
El volumen de información procesada crecerá constantemente. Deberemos tener prevista la incorporación de nuevos datos y la absorción de los posibles cambios en los datos fuentes. Debemos implementar el sistema sobre tecnologías abiertas y motores de bases de datos relacionales, aun cuando las fuentes no lo sean.
Cumpliendo con estas mínimas precauciones estaremos mucho más cerca de un sistema ideal, que será: y y y
Escalable y capaz de absorber crecimientos en la información. De fácil acceso por los usuarios, y flexible en sus respuestas. Que no interfiere en los procesos transaccionales que soportan el negocio.
2.1.4. ¿Cómo se construye un DataWarehouse? El Proceso de arquitectura de un DataWarehouse puede ser vista como un proceso de cuatro pasos: -Fuentes (Externas/Internas) -Extracción (Monitor) -Integrador -DW El proceso de construcción es el encargado de llevar la información de las fuentes de DataWarehouse. La extracción lo que hace es recuperar los datos de las fuentes, el extractor es un componente de software que traduce datos del formato de las fuentes a un formato arbitrario, así es que el extractor limpia los datos y los escribe en formatos específicos del DataWarehouse. La integración tiene como objetivo, integrar los datos provenientes de múltiples fuentes para finalmente integrarlos en el DataWarehouse.
2.2. ¿Qué es DataMining? El DataMining es una de las principales herramientas que se utilizan dentro de los programas de gestión del conocimiento como soporte a la toma de decisiones. El fin es la extracción de información oculta o análisis de datos mediante técnicas estadísticas de grandes bases de datos. Las herramientas de DataMining o minería de datos pueden responder a preguntas de negocios empresariales a priori no planteadas o que pueden consumir demasiado tiempo para ser resueltas. Los programas de gestión del conocimiento se complementan con distintas herramientas además del DataMining, como puede ser el datawarehousing o el groupware. El DataMining, como
9 de junio de 2011
9
Universidad Nacional José Faustino Sánchez Carrión F acultad de Ingeniería E.A.P. de Ingeniería Informática Ciclo VI Tema: BI (Business Intelligence).
herramienta de búsqueda de información, se utiliza como sistema de apoyo a la toma de decisiones de las altas direcciones de las empresas. Las técnicas de DataMining se centran en analizar el gran volumen de datos, que en una primera selección pueden ser pertinentes, pero que la aplicación de técnicas de selección ceñida a unas determinadas demanda, reduce el tamaño de los datos eligiendo las variables más influyentes en el problema.
En definitiva, la minería de datos es una tecnología usada para descubrir información oculta y desconocida, pero potencialmente útil, a partir de las fuentes de información de la propia empresa. Obtiene un conocimiento de un negocio, utilizando técnicas de clustering, redes neuronales, árboles de decisión y reglas de asociación etc.
2.2.1.
¿Cómo funciona el DataMining?
La técnica usada para realizar estas hazañas en DataMining se llama Modelado. Modelado es simplemente el acto de construir un modelo en una situación donde usted conoce la respuesta y luego la aplica en otra situación de la cual desconoce la respuesta. Este acto de construcción de un modelo es algo que la gente ha estado haciendo desde hace mucho tiempo, seguramente desde antes del auge de las computadoras y de la tecnología de DataMining. Lo que ocurre en las computadoras, no es muy diferente de la manera en que la gente construye modelos. Las computadoras son cargadas con mucha información acerca de una variedad de situaciones donde una respuesta es conocida y luego el software de DataMining en la computadora debe correr a través de los datos y distinguir las características de los datos que llevarán al modelo. Una vez que el modelo se construyó, puede ser usado en situaciones similares donde usted no conoce la respuesta.
2.2.2. ¿Qué servicio nos brinda? Algunas posibilidades que ofrecen estas herramientas son:
Predicción automatizada de tendencias y comportamientos.
Descubrimiento automatizado de modelos desconocidos. Descubrimiento de anomalías y acciones fraudulentas por parte de clientes.
2.2.3. La Utilidad De DataMining Se Puede Dar Dentro De Los Siguientes Aspectos: y
Sistemas parcialmente desconocidos: Si el modelo del sistema que produce los datos es bien conocido, entonces no necesitamos de la minería de datos ya que todas las variables son de alguna manera predecibles.
y
Este no es el caso del comercio electrónico, debido a los efectos del comportamiento humano, el clima y de decisiones políticas entre otros. En estos casos habrá una parte del sistema que es conocida y habrá una parte aparentemente de naturaleza aleatoria.
9 de junio de 2011
10
Universidad Nacional José Faustino Sánchez Carrión F acultad de Ingeniería E.A.P. de Ingeniería Informática Ciclo VI Tema: BI (Business Intelligence).
Bajo ciertas circunstancias, a partir de una gran cantidad de datos asociada con el sistema, existe la posibilidad de encontrar nuevos aspectos previamente desconocidos del modelo. y
Enorme cantidad de datos: Al contar con mucha información en algunas bases de datos es importante para una empresa encontrar la forma de analizar "montañas" de información (lo que para un humano sería imposible) y que ello le produzca algún tipo de beneficio.
y
Potente hardware y software: Muchas de las herramientas presentes en la minería de datos están basadas en el uso intensivo de la computación, en consecuencia, un equipo conveniente y un software eficiente, con el cual cuente una compañía, aumentará el desempeño del proceso de buscar y analizar información, el cual a veces debe vérselas con producciones de datos del orden de los G bytes/hora ( repetimos, algo humanamente imposible).
y
Por ejemplo, las técnicas de DataMining son utilizadas habitualmente para el análisis y explotación de datos de un Data Warehouse. El uso del Data Mining puede ser provechoso en el caso de poseer un Data Warehouse que contenga datos sobre sus procesos productivos, datos de seguimiento de clientes, datos externos de mercado, datos sobre la actividad de competidores, etc.
2.3. ¿Qué es DataMart? Un DataMart es
generalmente, un subconjunto de un DataWarehouse con un propósito específico. Por ejemplo, puede que tengamos un subconjunto financiero y un subconjunto de marketing, cada uno de ellos diseñado para surtir de información a una determinada parte de un negocio corporativo.
R AZONES PAR A CREAR UN DATA MART y y
Fácil acceso a los datos que se necesitan frecuentemente. Crea vista colectiva para grupo de usuarios. 9 de junio de 2011
11
Universidad Nacional José Faustino Sánchez Carrión F acultad de Ingeniería E.A.P. de Ingeniería Informática Ciclo VI Tema: BI (Business Intelligence).
y y y y
Mejora el tiempo de respuesta del usuario final. Facilidad de creación. Costo inferior al de la aplicación de un completo almacén de datos. Los usuarios potenciales son más claramente identificables que en un almacén de datos completo.
DEPENDENCIA DE UN DATA MART Según la tendencia marcada por Inmon sobre los data Warehouse, una data Mart dependiente es un subconjunto lógico (vista) o un subconjunto físico (extracto) de un almacén de datos más grande, que se ha aislado por alguna de las siguientes razones: y
Se necesita para un esquema o modelo de datos espacial (por ejemplo, para reestructurar los datos para alguna herramienta OLAP).
y
Prestaciones: Para descargar el data Mart a un ordenador independiente para mejorar la eficiencia o para obviar las necesidades de gestionar todo el volumen del data Warehouse centralizado.
y
Seguridad: Para separar un subconjunto de datos de forma selectiva a los que queremos permitir o restringir el acceso.
y
Conveniencia: la de poder pasar por alto las autorizaciones y requerimientos necesarios para poder incorporar una nueva aplicación en el Data Warehouse principal de la Empresa.
y
Demostración sobre el terreno: para demostrar la viabilidad y el potencial de una aplicación antes de migrarla al Data Warehouse de la Empresa.
y
Política: Cuando se decide una estrategia para las TI (Tecnologías de la información) en situaciones en las que un grupo de usuarios tiene más influencia, para determinar si se financia dicha estrategia o descubrir si ésta no sería buena para el almacén de datos centralizado.
y
Política: Estrategia para los consumidores de los datos en situaciones en las que un equipo de almacén de datos no está en condiciones de crear un almacén de datos utilizable.
Según la escuela Inmon de data Warehouse, entre las pérdidas inherentes al uso de data marts están la escalabilidad limitada, la duplicación de datos, la inconsistencia de los datos con respecto a otros almacenes de información y la incapacidad para aprovechar las fuentes de datos de la empresa. Así y todas estas herramientas son de gran importancia.
CONCEPTOS ERRÓNEOS DE LOS DATA MARTS Al hablar de los data marts, es inevitable la comparación con los data Warehouse y al final se acaba diciendo (o entendiendo) que son como estos, pero en pequeño, y en cierto modo esto es así,
9 de junio de 2011
12
Universidad Nacional José Faustino Sánchez Carrión F acultad de Ingeniería E.A.P. de Ingeniería Informática Ciclo VI Tema: BI (Business Intelligence).
pero esta idea suele hacer caer en los siguientes errores sobre la implementación y funcionamiento de los data marts: y
Son más simples de implementar que un Data Warehouse: FALSO, la implementación es muy similar, ya que debe proporcionar las mismas funcionalidades.
y
Son pequeños conjuntos de datos y, en consecuencia, tienen menor necesidad de recursos FALSO, una aplicación corriendo sobre una data Mart necesita los mismos recursos que si corriera sobre una data Warehouse.
y
Las consultas son más rápidas, dado el menor volumen de datos: FALSO, el menor volumen de datos se debe a que no se tienen todos los datos de toda la empresa, pero si se tienen todos los datos de un determinado sector de la empresa, por lo que una consulta sobre dicho sector tarda lo mismo si se hace sobre el data Mart que si se hace sobre el data Warehouse.
y
En algunos casos añade tiempo al proceso de actualización: FALSO, actualizar el data Mart desde el data Warehouse cuesta menos (ya que los formatos de los datos son o suelen ser idénticos) que actualizar el data Warehouse desde sus fuentes de datos primarias, donde es necesario realizar operaciones de transformación.
2.3. 1. ¿Cuáles son los componentes? Una vez analizado como aparece el concepto de DataMart y aclarado que este requiere una
arquitectura específica, por lo que vamos a analizar los distintos componentes que lo forman.
a. Escenario y Método Para implantar con éxito un DataMart (a partir de ahora DM), se precisa el uso de un escenario contrastado (un anteproyecto). Nadie construiría un edificio sin el correspondiente anteproyecto; el mismo principio se aplica al DM. Se necesita un escenario cuidadosamente seleccionado que incluya tres etapas básicas que se describen a continuación:
y
Planificación: Los servicios de rastreo de la información identifican los problemas de la organización que han de resolverse y facilitan así un proceso estructurado, que es la primera etapa crítica del proyecto. Nótese que se trata de servicios organizados por
9 de junio de 2011
13
Universidad Nacional José Faustino Sánchez Carrión F acultad de Ingeniería E.A.P. de Ingeniería Informática Ciclo VI Tema: BI (Business Intelligence).
áreas normalmente independientes y que pueden actuar de forma secuencial o concurrente. y
Diseño e implantación: La idoneidad de una solución DM representa un punto de entrada y debe asegurarse para cuando los desarrolladores del DM están preparados para realizar el primer proyecto y siempre que se inicien proyectos adicionales como consecuencia del crecimiento. Proporciona un análisis comprensivo del entorno actual de la empresa.
y
Se trata de evaluar la efectividad de la solución en este entorno: investiga los elementos precisos para soportar la implantación con inclusión de la idoneidad de los datos, la idoneidad de la tecnología, la idoneidad funcional, la idoneidad del soporte de las infraestructuras. Esta etapa pretende proteger a la empresa contra el intento de implantar soluciones para las cuales no está preparada o que puedan influir en otras áreas funcionales no incluidas en el plan. Las evaluaciones citadas deberían ser la base de ajustes en los planes de implantación.
Soporte y mejora: bajo este epígrafe se incluyen los procesos complementarios, operativos y de valor añadido que soportan el servicio y el mantenimiento del DM. Sirven para varios objetivos:
y
Soporte del funcionamiento diario del DM, con aseguramiento de la disponibilidad y del servicio continúo. Asistencia en la difusión del uso de la solución DM.
Expansión del sistema: con nuevas aplicaciones, con nuevos usuarios o con nuevos datos; mediante incrementos en el uso del DM a consecuencia del aprendizaje de los usuarios. y
y
Un
R elanzamiento
del proyecto a niveles ejecutivos de la empresa, al socaire de la aceptación del DM o por efecto de la contratación de necesidades (o de aplicaciones) adicionales. Ayuda a mantener el sistema al día con soporte mejor a las decisiones de la empresa, todo ello en un entorno planificado y controlado para producir valor añadido.
método DM debe cubrir las tres etapas mencionadas. La creación de un DM es interactiva, por lo
que la multiplicidad de los puntos de entrada soportados por el método resulta crítica. El uso de un método contrastado, junto a la colaboración entre profesionales informáticos y usuarios finales, mejora las perspectivas de construir con éxito el sistema.
9 de junio de 2011
14
Universidad Nacional José Faustino Sánchez Carrión F acultad de Ingeniería E.A.P. de Ingeniería Informática Ciclo VI Tema: BI (Business Intelligence).
3.
Modelo De Datos Hablar
del concepto lógico o físico de Base de Datos involucra un conjunto de pensamientos
concretos que hacen posible la absorción temática del significado de los datos. La abstracción de los datos como una forma o un comportamiento que hace posible concretar un ³algo´, se asocia con un esquema del conocimiento lógico, su semántica, condiciones y acciones, que permiten la producción de modelos por medio de los cuales se representa la funcionalidad de un sistema.
Modelo: Es una representación de la realidad que contiene las características generales de algo que se va a realizar. En base de datos, esta representación la elaboramos de forma gráfica. Inicialmente el "dato" fue trabajado desde la óptica pura de su almacenamiento a través Dato: de los "Sistemas de Archivos"; donde cada uno de los archivos que se creaban solo obedecía a una necesidad de almacenamiento más que a la utilización funcional del dato. Por este motivo surgen los esquemas conceptuales que son elaborados a través del análisis de procesos de las áreas del negocio, los cuales involucran al "dato" como una consecuencia lógica funcional de ellos. Los modelos de datos, también llamados Modelos Lógicos se dividen en tres grupos debido al tratamiento de los datos:
Modelos lógicos basados en objetos. Modelos lógicos basados en registros. Modelos físicos de datos.
.1. Modelos Lógicos Basados En Objetos
3
Un
problema de la vida real maneja concepciones abstractas o concretas, tangibles o
intangibles, a las cuales se les ha dado el nombre de "objetos", calificados a partir de un valor significativo dentro de los parámetros de una forma o estilo de vida; dichos objetos se modelan a través de propuestas que fueron estructuradas para así poder estandarizar la forma de manipularlos. Los Modelos Lógicos Basados en Objetos se usan para describir datos en los niveles conceptual y de visión, es decir, con este modelo representamos los datos de tal forma como nosotros los captamos en el mundo real, tienen una capacidad de estructuración bastante flexible y permiten especificar restricciones de datos explícitamente. Su característica principal es que permiten definir en forma detallada las limitantes de los datos. Dentro de estos modelos tenemos:
Modelo Entidad R elación. (M. E-R )
9 de junio de 2011
15
Universidad Nacional José Faustino Sánchez Carrión F acultad de Ingeniería E.A.P. de Ingeniería Informática Ciclo VI Tema: BI (Business Intelligence).
Modelo Binario u Orientado a Objetos (MOO)
Modelo Semántico de los Datos
Modelo Infológico o Deductivo
.1.1. Modelo Entidad R elación
3
Este modelo representa a la realidad a través de entidades, que son objetos que existen y que se distinguen de otros por sus características, por ejemplo: un alumno se distingue de otro por sus características particulares como lo es el nombre, o el numero de control asignado al entrar a una institución educativa, así mismo, un empleado, una materia, etc. Las entidades pueden ser de dos tipos: o
Tangibles: Son todos aquellos objetos físicos que podemos ver, tocar o sentir.
o
Intangibles: Todos aquellos eventos u objetos conceptuales que no podemos ver, aun sabiendo que existen, por ejemplo: la entidad materia, sabemos que existe, sin embargo, no la podemos visualizar o tocar.
Las características de las entidades en base de datos se llaman
atributos,
por ejemplo el nombre,
dirección teléfono, grado, grupo, etc. son atributos de la entidad alumno; Clave, número de seguro social, departamento, etc., son atributos de la entidad empleado. A su vez una entidad se puede asociar o relacionar con más entidades a través de relaciones. Para describir como se representa un modelo ER gráficamente,
la representación es muy sencilla, se emplean símbolos, los cuales son: Símbolo
R epresenta
9 de junio de 2011
16
Universidad Nacional José Faustino Sánchez Carrión F acultad de Ingeniería E.A.P. de Ingeniería Informática Ciclo VI Tema: BI (Business Intelligence).
.2. Modelos Lógicos Basados En R egistros
3
Otra forma de tratar lógicamente la información suministrada por un sistema es a través de los "R egistros", originalmente concebidos por los sistemas de archivos (registro: conjunto de campos que almacenan información de diferentes tipos). Se utilizan para describir datos en los niveles conceptual y físico. Estos modelos utilizan registros e instancias para representar la realidad, así como las relaciones que existen entre estos registros (ligas) o apuntadores. A diferencia de los modelos de datos basados en objetos, se usan para especificar la estructura lógica global de la base de datos y para proporcionar una descripción a nivel más alto de la implementación. Sus características principales son que permiten una descripción más amplia de la implantación, pero no son capaces de especificar con claridad las limitantes de los datos. Los tres modelos de datos más ampliamente aceptados son:
Modelo R elacional (MR): Los datos y las relaciones se representan mediante tablas, cada una con diferentes columnas y nombres únicos. En este modelo se representan los datos y las relaciones entre estos, a través de una colección de tablas, en las cuales los renglones equivalen a los cada uno de los registros que contendrá la base de datos y las columnas corresponden a las características (atributos) de cada registro localizado.
. . Modelos Físicos De Datos
33
Describen los datos en el nivel más bajo y permiten identificar algunos detalles de implantación para el manejo del hardware de almacenamiento. Ejemplos de este tipo de modelos son:
9 de junio de 2011
17
Universidad Nacional José Faustino Sánchez Carrión F acultad de Ingeniería E.A.P. de Ingeniería Informática Ciclo VI Tema: BI (Business Intelligence).
-
Modelo unificador
-
Modelo memoria de cuadros
Se usan para describir a los datos en el nivel más bajo, aunque existen muy pocos modelos de este tipo, básicamente capturan aspectos de la implementación de los sistemas de base de datos. Existen dos clasificaciones de este tipo que son: -
Modelo unificador
-
Memoria de elementos.
Al modelar es importante conocer muy bien la semántica de estos modelos y lo que es posible lograr con ellos. En la Ingeniería Informática, el tratamiento de los datos. Las Bases de Datos dentro del ciclo de vida de un proyecto informático, están ubicadas dentro del proceso del Diseño, "el CÓMO", estructurar
la
funcionalidad
Expuesta
en
los
requerimientos.
CONCLUSIONES 9 de junio de 2011
18
Universidad Nacional José Faustino Sánchez Carrión F acultad de Ingeniería E.A.P. de Ingeniería Informática Ciclo VI Tema: BI (Business Intelligence).
El equipo siguientes tratados:
de trabajo conclusiones
llega a las de los temas
1. En
primer instancia concluimos sobre el tema de minería de datos, este contiene un montón de información de cómo lograr el manejo de decisiones a niveles que conlleven a tener el menor riesgo posible, al momento de dirigir el destino de la empresa, la metodología no nos afirma que sea efectivo en un cien por ciento para tomar la decisión correcta.
2. En
segunda instancia concluimos que los modelos de datos van de la mano con el análisis del negocio, y propiamente con el diseño de la base de datos, estos son requeridos como métodos que hace posible todo el armado y puesto a disponibilidad para su utilización en un sistema de software predestinado para ese fin.
3. En
tercera instancia concluimos también que el BI o llamado inteligencia de negocios, es una estrategia que nos permite obtener resultados estupendos al momento de dar un paso como empresa, esto nos conlleva a una batalla contra la competencia en la cual el que tiene la mejor decisión es el vencedor del mercado.
4. Y
por ultimo también concluimos que a hoy en día existen muchos modeladores de datos, base de datos, administradores de base de datos, etc. Que hacen posible que nuestra base de datos y la decisión se relaciones a través de los cubos OLAP.
RECOMEN DACIONES 9 de junio de 2011
19
Universidad Nacional José Faustino Sánchez Carrión F acultad de Ingeniería E.A.P. de Ingeniería Informática Ciclo VI Tema: BI (Business Intelligence).
1. Las
recomendaciones del caso es que como equipo integrador definamos en que caso se debe usar el DataMart y en qué casos el DataWarehouse, ya que ambos contienen características parecidas y en una empresa de mediana pequeña envergadura podemos decidir mal.
2. De otra manera debemos tener presente que en la empresa que se trate de utilizar la inteligencia de negocios, se la prepare con capacitaciones constantes que mejoren el nivel de administración de recursos y gerencia de toda la entidad o empresa. 3. Y por ultimo debemos estar preparados para las decisiones sobre todo ante los resultados inesperados que surgen e interfieren en la evolución de cualquier empresa.
I LIOGRAFIA
B B
9 de junio de 2011
20
Universidad Nacional José Faustino Sánchez Carrión F acultad de Ingeniería E.A.P. de Ingeniería Informática Ciclo VI Tema: BI (Business Intelligence).
ikipedia
Encyclopedia."
"W
ikipedia.
usiness
Intelligence.
Oct
2006
B
22
W
.
Microsoft."
usiness
"
Intelligence.
B
Microsoft.
10
Jan
22
2006. Oct
2006
.
Sánchez Montoya, Ricardo. "Monografías." Inteligencia de
Negocios
I). (
ITESM.
B
22
Oct
2006
.
Golfarelli, Matteo. "ACM Digital Library." usiness Intelligence?.
B
iblioteca
B
D
hat's Next In
W
igital del Tecnológico
de Monterrey. 22 Oct 2006 . http://www.itlp.edu.mx/publica/tutoriales/basedat2/huno1_3 .htm http://www.unalmed.edu.co/~mstabare/bases_de_datos.htm http://www.itlp.edu.mx/publica/tutoriales/basedat1/tema1_4 .htm
ANEXOS Inicialmente nosotros debemos tener una base de
datos preparada la cual contenga lo que queremos gestionar y modelar lo mejor posible.
9 de junio de 2011
21
Universidad Nacional José Faustino Sánchez Carrión F acultad de Ingeniería E.A.P. de Ingeniería Informática Ciclo VI Tema: BI (Business Intelligence).
Para iniciar un cubo OLAP primero tenemos que
definir un nuevo reporte para mostrar nuestros datos almacenados en la base de datos.
En segundo paso creamos un paquete de datos para poder hacer la conexión con la base de datos que previamente tenemos hecha.
Seleccionamos el controlador JDBC para hacer la conexión.
9 de junio de 2011
22
Universidad Nacional José Faustino Sánchez Carrión F acultad de Ingeniería E.A.P. de Ingeniería Informática Ciclo VI Tema: BI (Business Intelligence).
Seleccionamos el controlador de mysql correspondiente para hallar la base de datos dentro.
Por último rellenamos todos los campos que nos piden y probamos las conexión.
9 de junio de 2011
23
Universidad Nacional José Faustino Sánchez Carrión F acultad de Ingeniería E.A.P. de Ingeniería Informática Ciclo VI Tema: BI (Business Intelligence).
Luego creamos un data set o conjunto de datos aquí es donde aplicamos la gestión del cube.
Posteriormente creamos un query o consulta para programar o gestionar dentro del que queremos que se visualice en nuestro reporte.
9 de junio de 2011
24
Universidad Nacional José Faustino Sánchez Carrión F acultad de Ingeniería E.A.P. de Ingeniería Informática Ciclo VI Tema: BI (Business Intelligence).
Luego creamos un cubo de datos dentro del cual modelaremos como se muestra a continuación.
9 de junio de 2011
25
Universidad Nacional José Faustino Sánchez Carrión F acultad de Ingeniería E.A.P. de Ingeniería Informática Ciclo VI Tema: BI (Business Intelligence).
9 de junio de 2011
26
Universidad Nacional José Faustino Sánchez Carrión F acultad de Ingeniería E.A.P. de Ingeniería Informática Ciclo VI Tema: BI (Business Intelligence).
Luego de pasar datos a el formulario se procede a ejecutar para visualizar el reporte, todo ello se puede ver e impresar en diferentes formatos existentes.
Ese es el termino final llamado reporte.
INDICE 9 de junio de 2011
27
Universidad Nacional José Faustino Sánchez Carrión F acultad de Ingeniería E.A.P. de Ingeniería Informática Ciclo VI Tema: BI (Business Intelligence).
I.- RESUMEN EJECUTIVO II.- DESARROLLO DEL TEMA
1.- DEFINICIÓN DE ASPECTO TEÓRICOS - Business Intelligence 2.-
MINERÍA DE DATOS 2.1.- DataWarehouse 2.2.- DataMining 2.3.- DataMart
3.- MODELO DE DATOS 3.1. Modelos Lógicos Basados En Objetos 3.1.1. Modelo Entidad Relación 3.2. Modelos Lógicos Basados En Registros 3.3. Modelos Físicos De Datos
4.- EJEMPLOS DE CONSULTAS GENERALES
III.-CONCLUSIONES IV.- RECOMENDACIONES V.- BIBLIOGRAFIA VI.- ANEXOS
9 de junio de 2011