UNIVERSIDAD ANDINA DEL CUSCO FACULTAD DE INGENIERÍA
Carrera PROFESIONAL DE INGENIERÍA DE SISTEMAS TEMA
Data Mining CURSO
: Programación Avanzada
DOCENTE
: Ing. Américo Estrada Sánchez
ALUMNO
:
Cesar Jordano Moscoso Moscoso Yarín
CUSCO 2014
Página 1 de 10
Indice Indice
2
Introducción
3
Desarrollo
4
¿Qué es Data Mining?
4
¿Qué tipos de Datos pueden ser explotados?
4
Datos de una Base de Datos
4
Data WareHouse
5
Transaccional Data
5
¿Que clase de patrones pueden ser explotados?
5
Técnicas que utiliza el Data Mining
6
Estadística
6
Machine Learning
6
Recuperación de Informacion
6
Sectores de Aplicación
7
Inteligencia de Negocios
7
Motores de búsqueda web
7
Principales Problemas
8
Interacción del Usuario
8
Eficiencia y Escalabilidad
8
Impacto en la Sociedad
8
Conclusiones Bibliografía
9 10
Página 2 de 10
Introducción
En los últimos años se han acumulado enormes cantidades de datos en todas las organizaciones, y esta tendencia continúa a un ritmo acelerado. Esto es posible por el amplio uso de los sistemas computarizados, nuevas técnicas de captura de datos, el empleo de códigos de barra, los lectores de caracteres ópticos, las tarjetas magnéticas, entre otros, y por el avance en la tecnología de almacenamiento y su consiguiente reducción de costos. La disponibilidad de esos datos es un importante activo para cualquier organización, en la medida en que puedan ser transformados en información de interés, utilizando técnicas y métodos de Data Mining. El crecimiento explosivo de las bases de datos, de Internet y el empleo de técnicas y herramientas (que en forma automática y eficiente, generan información a partir de los datos almacenados), permiten descubrir patrones, relaciones y formular modelos. En particular, estas técnicas han adquirido enorme importancia en áreas tales como estrategias de marketing, soporte de decisiones, planeamiento financiero, análisis de datos científicos, bioinformática, análisis de textos y de datos de la web.
Página 3 de 10
Desarrollo ¿Qué es Data Mining?
Data mining al ser un termino que engloba varias disciplinas puede ser de varias maneras. También puede entenderse generalmente como el proceso de extraer oro de una mina o un conjunto de rocas. Data mining es un paso esencial en el proceso de descubrimiento de conocimiento, este proceso general costa de varios pasos que interactúan con Data Mining. Entonces se puede decir que Data minina es el proceso de descubrir patrones importantes y conocimiento de una gran cantidad de datos. Los recursos que proveen estos datos pueden incluir bases de datos, data warehouses, la web y otros centros de informacion o datos que pueden ser transferidos a un sistema automáticamente.
¿Qué tipos de Datos pueden ser explotados?
Como una tecnología general, data minino puede ser aplicada a cualquier clases de data tanto como sea útil para una aplicación destino. La forma mas básica de aplicación de Data Mining es a las bases de datos, Data Wareohuse y datos de transacciones. También puede ser aplicado a secuencias de datos, gráficos o de red, datos espaciales, datos de texto, multimedia, etc Datos de una Base de Datos
Consiste en una colección de datos interrelacionados y un conjunto de programabas para administrar y acceder a estos datos.Una base de datos relacional es un conjunto de tablas que tienen asignado un único nombre. Un Modelo de datos es una estructura construida para representar a una base de datos como un conjunto de entidades y relaciones. Cuando se utiliza Data Mining en bases de datos relacionados se puede buscar por tendencias y patrones de datos. También en los sistemas que utilizan Data Mining se puede detectar desviaciones en los datos para que sean investigadas. Las bases de datos relacionases son una de las más comunes fuentes de información disponibles y ricas además forman el objetivo principal del Data Mining.
Página 4 de 10
Data WareHouse
Data Warehouse es un repositorio de informacion recolectada de múltiples fuentes, almacenada bajo un sistema de esquema y usualmente rediseñado para un solo lugar. Data warehouses son construidos por procesos de limpieza,integración, transformación, procesamiento y un mantenimiento periódico.Para facilitar la toma de decisiones los datos en un Data Wareouse es organizada alrededor de palabras clave y periodos de tiempos largos, para poder resumirlos y mostrarlos de manera sencilla. Aunque las herramientas de un Data Warehouse ayudan al análisis de datos, adicionalmente Data Mining necesita más herramientas para un profundo análisis. Multidimensional Data Mining representa una combinación de varios niveles de datos en los cuales se pueden encontrar patrones mas importantes. Transaccional Data
En general cada registro en una base de datos transaccional captura una transacción como una compra de un cliente, reserva de vuelos, o click de usuarios en un sitio web. Una transacción suele tener un identificador único y una lista de ítems que han participado de le transacción. De esta manera de puede hacer un análisis de que cosas la gente compra en conjunto, para así generar ofertas acerca de esto. También se puede crear publicidad inclinada a la compra de objetos complementarios a lo que el usuario ya haya comprado. Estos son llamados frecuentes conjuntos de ítems.
¿Que clase de patrones pueden ser explotados?
Los patrones mas frecuentes como su nombre los dice suelen ocurrir frecuentemente en los datos. Existen varios tipos de patrones frecuentes, incluyendo frecuentes conjuntos de datos, frecuentes secuencias de datos,frecuentes subestructuras de datos. Un frecuente conjunto de datos se refiere a un conjunto de ítems que aparecen juntos es un base de datos transnacional, como una compra de leche y pan por ejemplo. Una frecuente secuencia de datos es cuando un cliente suele comprar un ítem a causa de otro, comprar una computadora seguida de un mouse por ejemplo. Una frecuente subestructura de datos es una mezcla de conjuntos de datos y secuencias, en pocas palabras este tipo de patrón engloba a los dos anteriores patrones.
Página 5 de 10
Técnicas que utiliza el Data Mining
Data Mining tiene incorporada varias técnicas de otros campos como la estadística, precognición de patrones, etc. La interdisciplinaria naturaleza de Data Mining genera que se mejore y desarrolle de mejor manera cada una de sus aplicaciones extensivas. Estadística
La estadística estudia la recolección,análisis, interpretación y presentación de los datos. Data Mining tiene una conexión inherente a la estadística.El modelo estadístico es un conjunto de funciones matemáticas que describen el comportamiento de objetos enfocados en términos de variables y asociaciones posibles. La estadística busca desarrollar las herramientas para la predicción y previsión usando datos y modelos estadísticos. los modelos estadísticos pueden ser usado para verificar los resultados del Data Mining. Los algoritmos deben ser cuidadosamente diseñados para reducir el costo computacional de usar los modelos estadísticos. El reto se vuelve mas divicil para aplicaciones online pues estas requieren el Data Mining constantemente. Machine Learning
Machine learning investiga como las computadoras pueden aprender basados en los datos. En campo principal de investigación es como los programas pueden aprender a reconocer complejos patrones y hacer decisiones inteligentes basadas en datos. Recuperación de Informacion
Recuperación de informacion es la ciencia de búsqueda de documentos o informacion en documentos. Los documentos pueden ser texto o multimedia pueden estar en la web.Las diferencias entre este proceso y los sistemas de bases de datos son dos principales. La recuperación de informacion asume que los datos sobre los que se buscan no están estructurados y las consultas están formadas de palabras clave, las cuales no tiene que tener complejas estructuras(disiento a las consultas SQL). Esta técnica adopta modelos probabilísticos, ademas un tema en un conjunto de documentos puede ser modelado como una distribución sobre el vocabulario, lo cual es llamado modelo de tópicos.Un documento de texto el cual encierre uno o mas tópicos puede ser considera en una mezcla de múltiples modelos tópicos. Estos modelos crecen constantemente gracias a las web y las aplicaciones online. Su efectividad y análisis ha generado una creciente cantidad de retos para el Data Mining. Página 6 de 10
Sectores de Aplicación Inteligencia de Negocios
Es esencial para los negocios el conocer de mejor manera el contexto comercial de una organizaron, como de sus consumidores,el mercado, los recursos y los compe tidore s. Las tecnol ogías de intel igenc ia de negoc ios provee n vistas históricas,actuales y futuras en las operaciones de negocios.Incluyendo reportes, análisis online de los procesos, el redimiendo de la administración de los negocios, inteligencia competitiva y análisis productivos. Sin el Data Mining muchos negocios pueden experimentar baja efectividad en el análisis del mercado, en el descubrimiento de las fortalezas y debilidades de sus competidores, retener gran cantidad de usuarios importantes. Claramente data mining es el corazón de la inteligencia de negocios. Motores de búsqueda web
Un motor de búsqueda web es una servidor computacional para la informacion web. Los resultados a una consulta de un usuario mayormente revuelve una lista también llamada hits. Esta lista consiste en paginas web, imágenes y otros tipos de ficheros. Algunos motores de búsqueda también buscan en la información publica disponible en directorios abiertos. Los motores de búsqueda proponen grandes retos a Data Mining. Primero, ellos tiene que manejar una enorme cantidad de datos que crece constantemente. Normalmente esa cantidad de datos no puede ser procesas en una o varias maquinas. En cambio los motor sed búsqueda necesitan usar servidores de computadores que se computen por miles o cientos de miles de computadoras que colaboran para encontrar lo mejor de tan gran cantidad de informacion. Segundo, los motores de búsqueda suelen tener que lidiar con datos online. Un motor de búsqueda tiene que ser capaz de sostener un modelo sin conexión para grandes cantidades de datos. Por ello es necesario construir un seleccionador se búsqueda predefinido por categorías basado en tópicos generales(si una búsqueda “apple” se refiera a la fruta tanto como a la marca tecnológica). Tercero, los motores de búsqueda web suelen tener que lidiar con consultas solo unas pocas veces. Esto genera que no se tenga una gran informacion estructurada acerca de esta consulta y no se puede dar la mejor respuesta. A esto se suma que la consulta tenga que ser respondida en una fracción de segundo.
Página 7 de 10
Principales Problemas
Data Mining es un campo dinámico que se esta expandiendo de manera gigantesca con grandes fortalezas. ahora demostraremos algunos principales problemas que se manejan en Data Mining, dividiéndolos en grupos. Tecnología disponible
La tecnología disponible para el data mining suele ser costosa ya que requiere grandes equipos de computo para su realización. Basado en esto las tecnologías disponibles para crear patrones no aseguran su utilidad al cien por ciento ya que al ser un sistema de software no puede pensar adecuadamente al realizar todas las funciones de recolección de datos. Interacción del Usuario
Cuando se exigen crear patrones de búsquedas que han sido realizadas pocas veces, el sistema sufre ya que buscar esas pocas consultar y crear mejores respuestas entre millones de documentos de informacion genera problemas. Los usuarios juegan un papel fundamental en estos aspectos, por lo tanto se debe guiar al usuario a buscar de otras formas o de la manera que se pueda obtener mejores y mas rápidas respuestas. Eficiencia y Escalabilidad
En medida que crece la información, sobre todo online, es cada vez mas difícil manejarla, se hace complejo poder coordinar mediante algoritmos los sistemas de creación de patrones. Estos sistemas de creación de patrones trabajan con gran cantidad de computadores que cada día tienen que ir mejorando y adaptandose a la creciente demanda de información que las grandes corporaciones requieren. Impacto en la Sociedad
Como impacta el Data Mining en la sociedad, un aspecto importante a notar es la privacidad de las personas. Por ello toda empresa que maneja datos de usuarios hace conocer a sus usuarios lo que realiza y como lo realiza. A su vez el usuario tiene derecho a saber si su informacion esta siendo utilizada para fines fuera de lo establecido por un contrato de privacidad. Se tiene que tener cuidado con esto, ya que ninguna persona quiere que su informacion sea utilizada para atentados contra ella misma o generar dinero del cual no debería.
Página 8 de 10
Conclusiones El Data Mining nos ayuda a generar sistemas de computación mas eficientes y competentes en el mundo que vivimos hoy en día, ya que toda la gama de herramientas que nos provee facilita el manejo de grandes cantidades de informacion. Sin este conjunto de herramientas seria dificilísimo hacer frente a la gran ola de necesidad de información que requieren las personas. La gente quiere lo mejor, lo mas rápido posible y barato. A esto se suma el creciente afianzamiento de la gente a internet, y la tendencia de subir su informacion a internet. Esto también tiene relación con el mercado, ya que la gente no solo quiere un buen producto sino lo quieren con un valor agregado y este valor agregado lo puede mostrar el Data Mining para las organizaciones que lo necesiten. Sin esta gran cantidad de herramientas que provee el Data Mining probablemente Google no podría darnos una respuesta a esa consulta de la manera gran bestial y precia que lo hace normalmente. Cabe resaltar que estas herramientas no solo sirven para grandes organizaciones sino para las pequeñas también, para poder crecer de mejor manera sabiendo de que forma deben actuar para afianzar su curva de crecimiento económico.
Página 9 de 10
Bibliografía Han, Jiawei. Data mining : concepts and techniques / Jiawei Han, Micheline Kamber, Jian Pei. – 3rd ed. USA 2012. Online Version: http://www.cse.hcmut.edu.vn/~chauvtn/data_mining/Texts/ [1]%20Data%20Mining%20-%20Concepts%20and%20Techniques%20(3rd %20Ed).pdf http://triton.exp.dc.uba.ar/datamining/index.php/que-es-data-mining Tema: Data Mining Autor: Universidad de buenos Aires - Argentina Fecha de Ingreso: 14/09/2014 http://www.anderson.ucla.edu/faculty/jason.frand/teacher/technologies/palace/ datamining.htm Tema: Data Mining Autor: University of California - Estados Unidos Fecha de Ingreso: 14/09/2014 http://infolab.stanford.edu/~ullman/mmds/ch1.pdf Tema: Data Mining Autor: Stanford University - Estados Unidos Fecha de Ingreso: 14/09/2014
Página 10 de 10