Investigación 1
ÍNDICES INVERTIDOS Noemí Guadalupe Cervantes Manríquez Cod. 209708472 Taller de Estructura de Archivos
Índices invertidos Un índice Invertido es un mecanismo orientado a palabras para indexación de documentos. Es la estructura más elemental para recuperación de palabras. Está formado por 2 elementos: el vocabulario (conjunto de términos distintos del texto) y las listas de ocurrencias (para cada termino, la lista de documentos donde este aparece). Un índice invertido es una estructura de datos de índice de almacenamiento de una asignación de contenido, como palabras o números, a sus ubicaciones en un archivo de base de datos o en un documento o conjunto de documentos. El objetivo de un índice invertido es permitir rápidas búsquedas de texto completo, a un costo de procesamiento mayor cuando se añade un documento a la base de datos. El archivo invertido puede ser el propio archivo de base de datos, en lugar de su índice. Es la estructura de datos más popular utilizado en los sistemas de recuperación de documentos, que se utiliza a gran escala. A los archivos que son como los índices secundarios, en los que una llave secundaria lleva a un conjunto de una o más llaves primarias, se les llama listas invertidas. El sentido en el que se invierte una lista debe quedar claro si se considera que se trabaja retrocediendo de una llave secundaria a la llave primaria y al registro mismo.
Características * Un índice invertido nivel de registro contiene una lista de referencias de los documentos para cada palabra. * Palabras índice invertido nivel contiene además las posiciones de cada palabra dentro de un documento. Esta última forma ofrece más funcionalidad, pero necesita más tiempo y espacio para crear.
Construcción Se recorre la colección de textos secuencialmente. Para cada término, se busca en el vocabulario. Si no existe, se agrega al vocabulario con una lista de ocurrencias vacía. Se agrega el documento actual al final de la lista de ocurrencias del término. Una vez leída la colección, el índice se graba en disco. El mayor problema que se presenta en la práctica a la hora de construir un índice invertido es que la RAM se termine antes de
poder procesar todo el texto. En este caso, cada vez que la RAM se agota, se graba en disco un índice parcial y se libera la memoria. Al final, se realiza un merge de los índices parciales. La mezcla consiste en combinar los vocabularios ordenados. Si aparece el mismo término en ambos índices se mezclan sus listas de ocurrencias.
Búsqueda Búsqueda en el vocabulario: Se buscan las palabras y los patrones de la consulta, Las consultas por frases y proximidad se dividen en palabras. Recuperación de ocurrencias: Se recupera la lista de ocurrencias de las palabras encontradas. Manipulación de ocurrencias: Resolución de operaciones booleanas, consultas de frases, proximidad, etc. La búsqueda siempre comienza en el vocabulario, por lo que es interesante tenerlo en un fichero separado. Así es posible que quepa en memoria incluso en caso de colecciones grandes. La búsqueda de términos en el vocabulario puede realizarse utilizando una estructura como hashing o arboles B. Si los términos se almacenan en orden lexicográfico, en lugar de orden de entrada, se reduce el espacio y se mejora el rendimiento, dado que se pueden aplicar búsquedas binarias.
NRR El número relativo de registro es un número que indica la posición física del registro (lo de físico es relativo) dentro del archivo. Se le conoce como relativo porque indica el desplazamiento que debe hacerse desde el origen del archivo hasta el registro en cuestión (imagina que es como el índice de un vector aplicado a un archivo) Por ejemplo: [1] juan, 12, activo [2] pedro, 21, anulado [3] susana, 15, activo [4] manuel, 27, activo [5] felipe, 15, anulado
Mostrar el NRR de los registros que están anulados: 2, 5 Este número toma mucha importancia en los archivos de organización relativa (acceso directo) con espacio reducido (o de tamaño definido) en los cuales es necesario crear una buena estrategia de colocación del registro dentro del archivo para su fácil acceso y el mejor uso del espacio disponible (y como la colocación se realiza mediante el NRR es ahí el porqué es importante este número).