TEMA 34 – RECORD LINKAGE (VINCULACIÓN DE REGISTROS) 34.1 – INTRODUCCIÓN Record Linkage consiste en métodos para hacer coincidir duplicados dentro o entre archivos usando identificadores no únicos como nombre, apellido, fecha de nacimiento, dirección y otras características. Los campos como nombre, apellido, fecha de nacimiento y dirección se denominan quasi-identificadores. En combinación, los quasi-identificadores pueden identificar de manera única a un individuo. La vinculación de los registros informáticos modernos se inició con los métodos introducidos por un genetista llamado Howard Newcombe (Newcombe y otros, 1959), que usaron la razón de momios (RM), razón de oportunidades o razón de probabilidades —en inglés, odds ratio (OR) (probabilidades) y las probabilidades basadas en el valor específico del valor (valor común del apellido "Smith" tiene menos poder distintivo que el valor raro "Zabrinsky"). Fellegi y Sunter (1969, en adelante FS) dieron una formalización matemática de las ideas de Newcombe. Ellos demostraron la optimalidad de la regla de decisión (clasificación) de Newcombe e introdujeron muchas ideas sobre la estimación de parámetros óptimos (probabilidades usadas en las relaciones de verosimilitud) sin datos de entrenamiento. En este capítulo, daremos antecedentes sobre el modelo de FS y varios de los métodos prácticos que son necesarios para tratar con (a menudo excepcionalmente) el desorden de los datos. Aunque los métodos se basan en modelos estadísticos, la mayor parte del desarrollo ha sido realizado por científicos informáticos utilizando métodos de aprendizaje automático o de bases de datos (Winkler, 2006a). Los informáticos se refieren a la vinculación de registros como la resolución de la entidad, la identificación del objeto, o una serie de otros términos. Las aplicaciones del Record Linkage son numerosas. En algunas situaciones, podríamos usar una colección de listas para crear una lista grande (marco de encuesta) o actualizar una lista grande existente. La actualización y mantenimiento de la lista puede asegurar que tenemos buena cobertura de una población deseada. Las mayores aplicaciones de Record Linkage son a menudo durante un censo de población o en la actualización de una lista administrativa como un directorio nacional de salud o índice de defunción. La gran variación tipográfica o error en campos como nombre, apellido y fecha de nacimiento en una proporción moderada de registros puede dificultar la actualización. Históricamente, algunas agencias tienen un personal a tiempo completo dedicado a limpiar las listas (principalmente manualmente). manualmente). Si no lo hicieron, entonces un 1-3% de error o más podría entrar en las listas cada año. Los métodos de vinculación de 1
registros computarizados pueden reducir significativamente la necesidad de revisiones en la oficina y limpieza. limpieza. Otra aplicación del Record Linkage podría ser la coincidencia de una lista con otra lista para estimar la subcobertura / sobrecobertura de una de las listas que se cree que es razonablemente completa. Para el Censo de los Estados Unidos (Winkler, 1995), un gran número de bloques censales (regiones contiguas de aproximadamente 70 hogares) fueron reenumerados y comparados con la lista principal de individuos. Los procedimientos computarizados redujeron la revisión clerical (en la oficina) de un estimado de 3000 individuos durante 6 meses a 300 individuos durante 6 semanas. Debido a la alta calidad de las listas y las habilidades asociadas de los individuos, las tasas de coincidencia falsa de los procedimientos computarizados fueron de aproximadamente
0,2%.
Más
del
85%
de
las
búsquedas
se
encontraron
automáticamente con el resto de las búsquedas fácilmente ubicadas entre las personas
potencialmente
coincidentes
en
el
mismo
hogar.
Los
individuos
potencialmente coincidentes solían faltar tanto el nombre como la edad. Otras aplicaciones de Record Linkage podrían implicar experimentos de reidentificación en los que un archivo de uso público sólo contiene campos necesarios para análisis demográficos o económicos. Estos campos pueden incluir un geocódigo, sexo, edad o rango de edad, nivel de educación y nivel de ingresos. Las agencias liberan datos anónimos o enmascarados para que se puedan realizar análisis estadísticos adicionales, pero no desean que los "intrusos" reidentificen individuos o datos asociados con individuos colocando nombres con registros individuales. Sweeney (1999) mostró que el 77% de los individuos pueden ser identificados de manera única por el código postal, el sexo y la fecha de nacimiento, que están fácilmente disponibles en listas públicas tales como bases de datos de registro de votantes. Hasta el trabajo de Sweeney, muchos archivos de salud de uso público contenían código postal, sexo y fecha de nacimiento. Winkler (1998), Sweeney (1999) y Evfimievski (2004) demostraron cómo reidentificar usando una combinación de propiedades analíticas y vinculación de registros. No cubrimos la re-identificación en este capítulo. El enlace de registro puede aumentar la cantidad de cobertura y reducir la cantidad de duplicación en un marco de encuesta. Los errores de trama pueden sesgar gravemente el muestreo y la estimación. Es casi imposible corregir errores en las estimaciones que se basan en el muestreo de un marco con error moderado (Deming y Gleser, 1959). Después de aplicar la vinculación de registros sofisticados, el Censo de Agricultura de 1992 (Winkler, 1995) contenía duplicación del 2%, mientras que el Censo de Agricultura de 1987 contenía una duplicación del 10%. 2
Las tasas de duplicación se basan en la validación de campo. Algunas estimaciones del Censo de Agricultura de 1987 con un 10% de error de duplicación pueden haber sido sustancialmente sesgadas. El esquema de este capítulo es el siguiente. En la segunda sección que sigue a esta introducción damos antecedentes sobre el modelo de vinculación de registros de Fellegi y Sunter (1969), métodos de estimación de parámetros sin datos de entrenamiento, comparadores de cadenas para tratar errores tipográficos, un ejemplo empírico y algunos comentarios breves sobre datos de entrenamiento . La tercera sección proporciona detalles de las dificultades con la preparación de datos desordenados para la vinculación. Tradicionalmente, la preparación de archivos ha producido mayores mejoras en la eficacia de comparación que cualquier otra mejora. En la cuarta sección describimos métodos para la estimación de la tasa de error sin datos de entrenamiento, métodos para ajustar los análisis estadísticos de los archivos combinados para el error de vinculación y técnicas para acelerar el enlace de registros. La última sección consiste en observaciones finales.
34.2 – VISIÓN DE CONJUNTO DE LOS MÉTODOS En esta sección, proporcionamos resúmenes de ciertas ideas de Record Linkage. Aunque las ideas se basan en modelos estadísticos, el desorden de los datos y la dificultad de desarrollar ciertos algoritmos para la estimación y la comparación han limitado la capacidad de los organismos estadísticos para crear sistemas informáticos generalizados que pueden ser utilizados en una variedad de sus aplicaciones. 34.2.1. El modelo Fellegi-Sunter de Record Linkage
Fellegi y Sunter (1969) proporcionaron un modelo matemático formal para las ideas que habían sido introducidas por Newcombe (Newcombe et al., 1959, Newcombe y Kennedy, 1962). Proporcionaron muchas maneras de estimar parámetros clave. Los métodos han sido redescubiertos en la literatura de informática (Cooper y Maron, 1978), pero sin pruebas de optimalidad. Para comenzar, la notación es necesaria. Dos archivos A y B coinciden. La idea es clasificar pares en un espacio de producto A × B de dos archivos A y B en M, el conjunto de coincidencias verdaderas, y U, el conjunto de no coincidencias verdaderas. Fellegi y Sunter, haciendo conceptos rigurosos introducidos por Newcombe et al. (1959), consideró relaciones de probabilidades de la forma: R = P(γ
Г|M)/P(γ
Г |U)
(1)
3
donde γ es un patrón de acuerdo arbitrario en un espacio de comparación. Por ejemplo, "puede consistir en ocho patrones que representan un acuerdo simple o no en el componente de nombre más grande, nombre de calle y número de calle. Alternativamente, cada γ ∈ Г también podría tener en cuenta la frecuencia relativa con la que se producen valores específicos de componentes de nombres como "Smith", "Zabrinsky", "AAA" y "Capitol". La relación R o cualquier función monotonamente creciente de la misma, tal como el registro natural, se denomina peso (o puntaje) coincidente. La regla de decisión está dada por:
(2)
Si R> Tμ, entonces designe par como una coincidencia.
Si Tλ ≤ R ≤ Tμ , entonces designe el par como una posible coincidencia y
retención para la revisión clerical. (2)
Si R
Los umbrales de corte Tμ y Tλ están determinados por límites de error a priori en
coincidencias falsas y falsas no coincidencias. La regla (2) está de acuerdo con la intuición. Si γ
∈
Г Consiste principalmente en acuerdos, entonces es intuitivo que γ
∈
Г
Sería más probable que ocurriera entre los partidos que no coincidencias y la proporción (1) sería grande. Por otro lado, si γ
∈
consiste principalmente en
desacuerdos, entonces la relación (1) sería pequeña. La regla (2) divide el conjunto γ
∈
Г En tres subregiones disjuntas. La región T λ ≤ R ≤ Tμ se denomina región sin decisión o
región de revisión clerical. En algunas situaciones, se dispone de recursos para revisar clericamente los pares.
La Tabla 1 proporciona ejemplos de pares de registros que pueden coincidir usando nombre, dirección y edad. Los pares dan la primera indicación de que la coincidencia que podría ser sencilla para una persona calificada adecuadamente podría no ser fácil con reglas ingenuas basadas en (1) y (2). Si el patrón de acuerdo γ
∈
Г en los pares es
4
simple de acuerdo o en desacuerdo sobre el nombre, la dirección y la edad, entonces vemos que ninguna de las parejas estaría de acuerdo en cualquiera de los tres campos. En la mayoría de las situaciones, una persona adecuadamente experta sería capaz de reconocer que los dos primeros pares pueden ser iguales, pero es poco probable que pongan una puntuación adecuada (o peso coincidente) en los dos primeros pares. El tercer par debe ser tomado en contexto. Si el primer expediente en el par eran individuos en la escuela de medicina en la universidad de Michigan 20 años y el segundo expediente está de una lista actual de médicos en Detroit, Michigan, después, después del seguimiento apropiado, podríamos determinar que el tercer Par es una coincidencia. Si tuviéramos algoritmos de análisis computarizado para separar el campo de nombre de forma libre en nombre, inicial de segundo nombre y apellido y dirección en número de casa, nombre de calle y otros componentes, entonces podríamos tener mejores patrones γ
∈
Г Para la aplicación de (1) y (2). Si tuviéramos algoritmos adecuados para
comparar campos (por ejemplo, Javier vs. Haveir) con un error tipográfico, podríamos estar dando un acuerdo parcial a un error tipográfico menor en lugar de llamar a una comparación un desacuerdo. Además, podríamos desear que las rutinas de estandarización reemplacen las palabras comunes con una ortografía común ("Raod" con "Road" en el par dos, "Aev" con "Ave" en el par tres).
34.2.2. Parámetros de aprendizaje
Los primeros sistemas de Record Linkage a menudo se aplicaban a grandes listas administrativas, como un índice nacional de salud. Los campos típicos eran nombre, dirección, fecha de nacimiento, ciudad de nacimiento, y varios campos asociados con la información de salud. La lista administrativa principal podría limpiarse en el sentido de que muchos componentes del nombre, dirección y otros campos se revisaron y cambiaron manualmente. A medida que avanzaba el tiempo, los procedimientos manuales más fáciles fueron reemplazados por procedimientos computarizados que imitaban los procedimientos manuales. Por ejemplo, es fácil convertir apodos a posibles nombres legales ("Bob" → "Robert") o errores ortográficos obvios ("Smitn" a
"Smith") usando tablas de consulta de la revisión manual previa. En prácticamente todas las situaciones del mundo real de las que somos conscientes, los datos de formación no han estado disponibles. Los profesionales han desarrollado varias maneras de aprender parámetros óptimos de Record Linkage sin datos de entrenamiento. En todas menos una de las siguientes subsecciones, describiremos métodos de aprendizaje no supervisado donde los datos de entrenamiento no están disponibles.
5
34.2.2.1. Ideas de Newcombe
Las ideas de Newcombe (Newcombe et al., 1959, Newcombe y Kennedy, 1962) se basan en razón de momios que son efectivamente relaciones de verosimilitud. Empezó con una gran lista administrativa que representaba a toda una población. La lista se había limpiado en el sentido de que se eliminaron los duplicados y se eliminó la ortografía o el formato inconsistente. Sea un archivo con registros Ns (filas) y campos Nc (columnas). Newcombe deseaba dividir pares en C × C en coincidencias M y no-coincidencias U. Aunque conocía la respuesta, deseaba poder igualar archivos externos A contra C usando las probabilidades (probabilidades condicionales) que desarrolló de emparejar c
C contra sí mismo. Que A i represente un acuerdo en el campo i, A i represente x
desacuerdo en el campo i y A i represente un acuerdo o desacuerdo en el campo i, pero no ambos. La primera suposición simplificadora de Newcombe es la suposición de independencia condicional (CI) que condiciona estar en el conjunto de coincidencias M o no coincidencias U acuerdo en el campo i es independiente del acuerdo en el campo j.
donde D es M o U. Bajo la condición (CI), Newcombe calculó entonces las probabilidades asociadas con cada valor de un campo específico. La intuición es unir los pares en valores comunes de campos individuales. Por ejemplo, con el apellido podríamos considerar p arejas de acuerdo en Smith o Zabrinsky. Sea (fij), 1 ≤ j ≤ Ij, representan las frecuencias específicas (número de valores) del i-ésimo campo. El número de coincidencias en N y el número de no coincidencias es N × N-N. Entre las coincidencias M, hay pares fij que coinciden en el j-ésimo valor del i-ésimo campo. Entre los no coincidentes U, existen pares fij × fij - fij que coinciden en el j - ésimo valor del i - ésimo campo. Entonces, el odds ratio de acuerdo sobre el j-ésimo valor del campo i-ésimo es
Si los pares se toman de dos archivos (es decir, el espacio de producto de A × B), entonces podemos usar fij como la frecuencia en A, gij como la frecuencia en B, hij como la frecuencia en A ∩ B (que se suele aproximar con Hij = min (fij, gij)), y hacer los
cambios apropiados en (4). Observamos que la suma de las probabilidades del 6
numerador en la ecuación (4) suma a 1. En la práctica, asumimos que la suma de las probabilidades es 1-ε donde ε> 0 y multiplicamos todos los numeradores en la ecuación (4) por 1- ε. Esto permite una pequeña probabilidad de desacuerdo ε> 0 y P (A1 | M) = 1 - ε. Los valores de ε> 0 fueron elegidos por la experiencia. En algunas situaciones hubo revisión clerical en un subconjunto de parejas y el P (A 1 | M) fueron reestimados. Aunque la reestimación (posiblemente después de varias iteraciones) era engorrosa, funcionó bien en la práctica. Newcombe y otros habían observado que las probabilidades en el denominador podían ser aproximadas por probabilidades de acuerdo aleatorio
La fórmula (5) es una aproximación razonable cuando no se conoce el conjunto de coincidencias M. Existen probabilidades equivalentes de acuerdo al azar en el caso de A × B. Sólo había unos pocos métodos para tratar el error tipográfico. Al recibir y teclear datos, ciertos errores de ortografía evidentes ("William" vs. "Willam" o "Bill" vs. "William") podrían ser cambiados por un analista. Las variaciones tipográficas previamente determinadas podrían situarse en las tablas de búsqueda que podrían utilizarse para sustituir una ortografía por otra. La intención en todas las situaciones era aumentar la proporción de emparejamientos que se encontraron.
34.2.2.2. Los métodos de Fellegi y Sunter
Fellegi y Sunter (1969, Teorema 1) demostraron la optimalidad de la regla de clasificación dada por (2). Su demostración es muy general en el sentido en que sostiene para cualquier representación γ
∈
Г Sobre el conjunto de pares en el espacio
de producto A × B de dos archivos. Como se observó, la calidad de los resultados de la regla de clasificación (2) dependía de la exactitud de las estimaciones de P (γ
∈
Г | M) y
P (γ ∈ Г | U). Fellegi y Sunter (1969) fueron los primeros en dar métodos muy generales para calcular estas probabilidades en situaciones que difieren de las situaciones de Newcombe en la sección anterior. Como los métodos son útiles, describimos lo que introdujeron y luego mostrar cómo las ideas condujeron a métodos más generales que se pueden utilizar para el aprendizaje sin supervisión (es decir, sin datos de entrenamiento) en un gran número de situaciones. Fellegi y Sunter observaron varias cosas. Primero,
7
Para cualquier conjunto A de pares en A × B. La probabilidad a la izquierda se puede calcular directamente del conjunto de pares. Si los conjuntos A representan un simple acuerdo / desacuerdo, bajo la condición (CI), obtenemos
Entonces (6) y (7) proporcionan siete ecuaciones y siete incógnitas (como x representan de acuerdo o en desacuerdo) que proporcionan ecuaciones cuadráticas que resolvieron. Aquí D es M o U. La ecuación (o conjunto de ecuaciones) (7) es esencialmente igual a la ecuación (3) y puede ampliarse a campos K. Aunque hay ocho patrones asociados con las ecuaciones de la forma (7), eliminamos uno porque las probabilidades deben sumar a una. En general, con más campos pero aún un simple acuerdo / desacuerdo entre campos, las ecuaciones pueden resolverse a través del algoritmo EM en la siguiente sección. Las probabilidades de la forma P (Ai | D) se denominan m-probabilidades si D = M y u-probabilidades si D = U. Fellegi y Sunter proporcionaron métodos más generales para la concordancia basada en la frecuencia (valor-específica) que los de Newcombe. Específicamente, obtuvieron las probabilidades generales de acuerdo simple / desacuerdo y luego escalaron las probabilidades basadas en la frecuencia a los pesos de acuerdo / desacuerdo. Si A1 representa un acuerdo en el primer campo y vj, 1 ≤ j ≤ I1, son los valores del primer campo, entonces
Donde D es M o U. Típicamente, P (Ai | M) <1 para los simples pesos de acuerdo / desacuerdo en el campo i. Esto refleja el hecho de que hay menos del 100% de acuerdo en el campo i-ésimo. Superficialmente, podemos pensar en el 1-P (Ai | M) como la tasa promedio de "error tipográfico" en el campo i-ésimo. Para hacer la ecuación (8), válido bajo ciertas restricciones, FS asumió que la tasa de errores tipográficos era constante sobre todos l os valores vj, 1 ≤ j ≤ I1, asociado al i -ésimo campo. Winkler (1989b) amplió las ideas basadas en la frecuencia de FS mostrando cómo hacer el cálculo bajo suposiciones significativamente más débiles. Los de talles de los cálculos (que hemos simplificado en gran medida) se dan en sus trabajos (FS, Winkler 1989b). Hay una serie de suposiciones implícitas que se hacen a menudo cuando se comparan dos archivos y las probabilidades de cálculo utilizando (6) - (8). La primera es que existe una superposición significativa entre dos ficheros A y B. Esto significa esencialmente que A ∩ B es o bien la mayor parte de A o la mayor parte de B. Si esta suposición no es
verdadera, entonces las probabilidades obtenidas a través de los métodos de Newcombe o el FS Métodos pueden no funcionar bien. La segunda suposición es que 8
ni el archivo A ni B pueden ser muestras simultáneamente de dos archivos más grandes A2 y B2. Deming y Gleser (1959) proporcionaron una teoría que demostraba la falta de fiabilidad de determinar el solapamiento de muestreo (es decir, el número de duplicados) de dos archivos de muestra. Por ejemplo, si A2 = B2 contienen 1000 registros en los que el 1% tiene el apellido de Smith, entre los coincidencias M entre A2 y B2, existe una probabilidad del 1% de ser un par de acuerdo en que Smith es realmente una relación. Si A y B son muestras del 10% de A2 y B2, respectivamente, entonces entre los fósforos entre A y B, hay una probabilidad del 0.1% de un par que conviene en Smith que es realmente una relación. La tercera suposición es que las tasas de errores tipográficos son bastante bajas por lo que los cálculos basados en la frecuencia basada en los diferentes valores observados de los campos son válidos. Si un valor relativamente raro de apellido como Zabrinsky tiene seis ortografías diferentes en los seis registros en los que apareció, entonces no es posible calcular probabilidades exactas basadas en la frecuencia directamente del archivo. En la práctica, es necesario realizar el bloqueo de dos archivos que afectan cómo se reúnen los pares. Si dos archivos A y B contienen 10.000 registros, entonces hay 10
8
pares en el producto A × B. Hasta muy recientemente, no pudimos hacer el cálculo de 8
10 pares. En el bloqueo, sólo consideramos pares que coinciden en ciertas características. Por ejemplo, sólo podemos considerar pares que coinciden en la primera inicial de nombre, apellido y fecha de nacimiento. Si creemos (posiblemente basado en la experiencia previa) que no estamos obteniendo una proporción suficientemente grande de relaciones con un primer criterio de bloqueo, podemos intentarlo un segundo. Por ejemplo, sólo podemos considerar pares que coinciden en la primera inicial del nombre, la primera inicial del apellido y el código ZIP + 4 (que representa aproximadamente 50 hogares). FS dio las extensiones teóricas directas para el bloqueo. Al realizar el cálculo sobre los pares P 1 en A × B obtenidos mediante el bloqueo, hay un cuarto supuesto implícito: que los pares en P 1 contienen una proporción moderadamente alta de coincidencias (digamos 3 +% de P 1 consta de coincidencias). En la siguiente sección, regresamos a la proporción mínima necesaria de pares que necesitan ser coincidencias en situaciones más generales. Los métodos para obtener las probabilidades dadas por (6) - (8) se descomponen cuando la proporción de coincidencias de M en el conjunto de pares P 1 es demasiado baja. Los 8
cálculos también se descomponen si hacemos el cálculo sobre los 10 pares en A × B. En A × B, como máximo 0,01% de los pares son coincidencias. En la siguiente sección, mostraremos cómo podemos encontrar efectivamente probabilidades razonables en una variedad de situaciones.
9
34.2.2.3. Algoritmo de maximización de expectativas ( EM algorithm )
En esta sección, no vamos a entrar en muchos detalles sobre el algoritmo básico EM porque el algoritmo básico es bien entendido. Proporcionamos una cantidad moderada de detalle para la aplicación de Record Linkage, de modo que podemos describir una serie de limitaciones del EM y algunas de las extensiones. Para cada γ ∈ Г, Consideramos
Y tener en cuenta que la proporción de pares que tienen representación γ
∈
Г [Es decir,
el lado izquierdo de la Ec. (8)] se puede calcular directamente a partir de los datos disponibles. En cada una de las variantes, ya sea M y U, C 1 y C2, o C1, C2 y C3 partición A × B. Si el número de campos asociados con P (γ) es K> 3, entonces podemos resolver la
combinación de ecuaciones dadas por (8) y (7) usando el algoritmo EM. Aunque existen métodos alternativos para resolver la ecuación tales como métodos de momentos y mínimos cuadrados, el EM es preferido debido a su estabilidad numérica. k
Bajo CI, la programación se simplifica y el cómputo se reduce mucho (de 2 a 2k). Se debe tener cuidado al aplicar el algoritmo EM a datos reales. El algoritmo EM que se ha aplicado al Record Linkage es un algoritmo de clase latente que tiene la intención de dividir A × B en los conjuntos deseados de pares M y U. La probabilidad de un indicador de clase que determina si un par está en M o U son datos que faltan y deben ser estimados junto con las probabilidades m y u. Puede ser necesario aplicar el algoritmo EM a un subconjunto S de pares en A × B en el que se concentran la mayoría de las coincidencias M, para lo cual los campos utilizados para la concordancia pueden separar claramente M de U y para los cuales las probabilidades iniciales adecuadas puede ser elegidas. Debido a que el EM es un algoritmo de maximización local, las probabilidades de inicio puede que tenga que ser elegidas con cuidado sobre la base de la experiencia con tipos similares de archivos. Debido a que el algoritmo de clase latente EM es un algoritmo de agrupación general, no hay garantía de que el algoritmo divida A × B en dos clases C 1 y C2 que corresponden casi exactamente a M y U. El ejemplo siguiente caracteriza algunas de las precauciones que deben observarse al aplicar el EM. Como veremos, el EM, cuando se aplica correctamente, puede suministrar parámetros limitadores finales que son bastante efectivos. En el extenso trabajo del Censo Decenal, observamos que los parámetros limitantes finales a menudo reducían el tamaño de la región de revisión clerical en 2/3 de la región que 10
podría haber sido obtenida por los parámetros iniciales obtenidos a partir de conjeturas bien informadas. En el siguiente, utilizamos los datos del Censo del Ensayo de Vestir 1988 de una de las 457 regiones de los Estados Unidos que usamos para el Censo Decenal de 1990. Los campos coincidentes constan de apellido, nombre, número de casa, nombre de la calle, teléfono, edad y sexo. En la actualidad, también utilizamos inicial medio, unidad (identificador de apartamento) y estado civil. El primer archivo A es una muestra de bloques de la región y el segundo archivo es una enumeración independiente de la misma muestra de bloques. El primer tamaño de archivo es 15.048 y el segundo tamaño de archivo es 12.072. En la primera parte del ejemplo, sólo consideramos 116,305 parejas que coinciden en el identificador del bloque del Censo y el primer carácter del apellido y, en la segunda parte, consideramos solamente las 1.354.457 parejas que coinciden en identificar el bloque del Censo solamente. Un bloque censal consta de aproximadamente 70 hogares, mientras que un área ZIP + 4 representa aproximadamente 50 hogares. Observamos que puede haber un máximo de 12.072 coincidencias si el archivo más pequeño es un subconjunto exacto del archivo más grande. Como es típico en los censos de población, el trabajo comienza con listas de direcciones de hogares en las que los datos de los formularios de encuesta se utilizan para rellenar información asociada con individuos. En muchas situaciones (como en las familias), habrá más de un individuo asociado con cada dirección (unidad de vivienda). Comenzamos aplicando el ME de 2 clases al conjunto de 110.305 pares. Utilizamos probabilidades iniciales conocidas que creemos que corresponden a las probabilidades que necesitamos para hacer coincidir individuos. También usamos un programa precursor para obtener los recuentos (o probabilidades) de la forma P (γ) que usamos
en el algoritmo EM. En el límite, obtenemos las probabilidades finales dadas en la Tabla 2. La proporción final de coincidencias en la primera clase P (M) = 0.2731 es demasiado grande. La m-probabilidad P (de acuerdo primero | M) = 0.31 es demasiado pequeña. ¿Qué ha ido mal? Observamos que las direcciones son de alta calidad. Debido a que estamos en regiones contiguas muy pequeñas (bloques), el apellido, el número de la casa, el nombre de la calle y el teléfono es probable que sean los mismos en la mayoría de las unidades de vivienda asociadas con las familias. La información de la familia de mayor calidad supera a la persona los campos de nombre, edad y sexo que podrían ser utilizados para separar a los individuos dentro del hogar
11
Superamos la situación creando un EM de 3 clases que esperamos que divida los registros acordando las variables del hogar en 2 clases y deja una tercera clase que sería no coincidencias fuera de los hogares. Las ideas iniciales se debieron a Smith y Newcombe (1975), quienes proporcionaron ajustes ad hoc de ponderación (verosimilitud) para el conjunto de campos de personas y el conjunto de campos de hogares. Sus ideas han sido verificadas por Gill (1999), entre otros. Como el algoritmo EM es muy sencillo de convertir a 3-clases, hacemos los ajustes algorítmicos apropiados y elegimos probabilidades de inicio apropiadas. Winkler (1993b) proporciona detalles. La tabla 3 da las probabilidades iniciales para una primera clase que esperamos corresponde a la persona corresponde a M dentro de un hogar, una clase intermedia I que esperamos corresponde a no coincidencias dentro del mismo hogar, y una clase O h que son pares que no están de acuerdo en los campos del hogar . Para obtener las uprobabilidades finales, combinamos las probabilidades i y o h probabilidades de acuerdo con las proporciones en las clases 2 y 3. Cuando ejecutamos el programa EM, obtenemos probabilidades de estar en las tres clases de 0.0846, 0.1958 y 0.7196, respectivamente. La probabilidad 0.0846 asociada con la primera clase corresponde exactamente al número conocido de coincidencias verdaderas (obtenido a través de dos niveles de revisión y un nivel de adjudicación). Observe que las i-probabilidades iniciales son suposiciones razonables para las probabilidades de las personas dentro del mismo hogar que no son coincidencias. 12
Si aplicamos el algoritmo de EM de 3 clases a los 1,354,457 pares que están de acuerdo en el bloque (pero no el bloque más el primer carácter del apellido) y usamos buenas suposiciones iniciales para las probabilidades, entonces obtendremos probabilidades m similares de "m" como lo hicimos en Tabla 3. Esto es cierto aunque la proporción estimada de parejas en la primera clase es 0,0081. En general, cuando empezamos con conjuntos de pares que son demasiado grandes, el algoritmo EM no convergerá a estimaciones que no sean razonables para separar los pares de los otros pares. El algoritmo EM cuando se aplica al conjunto mucho mayor de pares puede ser mucho más sensible al conjunto de puntos de partida. Si el algoritmo EM se aplica con cuidado, entonces generalmente generará buenas estimaciones de parámetros con listas de individuos. No siempre producirá listas razonables con listas de agricultura o de negocios debido a la proporción (moderadamente) alta de pares verdaderamente coincidentes que no están de acuerdo en los nombres o en las direcciones. Winkler (1989a) había sido capaz de demostrar que las probabilidades de coincidencia (particularmente las probabilidades m) variaban significativamente (digamos, entre un área suburbana y una zona adyacente área urbana). Si pensamos en 1 - P (A i | M) como crudamente representando el error tipográfico promedio en el campo i, entonces la variación de parámetros es comprensible porque las listas asociadas con áreas urbanas a menudo contienen más errores tipográficos. Winkler (1988, 1989a) mostró que el algoritmo EM proporcionaba "parámetros óptimos" en el sentido de máximos locales efectivos de la probabilidad. Los algoritmos EM de clase 2 y 3-clase bajo condición (CI) son bastante robustos. Si los puntos de partida varían sustancialmente, el EM converge a los mismos valores de limitación en los que los valores de limitación son determinados por las características de los archivos A y B. El algoritmo de 2 clases superará al algoritmo de 3 clases en situaciones en las que típicamente sólo hay una en una dirección (o número de teléfono). En esas situaciones, la dirección puede considerarse un identificador de la entidad individual. Durante la identificación de correspondencia de 1990, el algoritmo EM mostró su flexibilidad. En tres regiones entre varias regiones procesadas en una semana, la revisión clerical se hizo mucho más grande con los parámetros EM de lo que se esperaba. Tras una rápida revisión, descubrimos que dos keypunchers habían logrado evitar los cambios en el año de nacimiento. Todos los registros de estos keypunchers no estaban de acuerdo con la edad calculada. La revisión clerical se hizo mucho más grande porque el primer nombre y la edad eran los campos principales para separar a personas dentro de un hogar.
13
En términos más generales, tal vez queramos dar cuenta de las dependencias directamente usando modelos loglineales apropiados (Bishop et al., 1975). Winkler (1993b) proporciona un algoritmo general de EMH que explica las interacciones generales entre campos y permite que las restricciones convexas predispongan ciertas probabilidades estimadas en regiones basadas en una información a priori utilizada en proyectos similares de comparación. El algoritmo EMH es una forma de algoritmo MCECM (Meng y Rubin, 1993) que además permite restricciones convexas. La interacción EM puede producir parámetros que producen ligeras mejoras en la eficacia de la concordancia. Es mucho más difícil de aplicar debido a su sensibilidad a cambios moderados en el conjunto de interacciones. Winkler (1993b) y Larsen y Rubin (2001) demostraron que se pueden seleccionar conjuntos efectivos de interacciones basándose en la experiencia. El punto de partida para la interacción EM es el conjunto de parámetros del CI EM.
34.2.3. Comparadores de cadenas
En la mayoría de las situaciones coincidentes, obtendremos un pobre rendimiento coincidente cuando comparemos dos cadenas exactamente (carácter por carácter) debido a un error tipográfico. El tratamiento del error tipográfico a través de la comparación aproximada de cadenas ha sido un importante proyecto de investigación en informática (ver, por ejemplo, Hall y Dowling, 1980; Navarro, 2001). En el Record Linkage, necesitamos tener una función que represente un acuerdo aproximado, estando el acuerdo representado por 1 y los grados de acuerdo parcial representados por números entre 0 y 1. También necesitamos ajustar las relaciones de verosimilitud (1) de acuerdo con la relación parcial Acuerdo valores. Tener estos métodos es crucial para hacer coincidir. Por ejemplo, en una aplicación de censo mayor para medir el recuento insuficiente, más del 25% de las relaciones no se habrían encontrado mediante la coincidencia exacta de caracteres por caracteres. En la Tabla 4 se consideran tres regiones geográficas (St. Louis, Columbia, MO, suburbana y Washington, suburbano / rural). La función Φ representa un acuerdo exacto cuando toma el valor 1 y representa un acuerdo parcial cuando toma valores inferiores a 1. En la región de St. Louis, por ejemplo, el 25% de los nombres y el 15% de los apellidos no coinciden con el carácter entre pares que son relaciones. Jaro (1989) introdujo un comparador de cadenas que explica las inserciones, deleciones y transposiciones. El algoritmo básico de Jaro tiene tres componentes: (1) calcular las longitudes de la cadena, (2) encontrar el número de caracteres comunes en las dos cadenas, y (3) encontrar el número de transposiciones. 14
La definición de común es que el carácter de acuerdo debe estar dentro de la mitad de la longitud de la cadena más corta. La definición de transposición es que el carácter de una cadena está fuera de orden con el carácter común correspondiente de la otra cadena. El valor del comparador de cadenas (reescalado por coherencia con la práctica en informática) es:
donde s1 y s2 son las cuerdas con longitudes lente 1 y lente2, respectivamente, N C es el número de caracteres comunes entre las cadenas s 1 y s2 donde la distancia para común es la mitad de la longitud mínima de s 1 y s2 y Nt es el número de transposiciones. El número de transposiciones N t se calcula de manera algo diferente de la manera obvia.
Utilizando conjuntos de datos verdaderos, Winkler (1990) introdujo métodos para modelar cómo los diferentes valores del comparador de cadenas afectan la probabilidad (1) en la regla de decisión de Fellegi-Sunter. Winkler (1990) también mostró cómo una variante del comparador de cadenas Jaro mejora dramáticamente la eficacia de comparación en comparación con situaciones en las que no se utilizan comparadores de cadena. La variante Winkler emplea algunas ideas de Pollock y Zamora (1984) en un gran estudio para el Chemical Abstracts Service. Proporcionaron evidencia empírica que cuantificaba cómo la probabilidad de errores de tipo keypunch aumentaba a medida que la posición del carácter en una cadena se movía de izquierda a derecha. La variante de Winkler, denominada comparador de cadenas Jaro-Winkler, es ampliamente utilizada en informática.
15
El Trabajo de Cohen et al. (2003a, b) proporciona evidencia empírica de que los nuevos comparadores de cadenas pueden desempeñarse favorablemente en comparación con Bigrams y Edit Distance. Editar distancia utiliza programación dinámica para determinar el número mínimo de inserciones, supresiones y sustituciones para pasar de una cadena a otra. La métrica Bigram cuenta el número de pares consecutivos de caracteres que coinciden entre dos cadenas. Una generalización de bigrams es q-grams donde q puede ser mayor que 2. Cohen et al. (2003a, b) proporcionaron comparadores de cadenas adicionales que demostraron que superaron ligeramente el comparador de cadenas Jaro-Winkler con varias plataformas de prueba pequeñas pero no con una plataforma de prueba similar a los datos del Censo. Yancey (2005), en un estudio bastante exhaustivo, también demostró que el comparador de cadenas Jaro-Winkler superó a los nuevos comparadores de cadenas de Cohen et al. (2003a, b) con grandes cubiertas de prueba censal. Yancey introdujo varios comparadores híbridos de cadena que utilizaban tanto el comparador de cadenas Jaro-Winkler como las variantes de la distancia de edición. Cohen et al. (2003a, b) observó que el algoritmo computacional para la distancia de edición es 10 veces más lento que el algoritmo correspondiente para el comparador de cadena JaroWinkler. La velocidad del comparador de cadenas afecta dramáticamente la velocidad del software coincidente. Es bastante típico para el software con el comparador de cadena Jaro-Winkler que gaste entre 30-70% de los ciclos de CPU en la subrutina de comparación de cadena. La Tabla 5 compara los valores de los valores Jaro, Winkler, Bigram y Editar-Distancia para los nombres y apellidos seleccionados. Bigram y la distancia de edición se normalizan para estar entre 0 y 1. Todos los comparadores de cadena tienen el valor 1 cuando las cadenas coinciden carácter por carácter.
16
34.2.4. Un ejemplo empírico
A continuación, se comparan diferentes procedimientos de adaptación en los datos que se utilizaron para los análisis iniciales de EM (Cuadros 2 y 3). Aunque también hemos demostrado resultados muy similares con varios pares alternativos de archivos, no presentamos los resultados adicionales aquí (véase Winkler, 1990). Los resultados se basan únicamente en pares que coinciden en el código de identificación del bloque y el primer carácter del apellido. Los procedimientos que utilizamos son los siguientes. El procedimiento más simple, crude, sólo utiliza una suposición ad hoc (pero con conocimiento) para los parámetros
de coincidencia y no utiliza comparadores de cadena. El siguiente, param, no utiliza comparadores de cadenas, pero sí estima las probabilidades m y u. Estas probabilidades se estiman a través de un procedimiento iterativo que implica una revisión manual de los resultados coincidentes y la reutilización sucesiva de los parámetros reestimados. Estos procedimientos de refinamiento iterativo son una característica del sistema CANLINK de Statistics Canada. El tercer tipo, param2, utiliza las mismas probabilidades que param y el comparador de cadena Jaro básico. El cuarto tipo, em, utiliza el algoritmo EM para estimar parámetros y el comparador de cadenas Jaro. El quinto tipo, em2, utiliza el algoritmo EM para estimar parámetros y la variante Winkler del comparador de cadenas que realiza un ajuste hacia arriba basado en la cantidad de concordancia en los primeros cuatro caracteres de la cadena. En la Tabla 6, el corte entre las coincidencias designadas se determina por una tasa de coincidencia falsa de 0,002. Se permite que los tipos crude y param aumenten ligeramente por encima del nivel de 0,002 porque generalmente tienen mayores niveles de error. En cada par de columnas (coincidencias designadas y pares clerical designados), rompemos los conteos en coincidencias verdaderas y no coincidencias verdaderas. En las coincidencias designadas, las verdaderas no coincidencias son coincidencias falsas. Examinando la tabla, observamos que una mejora dramática en las coincidencias puede ocurrir cuando los comparadores de la secuencia se utilizan por primera vez (de param al param2). La razón es que los desacuerdos (sobre una base del carácter por el carácter) son substituidos por los acuerdos parciales y el ajuste de los ratios de la verosimilitud (véase Winkler 1990). La mejora debida a la variante Winkler del comparador de cadenas (de em a em2) es bastante menor. El método param es esencialmente el mismo que un método tradicional usado por Statistics Canada. Después de una revisión de nueve métodos de comparación de cadenas (Budzinsky, 1991), Statistics Canada proporcionó opciones para tres
17
comparadores de cadena en el software CANLINK, siendo el comparador Jaro-Winkler el predeterminado.
La mejora entre param2 y em2 no es tan dramática, ya que es mucho más difícil mostrar mejoras entre pares "difíciles de igualar" y debido a las diferencias en los métodos de estimación de parámetros. El refinamiento iterativo se utiliza para param2 (un método estándar en el software CANLINK) en el que los pares son revisados, reclasificados y los parámetros reestimados. Este método es un tipo de aprendizaje (parcialmente) supervisado y requiere mucho tiempo. La mejora debida a los parámetros de em2 puede explicarse porque los parámetros son ligeramente más generales que los obtenidos en CI. Si A x i representa un acuerdo o un desacuerdo en el campo i-ésimo, entonces el rendimiento de nuestra hipótesis de CI
donde D es M o U. Superficialmente, el EM considera diferentes ordenamientos de la forma
Donde ρ, i representa la i -ésima entrada en una permutación ρ de los enteros 1 a k. La
mayor generalidad de (11) en comparación con (10) puede producir mejores ajustes de los datos. Podemos asumir razonablemente que el algoritmo EM bajo el supuesto de CI (como los métodos de cálculo reales de trabajo) al mismo tiempo elige la mejor permutación ρ y los mejores parámetros.
18
En esta sección, hemos demostrado que mejora muy dramática en la eficacia del Record Linkage a través de avanzar desde los procedimientos ad hoc aparentemente razonables a los procedimientos que utilizan procedimientos de Record Linkage computarizados modernos. La cuestión que afecta a los organismos de estadística es si sus marcos de encuestas están bien mantenidos utilizando procedimientos eficaces. Actualizar procedimientos de coincidencia es a menudo tan sencillo como reemplazar una subrutina que utiliza métodos ad hoc con otra subrutina. Es crucial nunca asumir que los procedimientos de Record Linkage moderadamente sofisticados se están utilizando como demuestra la siguiente situación. El mantenimiento de las listas estatales de registro de votantes es una situación en la que se podría mejorar la eficacia pasando de los procedimientos ad hoc a los modernos procedimientos de Record Linkage. Ha habido dos leyes federales de los E. (en 1993 y 2002) que asigna el dinero y los requisitos obligatorios en el mantenimiento de la lista. Las listas de registro de votantes se comparan con el departamento de listas de vehículos motorizados, listas de servicios sociales y otras listas, incluyendo la lista principal de la Administración del Seguro Social de los Estados Unidos. Cada lista se busca internamente para duplicados. Todos los estados (Levitt et al., 2005) parecen estar utilizando procedimientos ad hoc de emparejamiento que fueron desarrollados originalmente para hacer coincidir el departamento de listas de vehículos motorizados. La eficacia de los procedimientos de adaptación ad hoc de computadoras estatales en muchas situaciones puede estar entre los peores dos métodos (crudo y param) en la Tabla 6.
34.2.5. Datos de aprendizaje
Los datos de aprendizaje representativos rara vez están disponibles para obtener los parámetros para las reglas de clasificación de Record Linkage. Si los datos de aprendizaje están disponibles, entonces es posible obtener los parámetros agregando las cantidades apropiadas para obtener las probabilidades en (1) y (2). De hecho, con suficientes datos de aprendizaje, es fácil estimar las probabilidades en (1) que tengan en cuenta las dependencias entre diferentes campos coincidentes y estimar las tasas de error. Winkler (1989a) mostró que los parámetros óptimos de Record Linkage varían significativamente en diferentes regiones geográficas. Para el Censo Decenal de los Estados Unidos de 1990, se necesitarían datos de aprendizaje para las 457 regiones donde se realizó la correspondencia. La cantidad de tiempo necesario para obtener los datos de aprendizaje en las 457 regiones habría superado sustancialmente las 3 semanas que se asignó para la coincidencia de computadoras. En más de 20 años de Record Linkage en la Oficina del Censo, nunca ha habido datos de capacitación. En más 19
de 30 años en el mantenimiento de los Archivos Sanitarios Nacionales y en la realización de otros grandes proyectos de adaptación en la Universidad de Oxford, Gill (2000, comunicación privada) nunca tuvo datos de aprendizaje.
34.3 – PREPARACIÓN DE LOS DATOS En los proyectos de identificación, poniendo los datos de dos archivos A y B en formas consistentes para que los datos puedan ser ejecutados a través del software de Record Linkage a menudo requiere más trabajo (3-12 meses con un personal moderado o grande) que las operaciones de Record Linkage actuales (1-3 semanas con un solo individuo). La incapacidad o la falta de tiempo y recursos para limpiar los archivos en la preparación de la correspondencia son a menudo las principales razones por las que fracasan estos proyectos. Proporcionamos detalles de la adquisición, preparación y estandarización de archivos en las siguientes secciones. 34.3.1. Descripción de un proyecto de identificación
La construcción de un marco o lista administrativa de entidades para un país entero o una región grande de un país implica muchos pasos. Los métodos de construcción también contienen pares de listas o para la situación de encontrar duplicados dentro de una lista dada.
(1) Identificar las listas existentes que se pueden utilizar en la creación de la lista principal. En esta situación, es importante concentrarse en 10 o menos listas. Es prácticamente imposible considerar miles de listas.
(2) Con cada lista, obtenga un diseño anotado. La anotación debe incluir la ubicación de diferentes campos y los valores potenciales que pueden asumir diferentes campos. Por ejemplo, una lista dada puede tener varios códigos de estado asociados con si la entidad sigue en el negocio o está viva. Con listas de negocios, puede tener códigos de estado adicionales indicando si el registro está asociado con otra entidad como subsidiaria o duplicado. Si el diseño anotado no está disponible, rechace la lista. Si la lista está en un sistema informático incompatible o en un formato incompatible tal como una lista mecanografiada o una microficha, entonces rechace la lista.
(3) Obtener las listas para comenzar a ponerlas en un formato estándar que será utilizado por los programas de detección y actualización de duplicados. Si la lista no pasara a través de los programas de normalización de nombres y direcciones, entonces rechácela. Si algunos o muchos registros de la lista no pueden ser estandarizados, 20
considere rechazar la lista o usar registros que puedan ser estandarizados. El formato estándar debe incluir un campo para el origen de una lista y la fecha de la lista. Si es posible, es una buena idea tener también una fecha para el registro individual en la lista.
(4) Si los recursos lo permiten, se puede obtener una mayor precisión comparando secuencialmente cada fuente potencial de actualización con la lista principal. Hacer coincidir cada lista de una manera secuencial permite una limpieza clerical más precisa de los duplicados. Si la limpieza clerical no puede hacerse de una manera eficiente, entonces los duplicados en la lista principal producirán más y más duplicados adicionales cuando la lista principal se actualice sucesivamente. Si parece que una lista individual está causando demasiados duplicados para ser agregados erróneamente a la lista principal, entonces rechazar la lista como un origen de actualización. Si un subconjunto grande del origen de actualización no genera un número suficientemente grande de entidades nuevas en la lista principal, también podría excluirse.
(5) Después de la coincidencia inicial, se deben aplicar sistemáticamente procedimientos informáticos y administrativos adicionales para identificar los duplicados en la lista principal. Un procedimiento muy útil es asegurar que las representaciones de nombres y direcciones asociadas con una entidad están en la forma más útil y libre de errores tipográficos. Estos procedimientos adicionales de mejora deben utilizarse continuamente. Si las actualizaciones y las limpiezas de las listas que contienen muchas pequeñas empresas sólo se hacen anualmente, entonces la calidad general de la lista puede deteriorarse de manera aditiva durante cada actualización posterior. En los Estados Unidos, se sabe que el volumen de negocios anual (entrada y salida del negocio o cambios sustanciales en la información de nombre y dirección que dificultan la actualización) puede superar el 10% con las pequeñas empresas.
Muchos proyectos coincidentes fracasan porque los grupos no pueden ni siquiera superar los primeros 1-2 pasos mencionados anteriormente. Mantener listas puede ser difícil. En los Estados Unidos, los archivos de Cambio de Dirección postal para individuos representan el 16% de la población por año. Algunas personas pueden mudar más de una vez. Con las listas de pequeñas empresas (como los minoristas de petróleo), el cambio de nombre o dirección puede superar el 10% por año. En el mantenimiento de un gran archivo nacional de salud o índice nacional de defunción, un 1-3% de error neto por año puede producir un error sustancial después de varios años.
21
34.3.2. Preparación inicial de los ficheros
Al obtener los archivos, el primer problema es determinar si los archivos residen en archivos secuenciales (estándar), bases de datos o en archivos SAS. Como la mayoría de software de Record Linkage está diseñado para únicamente archivos secuenciales, los archivos en otros formatos necesitarán tener copias que estén en formatos secuenciales. Algunos grupos que hacen Record Linkage con muchos archivos tendrán un formato estándar y procedimientos para que los archivos estén en la forma más compatible para el Record Linkage. Un diseño anotado dará las descripciones de los campos individuales que pueden ser comparados. Por ejemplo, un código sexual puede ser dividido en Sex1 (macho = M, femenino = F, ausente = b donde b representa blanco) o Sexo2 (varón = 1, femenino = 2, faltante = 0). Los programas simples pueden tener tablas que se utilizan en la conversión de un conjunto de códigos a otro conjunto de códigos. Es muy típico que los archivos bien mantenidos lleven códigos de estado que indiquen si una entidad está todavía viva o en los negocios y si la información como una dirección o un número de teléfono es actual. Si un archivo tiene códigos de estado que indican que ciertos registros están fuera de alcance, en la mayoría de las aplicaciones coincidentes se deben eliminar los registros fuera del alcance antes de usar el archivo para actualizar o fusionar. En algunos archivos, puede ser difícil determinar fuera de alcance. Por ejemplo, las empresas eléctricas tienen información de direcciones muy buena que las personas pueden desear utilizar en la actualización de una lista de residencias. Desafortunadamente, las compañías de electricidad suelen incluir pequeños establecimientos comerciales con clientes residenciales porque mantienen sus listas por categorías de caudal. Si se utiliza la lista de utilidades eléctricas para actualizar una lista de hogares, se agregarán muchas direcciones comerciales "fuera del alcance". Puede ser necesario revisar varios campos en dos archivos. Por ejemplo, si un archivo tiene direcciones que son casi enteramente del número de la casa de la forma y el nombre de la calle y otro archivo tiene una porción sustancial de las direcciones en el cuadro de la forma PO, entonces puede ser difícil de igualar a dos archivos usando nombre y dirección como información. Con listas de negocios, puede ser necesario tener información auxiliar que permita separar la sede de las filiales. Con muchas empresas, la sede completa formularios de encuesta. Si se envía un formulario de encuesta a la filial y se devuelve, la organización de la encuesta puede contar dos veces la información de la filial que también se informa en los totales de la sede. En lo que sigue, ofrecemos resúmenes de varios procedimientos que se pueden utilizar para la limpieza preliminar de archivos y, a menudo, pueden estar en rutinas informáticas sencillas. Estos controles de consistencia y procedimientos de limpieza
22
antes de ejecutar archivos a través de un programa coincidente se denominan estandarización.
(1) La sustitución de las variantes ortográficas por una ortografía coherente común se denomina Ortografía. (A) Sustituir 'Doctor', 'Dr.' por 'Dr' (B) Sustituya apodos como 'Bob', 'Bill' por 'Robert' y 'William' (C) Sustitúyase palabras como «Company», «Cmpny», «Co.» con «Co», Nota: El tercer ejemplo depende de la aplicación porque "Co" puede referirse a Condado o Colorado.
(2) El reemplazo de códigos inconsistentes se denomina asegurar la coherencia del código. (A) Reemplazar Sexo Sexo (masculino = '1', mujer = '2', ausente = '0') con (masculino = 'M' Female = 'F', missing = '') B) Sustitúyase " January 11, 1999 " y " 11 January, 1999 " con MMDDYYYY = '01111999' o YYYYMMDD = '19990111' La consistencia del código se refiere a veces como hacer los estados de valor de las variables(o campos) consistentes. En Record Linkage, una variable (o campo) es típicamente una cadena de caracteres como un nombre completo, una dirección completa o un subcomponente como el nombre oapellido.
(3) Identificar las posiciones inicial y final de los componentes individuales de una cadena de forma libre como un nombre o dirección se conoce como análisis sintáctico. (A) Identifica las ubicaciones de nombre, inicial y apellido en "Mr John A Smith Jr" y "John Alexander Smith" (B) Identifica las ubicaciones del número de la casa y el nombre de la calle en '123 East Main Street' y '123 E. Main St. Apt. 16' La idea de analizar es permitir la comparación de campos (variables) que deben ser consistentes y razonablemente fáciles de comparar. No es fácil comparar nombres y direcciones de forma libre, excepto posiblemente manualmente. Las tres ideas anteriores de estandarización son a menudo preliminares a situaciones en las que los nombres y direcciones de forma libre se rompen (analizan) en componentes. Cubrimos la normalización general de nombres y direcciones en las dos secciones siguientes.
23
34.3.3. Normalización y análisis de nombres (sintáctico)
La estandarización consiste en reemplazar la ortografía de palabras con una sola ortografía. Por ejemplo, las diferentes ortografías y abreviaturas de "Incorporated" podrían ser reemplazadas con la ortografía estandarizada única "Inc." El componente de estandarización del software podría separar una cadena general como un nombre completo o una dirección en palabras (es decir, conjuntos de caracteres que son separados por espacios y otros delimitadores). Cada palabra se compara a través de las tablas de consulta para obtener la ortografía estándar. La primera mitad de la tabla siguiente muestra varias palabras comunes que se reemplazan por una ortografía estandarizada (dada en mayúsculas). Después de la estandarización, la cadena de nombres se analiza en componentes (segunda mitad de la siguiente tabla) que se pueden comparar (Tabla 7). Los ejemplos son producidos por el software de normalización de nombres generales (Winkler 1993a) para el sistema de concordancia del Censo de Agricultura de los Estados Unidos. Debido a que el software funciona bien con listas de negocios y correspondencia de personas, se ha utilizado para aplicaciones complementarias en la Oficina del Censo y otras agencias. En la actualidad, no está claro que exista un software comercial para la normalización de nombres. Nuevos métodos prometedores basados en modelos ocultos de Markov (Borkar y otros, 2001, Christen et al., 2002, Churches et al., 2002) pueden mejorar sobre la normalización de nombres basados en reglas en Winkler (1993a). Aunque los métodos mejoran claramente con respecto a métodos de normalización de direcciones más convencionales (ver sección siguiente) para situaciones difíciles tales como direcciones asiáticas o indias, no funcionaron tan bien como métodos más convencionales de normalización de nombres. Bilmes (1998) proporciona un tutorial sobre los algoritmos de tipo EM que muestran que los métodos de Markov ocultos son generalizaciones de los métodos EM más simples. Entre los estadísticos matemáticos, Markov oculto se conoce como el algoritmo de Baum-Welsh.
24
34.3.4. Normalización de la dirección y análisis sintáctico
La Tabla 8 ilustra la estandarización de direcciones con un paquete patentado desarrollado por la División de Geografía de la Oficina del Censo de los Estados Unidos. En las pruebas efectuadas en 1994, el software superó significativamente a los mejores paquetes comerciales de los Estados Unidos en términos de tasas de estandarización, al tiempo que produjo estandarizaciones comparativamente precisas. La primera mitad de la tabla muestra algunas direcciones que han sido estandarizadas. En la estandarización, las palabras que aparecen comúnmente como "Street" se reemplazan por una abreviatura apropiada como "St" que puede ser considerada una ortografía estándar que puede explicar algunos errores ortográficos. La segunda mitad de la tabla representa los componentes de las direcciones producidas por el análisis. El software general produce aproximadamente 50 componentes. El software general de normalización de nombres y direcciones que ponemos a disposición con el software de coincidencia sólo genera los componentes más importantes de las direcciones
34.3.5. Resumir comentarios sobre el preprocesamiento
Muchos archivos no pueden ser suficientemente preprocesados para limpiar gran parte de los datos. Los ejemplos incluyen archivos heredados que contienen datos faltantes considerables como fecha de nacimiento y alta tasa de errores tipográficos en otros campos. En situaciones de datos de calidad razonablemente alta, el preprocesamiento puede producir una mayor mejora en la eficacia de comparación que los comparadores de cadenas y parámetros "optimizados". En algunas situaciones, el 90% de la mejora en la eficacia de la concordancia puede deberse al preprocesamiento. Los resultados de la Tabla 6 muestran que los comparadores de cadenas apropiados pueden producir mejoras mayores que los mejores parámetros de vinculación de registros.
25