1.
Desc Descri ripció pción n del del prog progra rama ma Cri Crime meSt Stat at
1.1. 1.1.
Intr Introdu oducc cció ión n
CrimeStat es un programa de estadísticas espaciales diseñado específicamente para el análisis de la ocurrencia de incidentes criminales, desarrollado por Ned Levine bajo el auspicio del Instituto Nacional de Justicia de Estados Unidos de América. Su propósito es brindar un conjunto de herramientas estadísticas estadísticas complementarias complementarias para ayudar ayudar a investigad investigadores ores y agencias agencias encargadas de hacer cumplir la ley. El programa utiliza la ubicación de incidentes criminales como datos de entrada en formato de archivo dBase (’.dbf’, III, IV, o V), que es un formato de archivo común para programas de Sistema de información geografico de escritorio (SIG), como ArcView (shp), MapInfo (dat), y archivos compatibles con el estándar ODBC, como Excel, Lotus 1-2-3, Microsoft Access, y Paradox (Borland.Com, 1998; ESRI, 1998a; Microsoft, 1999). Además, para muchos otros SIG, como Maptitude, y puede leer archivos como ‘dbf´, ‘shp´, ‘bna´ or ‘mif´. A partir de estos datos, permite aplicar los métodos de estadística espacial, produciendo resultados en archivos formato cartográfico que pueden ser R , utilizados directamente por diferentes programas de SIG como ArcView c. R , Atlas*GIS, y Spatial Analyst MapInfo Los métodos de estadística espacial instrumentados en CrimeStat son: Distribución Espacial: conjunto de métodos para la descripción de la distribución espacial de incidentes, tales como el media central, centro de mínima distancia, la elipse de desviación estandarizada, y el índice de autocorrelación espacial I de Moran. Análisis de Distancia: conjunto de técnicas estadísticas para describir las propiedades de las distancias entre los incidentes, incluyendo análisis de vecinos más cercanos, análisis lineal del vecino más cercano, y el estadístico K de Ripley. Análisis de Zona o Puntos Calientes: ("Hot Spot") incluye las rutinas para realizar el análisis de Punto Calientes, incluyendo la moda, la moda difusa, detección de conglomerados de vecinos más cercanos 1
jerárquicos y de vecinos más cercanos jerárquicos ajustados por niveles de riesgo, así como otras rutinas para el Análisis Espacial y Temporal de Crímenes (STAC por sus siglas en inglés), que incluyen el método de detección de conglomerados K-means y los Índices Locales de Autocorrelación Espacial (LISA por sus siglas en inglés) propuestos por Anselin. Modelación Espacial: incluye métodos de interpolación, utilizando el método de estimación de densidad de kernel de una variable simple, para producir un estimado de superficie o contorno de la densidad de incidentes, también incluye el método de estimación de densidad de kernel dual, utilizando dos variables en la estimación, para comparar la densidad de incidentes con la densidad de un segundo archivo DDDDDDD, además de otras técnicas de análisis espacio-temporal, espacio-temporal, como los índices índices de Knox y Mantel, que permiten detectar la asociación de incidentes en tiempo y espacio (estos indices son los que desarrollaremos en este trabajo), entre otros métodos con mayor aplicación en el análisis de criminalidad. CrimeStat utiliza varios tipos de archivos de datos de entrada, un archivo primario y uno secundario, ambos contienen la ubicación de incidentes en forma de pares de coordenadas, así como la fecha de ocurrenci o currenciaa del incidente. El archivo secundario contiene datos asociados con el primario y puede ser utilizados con fines de comparación en los métodos de detección de conglomerados o cluster. Utiliza además un archivo que define una rejilla (grid) de polígonos regular regular ó irregular irregular que se superpone sobre el área de estudio. Dicha rejilla puede ser creada por CrimeStat ó por un SIG. CrimeStat CrimeStat no tiene capacidad para la visualización visualización de mapas ni funciones de SIG, su diseño se ha centrado en los métodos de análisis de datos espaciales; sin embargo, una característica importante desde el punto de vista programático, programático, es la disponibilidad disponibilidad de una Interfase Interfase de Programación Programación de Aplicación (API) que permite que otros programas invoquen sus procedimientos y funciones, permitiendo el uso de SIG gratuitos o de bajo costo. Esta es una ventaja relativa para su uso respecto a aquellos que requieren de SIG comerciales.
2
1.2. 1.2.
Man Manual ual de corto corto de Crim CrimeS eSta tatt o guía guía rápi rápida da
En esta sección se presenta una introducción a las funciones funciones del programa CrimeStat que se utilizan en este trabajo; las mismas se exponen en forma de manual, de tal manera que pueda servir de guia a los usuarios del mismo.
Descripción breve de la organización de las rutinas del programa CrimeStat cuenta con diecisiete pestañas (rutinas) organizados en cinco grupos base, presentados en ventanas, y una ficha opción, como se describe acontinuacion:
Configuración de los datos 1. Archivo primario 2. Archivo secundario 3. Archivo de referencia 4. Medición de parámetros
Descripción espacial 5. Distribución espacial 6. Análisis de distancia I 7. Análisis de distancia análisis II 8. Análisis Zonas calientes I (Hot Spot) 9. Análisis Zonas calientes II (Hot Spot)
Modelado espacial 10. Interpolación 11. Análisis Espacio-tiempo
3
12. Estimación del viaje a la delincuencia
Demanda del recorrido del crimen 13. Generación de viaje 14. Distribución de viaje 15. Modelo Split 16. Asignación de Red 17. Archivo de hojas de calculo
Opciones 18. Guardando parámetros, colores y opciones. En la Figura tal 1.1-2.18 se presenta la ventana principal de Crimestat, donde se muestra las cinco pestaña correspondientes a los cinco grupos base.
1.2.1. Configuración de datos Archivo Primario CrimeStas requiere de un archivo primario. Sin embargo, se pueden seleccionar más de un archivo si es necesario. Este es un archivo de puntos con coordendas X e Y. Por ejemplo; un archivo primario puede ser la ubicación de los robos callejero con algún tipo de arma, cada uno referenciado con sus respectivas coordenadas X e Y. Además, en este archivo los incidentes pueden estar asociados con alguna ponderación o intensidad de las variables, aunque estos son opcionales. Por ejemplo, si los puntos corresponden a los puestos o estaciones de policía, la variable intensidad podría ser el número de llamadas solicitando el servicio en cada estación de policía, mientras que la variable de ponderación puede ser zonas de servicio. En este archivo se referencia el tiempo en que sucede el evento criminal, y las unidades para el mismo son: horas, días, semanas, meses o años. Esta variable es necesaria por las rutinas del análisis espacio-tiempo.
4
Selección del tipo de archivo primario CrimeStat puede leer archivos ASCII, dBase ’dbf’( III / IV / V) , ArcView ’shp’, MapInfo ’dat’, Microsoft Access ’bdb’, y formatos de archivos que corresponden a la interfaz estándar ODBC. Para seleccione el tipo de archivo a ser usado, utilice el botón Browse para buscar el nombre del archivo. Si el tipo de archivo es ASCII, seleccione el tipo de datos separador (coma, punto y coma, espacio, ficha) y el número de columnas. Los archivos ODBC deben que ser definidos para el particular equipo en el que se ejecuta. Variables Debe definir el archivo que contiene las coordenadas X e Y. CrimeStat acepta valores asociados a las coordenadas X e Y; estos valores son los llamados pesos o intensidades. Si estas ponderaciones var a ser usadas, debe definirse el archivo que las contiene. En esencia, se trata de dos tipos de ponderaciones diferentes, que son requeridas por algunas rutinas, (por ejemplo, el indice local de Moran, la autocorrelación espacial). Es posible usar las dos ponderaciones (intensidad y un peso), aunque debe ser prudente en ello, para evitar la ‘doble ponderación’. CrimeStat utiliza la variable tiempo como un número entero o número real (por ejemplo, 1, 36892); no usa el formato fechas (por ejemplo, 01/01/2001, 1 de octubre de 2001). Debe convertir el formato fechas a números reales antes de utilizar cualquier rutina de análisis de espacio-tiempo. Columna Seleccione las variables para las coordenadas X e Y, respectivamente (por ejemplo, Longitud, Latitud, Xcoord, Ycoord). Si los pesos o intensidades serán utilizados, debe seleccionarse nombres apropiada para estas variables; de igual manera si la variable tiempo se utiliza, debe seleccionase un nombre apropiado. Valores faltantes CrimeStat por defecto ignora los registros con valores en blanco en cualquiera de los campos elegibles o no con valores no numéricos (por ejemplo, 5
caracteres alfanuméricos, #, ). Los registros con valores en blanco siempre será excluido a menos que el usuario seleccione en la casilla , alguna otra opción. Hay 8 opciones posibles: 1. los campos son automáticamente excluidos. Este valor es por por defecto 2. indica que los registros no serán excluidas. Si hay un campo en blanco, CrimeStat tratará como un 0 3. 0 Está excluido 4. -1 Está excluido 5. 0 y -1 indica que ambos 0 y -1 se excluirán 6. 0, -1 y 9999 indica que los tres valores (0, -1, 9999) serán excluidas 7. Cualquier otro valor numérico puede ser tratado como un valor faltante tipiando este (por ejemplo, 99) 8. Valores numéricos múltiples pueden ser tratados como valores que faltan por tipear, separando cada uno por comas (por ejemplo, 0, -1, 99, 9999, -99) Direccional Si el archivo contiene coordenadas direccionales (ángulos), debe definirse el nombre del archivo y el nombre de la variable (columna) que contiene la medida direccional. Si coordenadas direccionales son usadas, puede haber una variable de distancia opcional para la medida. Defina el nombre del archivo y el nombre de la variable (columna) que contiene la variable de distancia. Tipo de sistema de coordenadas y unidades de datos Seleccione el tipo de sistema de coordenadas. Si las coordenadas están en longitudes y latitudes, un sistema esférico es usado, y las unidades de los datos automáticamente son grados decimales. Si el sistema de coordenadas es proyección (por ejemplo, Sistema de Coordenadas Planas o Universal Transversal de Mercator-UTM), las unidades de los datos puede ser en pies, metros 6
(por ejemplo, UTM), millas, kilómetros o millas náuticas. Si el sistema de coordenadas es direccional, las coordenadas debe estar en ángulos y la casilla de unidad de datos queda en blanco. Para el sistemas de direccional, hay una variable additional distancia, que puede ser usado. Esta mide la distancia del incidente desde la posición origen (ubicación); observe que en este caso las unidades son indefinidas. Unidades de tiempo Definir las unidades de la variable tiempo. El tiempo es definido en términos de horas, días, semanas, meses o años. El valor por defecto es días. CrimeStat utiliza la variable tiempo como un número entero o número real (por ejemplo, 1, 36892); no usa el formato fechas (por ejemplo, 01/01/2001, 1 de octubre de 2001). Debe convertir el formato fechas a números reales antes de utilizar cualquier rutina de análisis de espacio-tiempo.
Archivo Secundario CrimeStat usa un segundo archivo de datos que puede ser opcional, llamado Archivo Secundario. Este archivo también es un archivo de puntos con coordenadas X e Y. Generalmente se usa para comparar con el archivo primario. El archivo secundario puede usar las variables ponderadas (pesos o intensidades) asociadas a las coordenadas X e Y, aunque estas son opcionales. Por ejemplo, si el archivo principal corresponde a la ubicación de robos de automóviles, en el archivo secundario la variable como la intensidad (o peso) podría ser el centroide de los bloques de los grupos que tienen la población censada. En este caso, se podría comparar la distribución de robos de automóvil con la distribución de población; por ejemplo, en la rutina de Ripley‘s ‘K´ o la estimación de densidad dual. La variable tiempo no es utilizada en este archivo. Puede seleccionarse más de un archivo a usar. Selección del tipo de Archivo Secundario Procedimiento semejante al archivo primario. Ver archivo primario. Variables Definir el archivo que contiene las coordenadas X e Y. Si los pesos o 7
intensidades van a ser usados, debe definirse el archivo que contiene estas variables. Algunos estadísticos requieren valores de intensidad (por ejemplo, autocorrelación espacial, Moran local). La mayoría de los demás estadísticos pueden utilizar ponderaciones. Es posible tener ambas variables (pesos e intensidad ), aunque el usuario debe ser prudente en ello para evitar la ‘doble ponderación´. Las Unidades de tiempo no se utilizan en este archivo secundario. Columna Seleccione las variables para las coordenadas X e Y, respectivamente (por ejemplo, Longitud, Latitud, Xcoord, Ycoord). Si hay pesos o intensidades que se esté usando, debe seleccionarse nombres apropiadas para estas variables. Unidades de tiempo no se utilizan en el archivo de secundaria. Valores faltantes Procedimiento semejante al archivo primario. Ver archivo primario. Tipo de sistema de coordenadas y unidades La data del archivo secundario debe tener el mismo sistema de coordenadas y las mismas unidades del archivo principal. Esta selección será bloqueada o neutralizada, indicando que el archivo secundario debe lleva la misma definición que el archivo primario. El archivo secundario no se permite coordenadas direccional (ángulos).
Archivo de referencia Para referenciar el área de estudio, existe una grilla o cuadrícula de referencia y un origen de referencia. El archivo de referencia es utilizado por las rutinas: cluster jerárquicos del vecinos más cercanos (agrupación), viaje de la delincuencia y por estimación de densidad o kernel, simple o doble. Es por lo general, aunque no siempre, una cuadrícula es sobrepuesto en la zona de estudio. El origen de referencia es utilizado en la ruptina media direcciónal. Este archivo puede ser externo como archivo de entrada, o puede ser creados por CrimeStat. 8
Crear una grilla o cuadrícula de referencia CrimeStat permite generar una verdadera cuadrícula, haciendo clic en çreate Grid ’y luego ingresando en la parte inferior izquierda y superior derecha las coordenadas X e Y de un rectángulo, colocado sobre el área de estudio. Las celdas se pueden definir por tamaño de celda, en las mismas coordenadas y los datos de unidades como el principal archivo, o por el número de columnas en la red (por defecto). Además, un origen de referencia puede ser definido por la rutina media direccional. La grilla de referencia puede ser guardardo para volver a utilizar. Haciendo clic en la casilla Guardar (Save) y dando un nombre al archivo. Para utilizar un archivo guardado, haga clic en la casilla cargar (Load) y colocar directorio y nombre del archivo. Las coordenadas se guardan en el registro, pero pueden guardarse en cualquier directorio. Para guardar en un directorio particular, con la ventana abierta de la pestaña Cargar (Load), haga clic en Guardar en archivo (Save to file), a continuación, introduzca el directorio y nombre del archivo. La extensión de archivo por defecto es ref. Entrada de un archivo externo de referencia Para usar un archivo externo que almacena las coordenadas de rejilla o cuadrícula, debe seleccionar el nombre del archivo de referencia. CrimeStat puede leer archivo ASCII, dBase ’dbf’, ArcView ’shp’, MapInfo ’dat’, Microsoft Access ’mdb’, y formatos de archivos que corresponden a la interfaz estándar ODBC. Seleccione el tipo de archivo a usar. Use el botón buscar (browse) para ubicar el archivo. Si el tipo de archivo es el ASCII, seleccione el tipo de separador de datos (la coma, el punto y coma, el espacio, pestaña) y el número de columnas. Los archivos ODBC tienen que ser definido para el computador sobre el cual se ejecutara. Use el botón de wrouse para buscar el nombre del archivo. Un archivo de referencia leído en Crimestat no tiene que ser necesariamente una rejilla verdadera (matriz con k columnas y l filas). Sin embargo, un achivo exernal de referncia que es leído en Crimestat, sólo puede ser salida Surfer para Windows ya que otros formatos de salida - ArcView, MapInfo, Atlas*GIS, Spatial Analyst, y rejilla ASCII requieren que el archivo de referencia sea una rejilla verdadera. 9
Origen de referencia Un origen de referencia puede ser definido por la rutina de media direccional. El origen de referencia pueden ser asignados a: 1. Uso de la esquina inferior izquierda, definida por el mínimo de los valores X e Y. Este valor es por defecto. 2. Uso de la esquina superior derecha, define por los valores máximos X e Y. 3. Un punto de origen diferente. Con este último, el usuario debe definir el origen.
Medida de parámetros En la pestaña medida de parámetros (Measurement Parameters), se define las unidades y el la cobertura del área en estudio, y el tipo de distancia a utilizar. En esta ventana hay tres componentes que se definen: Area En primer lugar, debe definirse el área geográfica de la zona de estudio, y la unidades de superficie en kilómetros cuadrados, millas náuticas cuadradas, pies cuadrados o metros cuadrados. Independientemente de las unidades en que se han definido los datos en el archivo principal, CrimeStat puede convertir diversas unidades de área. Estas unidades se utilizan en la rutinas del vecino más cercano, Ripley’s ‘K´, cluster jerárquica, STAC, y clustering de K-means. En caso de que las unidades de superficie no esten definidas, CrimeStat define un rectángulo por el mínimo y el máximo de las coordenadas X e Y. Longitud de la red de calle En segundo lugar, se define la Longitud total de la red de calle (Length of street network) del área de estudio o una comparación adecuada de red, como por ejemplo, un sistema de autopista; y se define tambien las unidades de distancia (kilómetros, millas náuticas, pies, kilómetros, metros). La longitud de la red de calle es utilizada por la rutina análisis lineal del vecino más 10
cercano. Independientemente de las unidades que se ha utizado en la data del archivo principal, CrimeStat puede convertir las unidades de medición a distancia. La distancia deberá estar en la misma métrica como la unidades de superficie (por ejemplo, millas y millas cuadradas, metros y metros cuadrados.) Tipo de distancia En tercer lugar, se define las distancias a usar en los calculos (Type of distance measurement). Hay tres opciones: 1. Distancia directa 2. Distancia indirecta (Manhattan) 3. Distancia de Red Gráfico 2,11 Distancia directa Si se usa distancia directa, cada distancia es calcula como la distancia más corta entre dos puntos. Si se las coordenadas son esféricas (es decir, latitud, longitud), entonces la distancia directa más corta es un arco de circulo sobre una esfera. Si las coordenadas son proyecciones, entonces, la distancia más corta directa es una línea recta en un plano euclidiano. Distancia Indirecta Si se usa la distancia indirecto, cada distancia se calcula como la distancia más corta entre dos puntos en una cuadrícula, esto es, la distancia está limitada a la direcciones horizontal o vertical (es decir, no en diagonal). Esta distancia es llamada métrica de ’Manhattan’. Si son coordenadas esféricas (es decir, latitud, longitud),entonces la distancia indirecta más corta es un ángulo recto modificado sobre un triángulo rectángulo esférico; escribir más detalles. Si las coordenadas son proyecciones, entonces la distancia indirecta más corta es el ángulo recto de un triángulo rectangulo sobre un plano de dos dimensiones. 11
Distancia en Red Si se utiliza distancias en red, cada distancia es calculada como el camino más corto entre dos puntos en la red. Alternativamente la distancia puede utilizarse incluyendo velocidad, tiempo de viaje o recorrido, o costo de viaje. Haciendo clic en la casilla parámetros de la red (Network parameters), aparece una ventana con los parámetros de red, donde debe identificar el archivo de red, Tipo de red, Entrada del Archivo de red, Ponderación sobre la Red, From one-way flag and To one-way flag, Identificando nodo partida (FromNode ID) y terminal (ToNode ID Sistema de coordenadas Unidades de medida y Límite gráfico de Red: Tipo de red Los archivos de Red pueden ser bi-direccional (por ejemplo, un archivo TIGER) o uni-direccional (por ejemplo, un archivo para modelación del tránsito). En un archivo bi-direccional, se puede viajar en cualquier dirección; mientras que en un archivo uni-direccional, sólo se puede viajar en una dirección. Debe especificar el tipo de Red que se utilizará. Tipo de Archivo de entrada Los archivos de red pueden ser archivo tipo shape (.shp) o archivo tipo dBase IV ’dbf’, Microsoft Access’ mdb ’, Ascii’ dat ’, o un archivo compatible con ODBC. Por defecto el archivo es tipo shape. Si el archivo es de tipo shape, la rutina debe conocer la localización de los nodos. Para un archivo dBase IV u otro tipo, las coordenadas X e Y de los nodos deben ser definidas; estos son Llamados "Partida"(From) del nodo y "Terminal"(End) del nodo. Una variable peso opcional es permitida para los archivos tipos file0073. La rutina identifica nodos, segmentos, y calcula la trayectoria más corta. Si hay un camino uni-direccional en un archivo bidireccional, los campos para nodos de "Partidaτ terminal deben ser definidos. Ponderación sobre la Red Normalmente, cada segmento en de la red no es ponderado. En este caso, la rutina calcula la distancia más corta entre dos puntos, utilizando la distancia de cada segmento. Sin embargo, cada segmento puede ser ponderado 12
por el tiempo de viaje, velocidad o costo de viaje. Si el tiempo de viaje es utilizado para ponderar el segmento, la rutina calcula el menor tiempo para cualquier ruta entre dos puntos. Si la velocidad se utiliza como ponderación del segmento, la rutina convierte esto en el tiempo de viajes, dividiendo la distancia por la velocidad. Por último, si los costos de viaje se utiliza como ponderación, la rutina calcula la ruta con el menor costo total de viaje. Especifique la ponderación que utilizará (weight column) y asegúrese de indicar las unidades de medida (distancia, velocidad, tiempo de viaje, costo de viaje) en la parte inferior de la ventana. Si no se asigna ponderación, entonces la rutina se ejecuta utilizando la distancia. From one-way flag y To one-way flag Un segmento uni-direccional pueden ser identificado en un archivo bidireccional por el campo (from one-way flag), es decir, no es necesario un archivo uni-direccional. El ’flag’ es un campo para los nodos finales del segmento con valores ’0’ y ’1’. Un ’0 ’indica que los viajes pueden pasar a través de ese nodo en cualquier dirección, mientras que un ’1’ indica que el viaje sólo puede pasar del nodo del mismo segmento (por ejemplo, los viajes no puede ocurrir de otro segmento que está conectada al nodo). Por defecto se asume que los viajes pueden pasar través de cada nodo,(es decir, se supone un’0 ’para cada nodo). Para cada calle de dirección única, debe especificar las flags para cada nodo terminal. Un ’0’ permite viajar desde cualquier conexión de segmentos, mientras que un ’1’ sólo permite viajar desde el otro nodo del mismo segmento. Flag Marcar los campos que están en blanco se supone que permiten viajar a pasar en cualquier dirección. Identificando nodo partida (FromNode ID) y nodo terminal (ToNode ID) Si la red es uni-direccional, hay un segmento individual para cada dirección. Normalmente, dos calles tienen dos segmentos, uno para cada dirección. Por otra parte, calles con un solo sentido, tienen sólo un segmento. Las casillas FromNode ID y ToNode ID, identifican el inicio y el final del segmento de los viajes debería ocurrir, respectivamente. Si no se definen los FromNode ID y ToNode ID, la rutina elige el primer segmento de un par que encuentre, en dirección equivocada o correcta. Para determinar correctamente la dirección de viaje, debe definirse los campos FromNode ID y ToNode ID. 13
Sistema de coordenadas El archivo de red usa el mismo sistema de coordenadas que que el archivo primario. Unidades de medida Por defecto, la trayectoria más corta es en términos de distancia. Sin embargo, cada segmento puede ser ponderado por el tiempo de viaje, velocidad de viaje, o costo de viaje. 1. Para el tiempo de viaje, las unidades son minutos, horas o unidades de costo sin especificar. 2. Para la velocidad, las unidades son millas por hora y kilómetros por hora. En el caso de velocidad como una variable de ponderación, automáticamente es convertido el tiempo de viajes, por dividiendo la distancia del segmento por la velocidad, manteniendo las unidades constantes. 3. Para costo de viaje las unidades no están definidas, la rutina identifica aquellas rutas con el menor costo total. Límite gráfico de Red Finalmente, el número de segmentos gráficos a ser calculados es definido como el límite de red. Por defecto, el valor es 50.000 segmentos. Debe asegurarse que este número es ligeramente mayor que el número de segmentos en su red. Observacion: Usando la distancia red (network distance), los cálculos de distancia puede ser un proceso lento, por ejemplo, puede tomar varias horas para cálcular toda una matriz. Utilice mayor precisión sólo si es necesario, o para la rutina de asignación de red en el módulo de demanda recorrido del crimen. Salvar parámetros Hay un botón o pestaña Guardar parámetros (Save parameters) en la sección Opciones. donde todos los parámetros de entrada pueden ser guardados. Un archivo de parámetros guardados tiene una extensión ’param’. Un 14
archivo de parámetros guardados puede ser recargado con el botón cargar parámetros (Load parameters).
1.2.2. Descripción espacial En esta sección se estudia las estadísticas descriptivas de la distribución espacial; haciendo clip en la pestaña ‘spatial description´, se abre la ventana que muestra las pestañas para la descripción espacial (spatial description), análisis de distancia I y II (distance analysis), y análisis de puntos calientes I y II (’Hot Spot’). A continuación describimos brebemente cada una de estas rutinas:
Descripción espacial Esta pestaña descripción espacial (spatial description) nos proporciona las estadística que describe la distribución espacial total. Los estadísticos que estudiamos en esta sección a veces son llamados estadísticos espaciales de primer-orden, globales. Hay cuatro rutinas que describen la distribución espacial, y dos rutinas para describir autocorrelación espacial. Las variable intensidad y ponderación puede ser utilizada por las primeras tres rutinas. La variable intensidad es necesaria para las rutinas de autocorrelación espacial; la variable ponderación también puede ser usada por las rutiunas de índice autocorrelación espacial. Todo los resultados pueden guardarse como archivos de texto. Algunos salidas o resultados se pueden guardar como objetos gráficos, para ser importardos por programas de Sistemas de información geografica SIG. Media Central y Distancia Estándar (Mcsd) La media central y la distancia estándar definen la ubicación de la media aritmética y el grado de dispersión de la distribución. La rutina Mcsd calcula 9 estadísticos: 1. El tamaño de la muestra. 2. Los valores mínimos de X e Y. 3. Los valores máximo de X e Y. 15
4. Las coordenadas de la media central (X e Y). 5. La desviación estándar de las coordenadas X e Y. 6. Las coordenadas X e Y de la media geométrica. 7. Las coordenadas X e Y de la media armónica. 8. La desviación de la distancia estándar, en metros, pies y millas. Esta es la desviación de la distancia estándar de media central a cada punto. 9. El círculo de área (area circular) definida por la desviación de distancia estándar, en metros cuadrados, pies cuadrados y millas cuadradas. La salida tabular y la media central (media de X, media de Y) pueden imprimirse. La media geométrica, la media armónica, las desviaciones estándar de las coordenadas X e Y, y la desviación de la distancia estándar se pueden obtener en archivo u objetos gráficos en formatos para ArcView ’Shp’, MapInfo ’mif’, Atlas*GIS ‘bna´; pero debe darle un nombre de raíz a cada uno. La media central, la media geométrica y la media armónica salen como un punto con nombre del archivo (MC ), (GM ) y (HM ) respectivamente. La desviación estándar de las coordenadas X e Y salen como un rectángulo (XYD ). La desviación de distancia estándar sale como un círculo (SDD). Elipses de desvío estándar (Standard Deviational Ellipse) (Sde) El Elipse de desvío estándar define la dispersión y la dirección (orientación) de la distribución. Esta rutina calcula 9 estadísticos: 1. El tamaño de la muestra. 2. El ángulo de rotación del Y-eje, medido en grado en sentido de las agujas del reloj. 3. La proporción de largo a corto después de los ejes, después de rotación. 4. La desviación estándar a lo largo de los nuevos ejes X e Y. 5. La longitud de los ejes X e Y. 16
6. El área de la elipse definida por los ejes X e Y. 7. La desviación estándar a lo largo de los ejes X e Y. 8. La longitud de los ejes X e Y, para dos desviación estándar elipsoidal 2X. 9. El área para dos desviación estándar elipsoidal (2X) definido por estos ejes Las salida tabular se puede ser impresa, y los resultados de 1X y 2X desviaciones estándar elipsoidal o Elipse de desvío estándar, se puede obtener como como archivos u objetos gráficos en formatos para ArcView ‘Shp´, MapInfo ‘mif´, Atlas*GIS ‘bna´; proporcionandole un nombre de raíz (origen). La desviación estándar eclipse de 1X es una salida como un elipse (SDE ). La desviación estándar elipse de 2X es una salida como un elipse con ejes dos veces mas grande que la desviación estándar elipse 1X (2SDE ). Si la data está distribuida normalmente, entonces una desviación estándar elipse (1X) captura aproximadamente el 68 % de los casos, y dos desviación estándar elipse (2X) captura aproximadamente el 95 % de los casos, sin embargo, cualquier distribución puede desviarse de considerablemente de la forma normal y los porcentajes reales pueden variar. La mediana Central (MdnCntr) La mediana central es la intersección de las medianas de las coordenadas X e Y, esta aproximadamente en el medio de la distribución. Sin embargo, la mediana central depende de la orientación de los ejes, por lo que debe utilizarse con precaución. Esta rutina (MdnCntr) proporciona 3 estadísticos: 1. El tamaño de la muestra. 2. La mediana de X. 3. La mediana de Y. Los resultados tabulares pueden imprimirse, y la mediana central puede salir como objeto gráfico o archivo para ArcView ‘shp´, MapInfo ’mif’ o Atlas*GIS ‘bna´, proporcionandole un nombre de raíz (origen). La mediana 17
central sale como un punto con nombre del archivo (MdnCntr ). Centro de mínima distancia (Mcmd) El centro de mínima distancia define el punto para el cual la distancia a todos los demás puntos es mínima. Esta rutina (Mcmd) proporciona 5 estadísticos: 1. El tamaño de la muestra. 2. Las medias de las coordenadas X e Y. 3. El número de iteraciones requeridas para identificar el centro. 4. El grado de error (tolerancia) para detener las iteraciones. 5. Las coordenadas X e Y que definen el centro de mínima distancia. La salida tabular puede imprimirse, y el centro de mínima distancia puede salir como objeto gráfico o archivo para ArcView ‘.shp´, MapInfo ’.mif’ o Atlas*GIS ‘.bna´, proporcionándole un nombre de raíz (origen). El centro de mínima distancia sale como un punto y con nombre (Mdn). Media Direccional y Varianza (Mcmd) La media direccional o angular y la varianza, son propiedades de la medida angular. La media angular es un ángulo definido a partir del Norte: 0 grados. La varianza direccional es un indicador relativo, que varía de 0 (sin variación) a 1 (máxima variación). Tanto la media angular como la varianza direccional pueden calcularse a través de las coordenadas direccionales (angulares) o a través de coordenadas X e Y. Si el archivo principal presenta coordenadas direccionales (ángulos de 0 a 360 grados),la media angular se calcula directamente a partir de los ángulos. Una variable distancia opcional puede ser incluida. En este caso, la rutina media direccional proporciona la salida de cinco estadísticos: 1. El tamaño de la muestra. 2. La media angular sin ponderacion. 18
3. La media angular ponderada. 4. La varianza circular sin ponderación. 5. La varianza circular ponderada. Por otro lado, si en el archivo primario los incidentes se definen en coordenadas X e Y, los ángulos son definen en relación con el origen de referencia (ver archivo referencia), y ángulo medio se convierte en una ecuación. En este caso, la rutina media direccional ofrece nueve estadísticos: 1. El tamaño de la muestra; 2. La media angular no ponderada 3. La media angular ponderada 4. La variancia circular no ponderada 5. La variancia circular ponderada 6. la distancia media 7. La intersección de la media angular y la distancia media (media direccional). 8. Las coordenadas X e Y de la media triangular. 9. Las coordenadas X e Y de la media triangulados ponderada. La media direccional y media triangulada se pueden guardar como archivos ArcView ’.shp’, MapInfo ’.mif’, o Atlas*GIS ’.bna’. La media direccional no ponderada, la intersección de media angular y la distancia media sale con el prefijo ‘Dm´, mientras que la posición (ubicación) de la media triangular no ponderada sale con el prefijo ‘Tm´. La media triangulada ponderada sale con prefijo ‘TmWt´. Los resultados tabulares se pueden imprimir. Capsula Convexa (Chull) La Capsula Convexa dibuja un polígono en torno a los puntos exteriores de la distribución. Es útil para ver la forma de la distribución. Esta rutina proporciona tres estadísticos: 19
1. El tamaño de la muestra. 2. El número de puntos en la capsula convexa. 3. Las coordenadas X e Y para cada uno de los puntos en la capsula convexa. La capsula convexa se pueden guardar como archivo para ArcView ’shp’, MapInfo ’mif’, o Atlas*GIS ’bna’ con el prefijo ’Chull’.
Autocorrelación espacial En esta sección de Autocorrelación espacial (Spatial autocorrelation) se presentan dos indices de autocorrelación espacial, índice de Moran y el índice de Geary’s; además se presenta también el correlograma de Moran. Los índices de autocorrelación espacial permiten identificar si los puntos de localizacion estan o no relacionados espacialmente (es decir, en cluster o dispersos). Ambos rutinas requieren la variable intensidad en el archivo principal. Estadístico I de Moran
(MoranI)
El índice o estadístico I de Moran, es el indicador clásico de autocorrelación espacial. Se trata de un índice de covarianza entre los diferentes puntos de localización, similar al coeficiente de correlación (producto momento), su valor se encuentra entre -1 y 1. Esta rutina calcula seis estadísticos: 1. El tamaño de la muestra. 2. El índice de Moran’s "I". 3. El valor esperado del índice "I" (valor aleatorizado espacialmente). 4. La desviación estándar del índice "I". 5. Una prueba de significación para "I", bajo el supuesto de normalidad (Z-test) 6. Una prueba de significación para "I", bajo el supuesto de la aleatorización (Z-test).
20
Los valores del índice superiores al valor esperado "I", indican cluster, mientras que los valores inferiores al valor esperado, indican dispersión. La significancia de la prueba indica si esas diferencias son mayores a las esperadas por azar. Los resultados se pueden imprimir. Ajuste para las pequeñas distancias Si se selecciona esta pestaña (Adjust for small distances), las pequeñas distancias son ajustados de manera que la distancia máxima ponderada es 1. De esta forma se garantiza que el índice "I", no sea excesivamente grande para puntos que se encuentran muy próximos entre sí. Por defecto la configuración no es ajustada. El C de Geary El estadístico C Geary, es un indicador alternativo de autocorrelación espacial. Se trata de un índice de comparación entre los diferentes pares de localizaciones. Varía de 0 a 2, cero para valores similares y dos para valores disímiles. La rutina Geary calcula 5 las estadísticos: 1. El tamaño de la muestra. 2. El índice C de Geary. 3. El valor esperado C (valor espacialmente aleatorizado). 4. La desviación estándar de C. 5. Una prueba de significación para C, bajo el supuesto de normalidad (Z-test). Los valores de C inferior al valor esperado indicar cluster, mientras que los valores de C mayor al valor esperado indican la dispersión. La significancia de la prueba indica si esas diferencias son mayores al valor esperado por azar. Los resultado se pueden imprimir. Ajuste para las pequeñas distancias Si se selecciona esta pestaña (Adjust for small distances), las pequeñas distancias son ajustados de manera que la distancia máxima ponderada es 1. 21
Esto asegura que el índice C, no sea excesivamente grande para puntos que se encuentran muy próximos. Por defecto la configuración es no ajustada. Correlograma de Moran El Correlogram de Moran calcula el índice de Moran’s "I"(no ajustado para las pequeñas distancias), para diferentes intervalos de distancia. El usuario puede seleccionar cualquier número de intervalos de distancia. Por defecto son 10 intervalos de distancia. Ajuste para las pequeñas distancias Si se selecciona esta pestaña (Adjust for small distances), las pequeñas distancias son ajustados de manera que la distancia máxima ponderada sea igual a 1. Esto asegura el índice de Moran’s "I" no, sea excesivamente grande o demasiado pequeño para puntos que se encuentran muy próximos. Por defecto la configuración es no ajustada. Simulación de intervalos de confianza Mediante una simulación de Monte Carlo se puede obtener una estimación aproximada de intervalos de confianza alrededor del indice "I". Seleccionando un número específico de simulaciones a ejecutar (por ejemplo, 100, 1000, 10000). La salida incluye: 1. El tamaño de la muestra. 2. La distancia máxima. 3. El número de intervalos (bins). 4. El punto medio de la distancia bin. 5. El valor "I"de la distancia bin (I[B]). Si la simulación es ejecuta, la salida incluye:
22
6. El valor mínimo de "I" para la distancia bin. 7. El valor máxima "I"para la distancia bin. 8. El percentil 0,5 para la distancia bin. 9. El percentil 2,5 para la distancia bin. 10. El percentil 97,5 para la distancia bin. 11. El percentil 99,5 para la distancia bin. Los dos pares de percentiles (2.5 y 97.5; 0.5 y 99.5) crean un intervalo de confianza aproximadamente de 5 % y 1 %, respectivamente. Los valores mínimo y máximo de "Içrean un intervalo. Los resultados tabulares se pueden imprimir, salvar como archivo de texto o salvados como archivo ’.dbf’. Para Salvar los resultados haga clic en la casilla ‘Save result to´, y especifique el nombre del archivo. Representación gráfica del índice "I": valores por distancia Un gráfico que muestra los valores "I" sobre el eje Y, y por distancia bin sobre el eje X; haciendo clic en el botón "Graph", se muestra el gráfico. El gráfico muestra la reducción de la autocorrelación espacial con la distancia. El gráfico es útil para seleccionar el tipo rutina de interpolación de kernel simple o Dual, cuando la variable principal es ponderada (ver interpolación).
Análisis Distancia El análisis de distancia proporciona estadísticos acerca de las distancias entre los puntos o localizaciones. Esta técnica es útil para identificar el grado de cluster de puntos. Algunas veces es llamado análisis de segundo orden. El análisis de distancia se presenta en dos pestañas o ventanas diferentes, análisis de distancia I y análisis de distancia II. En la primera ventana hay dos rutinas para describir las propiedades de las distancias. Y la segunda hay cuatro rutinas para calcular distancia de matrices.
Análisis de distancia I 23
En esta sección se calculan las rutinas de análisis de vecinos más cercanos (Nearest Neighbor Analysis) y el estadístico K de Ripley "K" (Ripley’s "K" Statistic). Análisis de vecinos más cercanos (Nna) El índice del vecino más cercano ofrece una aproximación acerca de si los puntos están más agrupados o dispersos de acuerdo a lo que puede esperarse basado en la aleatoriedad. Se compara la distancia promedio de otros puntos más cercanos (vecino más cercano), con la distancia esperada espacialmente aleatorizada dividiendo el promedio empírico de la distancia del vecino más cercano por la distancia esperada (índice de vecino mas cercano). La rutina del vecino más cercano requiere que el área geográfica y la distancia directa ingresen o se indiquen en la ventana "Measurement Parameters". La rutina Nna calcula 10 estadísticos: 1. El tamaño de la muestra. 2. La distancia media del vecino más cercano. 3. La desviación estándar de la distancia del vecinos más cercanos. 4. La distancia mínima. 5. La distancia máxima. 6. La distancia media aleatorizada (tanto el rectángulo acotado, como para el área introducida por el usuario, si es proporcionada). 7. La distancia media dispersa (tanto el rectángulo acotado, como para el área introducida por el usuario, si es proporcionada). 8. El Índice del vecinos más cercanos (tanto el rectángulo acotado, como para el área introducida por el usuario, si es proporcionada). 9. El error estándar del índice del vecino más cercanos (tanto el rectángulo acotado, como para el área introducida por el usuario, si es proporcionada). 10. Una prueba de significación para el índice de los vecinos más cercanos (Z-test). 24
Los resultados pueden imprimirse, salvarse como archivo de texto o archivo ’dbf’. Número de vecinos más cercanos El K-ésimo índice del vecino mas cercano compara la distancia promedio del K-ésimo punto más cercano con la distancia esperada espacialmente aleatorizada. Si más de una vecindad cercana sera calculada, el usuario puede indicar el número K de vecindades cercanas a calcular. CrimeStat calculará 3 estadísticos para cada orden especificado: 1. La distancia media del vecinos más cercano en metros para el orden. 2. La distancia esperada del vecino más cercano en metros para el orden. 3. El Índice del vecinos más cercanos para orden. La rutina Nna usará el área definida por usuario, a menos que esta no se proporcione, en cuyo caso se usará el rectángulo acotado. Los resultados tabulares se pueden imprimir, salvarlo como un archivo de texto o como archivo ’.dbf’. Análisis del vecino lineal más cercano El índice lineal del vecino más cercano proporciona una aproximación en cuanto a si los puntos están mas cercanos o dispersado a lo largo caminos de segmentos, de lo que se esperaría en condiciones aleatorias. Seleccionando la distancia indirecta (Manhattan) e introduciendo la longitud total de la red de camino, en la ventana parámetros de medida (Measurement Parameters), la rutina Nna calculará el vecino lineal más cercano calculará (cuando la casilla esté marcada). El índice del vecino lineal más cercano es la relación empírica del promedio de distancia del vecino lineal más cercanos con la distancia lineal esperada al azar. La rutina Nna calcula 9 estadísticos para los índice del vecinos lineales más cercanos: 1. El tamaño de la muestra. 2. La distancia media lineal del vecinos más cercanos en metros, pies y millas. 25
3. La distancia mínima entre los puntos a lo largo de una red grill (red de rejilla). 4. La distancia máxima entre los puntos a lo largo de una red grill (red de rejilla). 5. La distancia media lineal aleatoria. 6. El Índice del vecino lineal más cercano. 7. La desviación estándar de la distancia del vecino lineal más cercanos en metros, pies y millas. 8. El error estándar del Índice del vecinos lineal más cercano. 9. Una prueba "t" de la diferencia entre la distancia empírica y la esperada del vecino lineal más cercanos. Número de vecino lineal más cercano La rutina Nna puede calcular el K-ésimo vecino lineal más cercanos, y comparar esta distancia con el promedio de la distancia lineal del K-ésimo punto más cercano con la distancia esperada espacialmente aleatorizada. Si es necesario más de un vecino lineal más cercano a calcular, el usuario puede indicar el número de K de vecinos lineal más cercanos. CrimeStat calculará 3 de estadísticas para cada orden especifico: 1. La distancia media del vecinos lineal más cercano en metros para el orden. 2. La esperanza del vecinos lineal más cercano en metros para el orden. 3. El índice del vecino lineal más cercano para el orden. Corrección de borde del vecino más cercano La rutina del análisis del vecino más cercano (área o lineal) no se ajusta para subestimar incidentes cerca de la frontera en la zona de estudio. Es posible que haya vecinos cercanos fuera de los límites que estén más cerca que la medida o valor del vecino cercano. El análisis del vecino más cercano tiene tres opciones para corrección borde: 26
1. No ajustado - Por defecto. 2. Ajuste por área de estudio como rectángulo. 3. Ajuste por área de estudio como círculo. La correccion de borde rectangular o circular ajustan la distancia del vecino más cercano a puntos cerca de la frontera. Si un punto está más cerca del borde (en rectángulo o círculo) que a la distancia medida del vecino más cercano, entonces la distancia de borde es tomada como la distancia ajustada del vecina más cercano. Estadístico K de Ripley El estadístico de Ripley’s compara el número de puntos en cualquier distancia con número esperado espacialmente aleatorio. La cuenta empírica es transformada en función de raíz cuadrada, llamada L, y es ajustada a la orientación. Los valores L mayores al límite superior de las simulaciones indican concentración, mientras que valores menores al límite inferior de las simulaciones indican dispersión. El valor L es calculado para cada 100 intervalos de distancia (bins). Esta rutina calcula es 6 estadísticos: 1. El tamaño de la muestra. 2. La distancia máxima. 3. 100 distancia bins. 4. La distancia para cada bin. 5. El estadístico transformado, L(t), para cada distancia bin. 6. La esperanza aleatorizada L, bajo completa aleatoriedad espacial, L(csr). Además, CrimeStat puede estimar la distribución de muestreo ejecutando simulaciones de Monte Carlo espacialmente aleatoriazada sobre el área en estudio. Si se específica una o más simulaciones, la rutina calcula seis estadísticos adicionales: 7. El valor mínimo de L para las simulaciones espacialmente aleatoria. 27
8. El máximo valor de L para las simulaciones espacialmente aleatoria. 9. El percentil 0.5 para el valor L de las simulaciones espacialmente aleatoria. 10. El percentil 2,5 para el valor L de las simulaciones espacialmente aleatoria. 11. El percentil 97,5 para el valor L de las simulaciones espacialmente aleatoria. 12. El percentil 99,5 para el valor L de las simulaciones espacialmente aleatoria. Los resultados tabulares pueden imprimirse, salvarse como archivo texto o como archivo ’.dbf’. Corrección borde del estadístico Ripley’s K La configuración predeterminada (por defecto) para el estadístico Ripley’s K es no ajusta a casos cerca de la frontera en zona de estudio. Sin embargo, es posible que haya puntos fuera del área de estudio que están más cerca que el radio de búsqueda que se utiliza para enumerar el K estadístico. El estadístico K Ripley tiene tres opciones de corrección borde: 1. Sin ajuste - Por defecto 2. Un ajuste que asume el área de estudio como un rectángulo. 3. Un ajuste que asume el área de estudio como un círculo. La correccion de borde rectangular o circular, para ajustar del estadístico K Ripley en puntos cerca de la frontera. Si la distancia de un punto a la frontera (de un rectángulo o un círculo) es más pequeña que el radio del círculo usado para enumerar los K estadísticos, entonces el punto es ponderado inversamente proporcional al área del radio de búsqueda que está dentro de la frontera. Salida de resultados intermedios
28
Hay una casilla denominada salida de resultados intermedios (Output intermediate results). Al seleccionada esta casilla, la salida muestra como un archivo ".dbf"que enlista los cálculos intermedios. El archivo recibe el nombre de RipleyTempOutput.dbf"; y la salida ofrece cinco resultados: 1. El número de puntos (POINT), comenzando en 0 (para el primer punto) y hasta a el N-1 (para el N-ésima punto). 2. El radio de búsqueda en metros (SEARCHRADI) 3. La cuenta o número de otros puntos que se encuentran dentro del radio de búsqueda (COUNT) 4. El peso asignado, calculando las ecuaciones 5,24 ó 5,28 (WEIGHT). 5. The count times the weight (CTIMESW) Asignar puntos primarios a puntos secundarios Esta rutina asigna a cada punto primario un punto secundario, luego suma el número de puntos primarios asignados a cada punto secundario. Es útil para añadir el número de los puntos primarios que están cerca de cada punto secundario. For example, in the crime travel demand module, this routine can assign incidents to zones as the module uses zonal totals. El resultado es una cuenta de puntos primarios asociado con cada punto secundario. También es posible sumar diferentes variables secuencialmente. Por ejemplo, en el módulo demanda viajes de crimen, tanto el número de delitos originarios en cada zona, como el número de crímenes que ocurren, son necesarios. Esto se puede lograr de dos maneras. Primero, sumando los incidentes por coordenadas de origen en cada zona (secundaria archivo), y en segundo lugar, sumar de los incidentes por coordenadas de destino de cada zona (también archivo de secundaria). El resultado serán dos columnas, una muestra el número de orígenes en cada zona del archivo secundaria y el segundo muestra el número de destinos en cada zona del archivo secundaria. Métodos de asignación: Hay dos métodos para asignar puntos primarios a los puntos secundarios. Asignación del vecino más cercano 29
Esta rutina asigna a cada punto primarios los puntos secundarios que están más cerca. Si hay dos o más puntos secundarios que son exactamente iguales, la asignación va al primero en la lista. Asignación de Puntos - en - polígono Esta rutina asigna a cada punto primario el punto secundario que cae dentro de su polígono (zona). Deben proporcionarse un archivo shape (polígono) de la zona y la rutina comprueba dentro qué zona secundaria cae dentro cada punto primario. Archivo de zona Un archivo de zona debe ser proporcionado. Esto es un archivo polígono que define la zona en que los puntos primarios son asignados. El archivo de zona debe ser como el archivo de secundaria (ver en archivo de secundaria). Para cada punto en el archivo primario, la rutina identifica a cual polígono pertenece y luego suma el número de puntos por polígono. Nombre asignado a la variable Debe especificar el nombre de la variable suma. Por defecto el nombre es FREQ. Uso de un archivo de ponderación Los registros del archivo primario pueden ser ponderados por otro archivo. Esto será útil para corregir los totales del archivo primario. Por ejemplo, si suponemos que en el archivo primario los incidentes de robo corresponden a un registro de detención o arresto, la suma de esta variable (por ejemplo, el número total de robos) puede producir un sesgo en la distribución sobre las zonas del archivo secundario, debido a que el archivo principal no proviene de una muestra tomada al azar de todos los incidentes (por ejemplo, si esta información proviene de un registro de detención donde la distribución de detenciones de robo, no es igual a la distribución de todos los incidentes de robo). El segundo archivo o cualquier otro archivo puede ser usado para ajustar 30
la suma total. La variable ponderación debe tener un campo que identifique la proporción o cociente de la verdadera cuenta medida para cada zona. Un valor de 1 indica que el valor suma para cada zona es igual al valor real, por lo que no es necesario un ajuste. Un valor superior a 1 indica que el valor suma debe ser ajustado hacia arriba igualar el verdadero valor. Un valor inferior a 1 indica que el valor suma necesita ser ajustardo hacia abajo para igualar el verdadero valor. Si se utiliza otro archivo para ponderación, debe indicar el nombre del archivo, ya sea el secundario cualquier otro archivo. Nombre asignado a la variable ponderada Para una suma ponderada, especifique el nombre de la variable. Por defecto será FREQADJ. Almacenar el resultado Para ambas rutinas, la salida es un archivo ’.dbf’. Debe definir el nombre del archivo. Nota: Debe tener cuidado con el uso del mismo nombre del archivo secundario, como el archivo salvado ya que tendrá la nueva variable. Lo mejor es darle un nuevo nombre. Una nueva variable será añadida a este archivo que da el número de puntos primarios en cada zona de archivo secundario y, si la ponderación se utiliza, una segunda variable será añadida la cual tiene la frecuencia ajustada.
Distancia Análisis II La pestaña del Análisis de Distancia II (Distance Analysis II), abre una ventana que presenta cuatro rutinas para calcular la matrices distancia: 1. De cada punto primario a cualquier otro punto primario. 2. de cada punto primario a cada punto secundario. 3. De cada punto primario al centroide de cada célula de rejilla del archivo de referencia. Esta requiere definir un archivo de referencia. 31
4. De cada punto secundario al centroide de cada célula de rejilla del archivo de referencia. Esta requiere definir un archivo de referencia. CrimeStat puede calcular las distancias entre los puntos de un solo archivo o las distancias entre los puntos de dos archivos diferentes. Estas matrices pueden ser útiles para examinar la frecuencia de diferentes distancias o para proveer la matriz distancia a otro programa. Matriz distancia: Dentro de un mismo archivo, punto a punto (Matrix) Esta rutina da como resultado la matriz distancia entre los puntos del archivo primario, en unidades de distancia especificas (kilómetros, millas náuticas, pies, kilómetros o metros). La Matiz salida puede guardarse como un archivo distancia de CrimeStat, que puede ser usado para acelerar los cálculos en bruto. La matriz de salida también puede ser guardado como archivo texto. Matriz distancia: De los puntos del archivo primario a los puntos del archivo secundaria (IMatrix) Esta rutina muestra la distancia entre cada punto del archivo primario a cada uno de los puntos del archivo secundario, con unidad de distancia especificas (kilómetros, millas náuticas, los pies,kilómetros o metros). La salida IMatrix se puede guardar como un archivo distancia de CrimeStat, que puede ser usado para acelerar los cálculos en bruto. La salida IMatrix también se pueden guardar como archivo texto. Matriz distancia: De los puntos del archivo primarios a la rejilla (PGMatrix) Esta rutina muestra la distancia entre cada punto del archivo principal al centroide de cada celda de rejilla o cuadrícula del archivo referencia. El archivo de referencia debe proporcionarse como externo o definirse en la ventana correspondiente al archivo referencia en CrimeStat. Las unidades de distancia debe ser e especificadas (kilómetros, millas náuticas, pies, kilómetros o metros). La salida puede guardarse como un archivo distancia de CrimeStat; puede ser usado para acelerar el cálculo en bruto. La salida también se pueden guardar como un archivo texto. 32
Matriz distancia: De los puntos del archivo secundarios a la rejilla (SGMatrix) Esta rutina muestra la distancia entre cada punto del archivo secundaria al centroide de cada celda de la cuadrícula del archivo referencia. El archivo de referencia debe proporcionarse como externo o definirse en la ventana correspondiente al archivo referencia en CrimeStat. Igualmente las unidades de distancia deben ser especificadas (kilómetros, millas náuticas, pies, kilómetros o metros). La salida también se pueden guardar como un archivo texto.
Análisis de puntos o zonas calientes I (Hot Spot) El análisis de puntos o zonas calientes (Hot Spot o clusters) identifica los grupos con incidentes semejantes. Este es un método de análisis de segundo orden que identifica el grupo a que pertenecen los puntos. Hay una serie de rutinas diferentes para analizar zonas calientes en CrimeStat, organizadas en dos pestañas diferentes: Análisis de zonas calientes I (Hot Spot I) y Análisis de zonas calientes II (Hot Spot análisis II)
Análisis de zonas calientes I (Hot Spot I) El análisis de zonas calientes I incluye cuatro rutinas diferentes: 1. El modo (modo). 2. El modo difuso (Fmode). 3. Cluster jerárquica del vecino más cercano (Nnd). 4. Ajuste del riesgo del cluster jerárquica del vecino más cercano (Rnnh), El Modo La rutina del Modo (Mode) calcula la frecuencia de incidentes para cada localización, definida por las coordenadas X e Y. La salida será una lista de las localizaciones con sus coordenadas X e Y, y el número de incidentes ocurridos en cada una de ellas, clasificadas en orden decreciente, de la frecuencia mas alta a la frecuencia mas baja. También enlista su orden de rango de 1 33
hasta la última localización. La data puede salir como un archivo ’dbf’. Modo Fuzzy El modo difuso (Fuzzy Mode) calcula la frecuencia de incidentes para cada localización dentro de la distancia especificada por el usuario. El usuario debe especificar el radio de búsqueda y las unidades del mismo (kilómetros, millas náuticas, pies, kilómetros, metros). La rutina identifica la unicidad de cada localización, definida por sus coordenadas X e Y, y calcular el número de incidentes que caen dentro del radio de búsqueda. La salida es una lista de las localizaciones con sus coordenadas X e Y, y el número de incidentes ocurridos a dentro de cada radio de búsqueda, además las clasifica en orden decreciente desde le más frecuente a menos frecuente. Asimismo, enlista su rango ordenado de 1 a la última localización. Los resultados pueden salir como un archivo ’.dbf’. Cluster jerárquico espacial del vecino más cercanos (Nnh) El clustering jerárquico espacial del vecino más cercanos (neighbor hierarchical spatial clustering) es una rutina que usa una distancia constante para formar los clusters de puntos, basado en la proximidad espacial. El usuario debe definir la distancia y el número mínimo de puntos que se requieren para cada grupo, y una salida para mostrar el tamaño de los grupos con elipses. La rutina identifica las agrupaciones de primer orden, que representan grupos de puntos que están mas cerca, y en el que hay por lo menos el número mínimo de puntos especificados por el usuario. El clustering es jerárquica en sentido de que las agrupaciones de primer orden son tratados como puntos separados, para ser agrupados en un segundo orden de clusters, y el segundo orden de agrupaciones son tratadas igualmente como puntos separados, que se agrupan en un tercer orden de clusters, y así sucesivamente. Los clusters de orden superior serán identificados sólo si la distancia entre sus centros esta más cerca que la nueva de distancia. Los resultados tabulares pueden imprimirse, salvarse como archivo texto, o como archivo dbf. Además, los resultados pueden salir como objetos gráficos tipo elipses o cápsulas convexas (o ambos) para ArcView ‘.shp’, MapInfo ‘.mif’ o Atlas*GIS ‘.bna’. Debe seleccionar los nombres por separado para los archivos de elipse y casco convexo. 34
Esta rutina ofrece seis resultados para cada clusters que se calcula: 1. El orden jerárquico y el número de clusters. 2. La media central del clusters (media X, media Y). 3. El elipse de desviación estándar del cluster (la rotación y longitud de los ejes X e Y). 4. El número de puntos en el cluster. 5. El área del cluster. 6. La densidad del cluster (puntos divididos por área). Distancia umbral del Nnh La distancia umbral es el radio de búsqueda alrededor de un par de puntos. Para cada par de puntos, la rutina determina si ellos están más cercanos que el radio de búsqueda. Hay dos formas para determinar el radio de búsqueda o distancia (Nnh threshold distance): La distancia aleatoria del vecino más cercana En primer lugar, la distancia de búsqueda es elegida al azar de la distancia del vecinos más cercano. Por defecto el valor es igual a 0,1 (es decir, menos del 10 % de los pares se puede esperar que se encuentren más cerca por casualidad). Los Pares de puntos que están más cerca que la distancia umbral se agrupan, mientras que los pares de puntos que están a mayor distancia que la distancia umbral se ignoran. Cuanto menor sea el nivel de significación que se ha seleccionado, menor es el umbral de la distancia y, por lo general, el menor es número de pares que serán seleccionados. Por otra parte, la elección de un nivel mayor de significación, más grande es distancia umbral y, por lo general, más parejas de puntos serán seleccionados. Sin embargo, cuanto más alto es el nivel de significación elegido, mayor será la probabilidad de que los clusters sean agrupados al azar. La barra deslizante se utiliza para ajustar el nivel de significación. Moviendo la barra deslizante hacia la izquierda se elige una distancia umbral 35
menor, y hacia la derecha para elegir una distancia umbral mayor. Distancia fija En segundo lugar, se puede usar una distancia fija. Por defecto es de una milla. En este caso, el radio de búsqueda utiliza la distancia fija y la barra deslizante es inoperante. Número mínimo de puntos Nnh Esta pestaña permite al usuario especificar el número mínimo de puntos para cada grupo. El valor por defecto es 10 puntos. Las restricciones sobre el número de clusters puede ser colocado mediante la definición de un número mínimo de puntos que son requeridos. Si hay muy pocos puntos permitidos, entonces habrá muchos grupos pequeños, y al aumentar el número de puntos requeridos, el número de clusters se reduce. Salida de Elipse Los resultados pueden salir como objetos gráficos en forma de elipse, en formato de archivos para ArcView ‘.Shp’, MapInfo ‘.mif’ o Atlas*GIS ‘.bna´. El prefijo será ’NNH1’ para la elipse de primer orden, ’NNH2’ para las elipses de segundo orden elipses, y "NNH3 ’para la elipse tercer orden. Para elipses de orden mayor incluirán sólo el número índice. El tamaño de elipse Nnh El tamaño del cluster puede ser ajustado con la barra deslizante en la parte inferior de la ventana, especificando el número de desviaciones estándar del elipse: una desviación estándard (1X), desviación estándar y media (1.5xy), o dos desviaciones estándar (2X). Por defecto el valor es igual a una desviación estándar. Generalmente, una desviación estándar cubrirá más de la mitad de los casos, mientras que dos desviaciones estándar cubrirá más del 99% de los casos, aunque el porcentaje exacto dependerá de la distribución. Para seleccionar el número de desviaciones estándar para las elipses, use la barra deslizadora. Los archivo de salida se guarda como NND; el número es el orden del clustering (es decir, 1, 2), el nombre debe ser proporcionado por el usuario. 36
Las restricciones sobre el número de clusters puede ser definidos por el número de puntos requeridos. El valor por defecto es 10. Si se elige un número muy pequeño de puntos, entonces habrá muchos grupos pequeños; si embargo, al aumentar el número de puntos por requeridos, el número de clusters se reducirá. Salida de cluster como capsula convexa También los clusters pueden mostrarse como objeto grafico en forma de capsula convexa en archivos para ArcView ‘.Shp´, MapInfo ‘.mif´ o Atlas*GIS ‘.bna´. El nombre del archivo de salida debe especificarse, este saldrá con un prefijo ’CNNH1’ para el primer orden de agrupación, un ‘CNNH2´ para el segundo orden, ‘CNNH3’ para la agrupación de tercer orden. Para clusters de mayor orden sólo incluirán el número índice. Debe especificarse un nombre para el archivo. Ejecutando la simulación Nnh Mediante una simulación de Monte Carlo se puede estimar una aproximación por intervalo de confianza alrededor del clusters de primer orden de Nnh; para el cluster de segundo orden y los orden superior no son simuladas, ya que su estructura depende del cluster de primer orden. El usuario debe especifica el número de corridas para simulación y Cluster Nnh es calculado para datos asignados en forma aleatoriamente. La salida aleatoria es ordenada y se calculan los percentiles. La salida incluye los clusters de primer orden, el área, el número de puntos, y la densidad. Doce percentiles son identificados para estas estadísticas: 1. El Mínimo para las simulaciones espacialmente aleatorias 2. El máximo para las simulaciones espacialmente aleatorias 3. El percentil 0.5 para las simulaciones espacialmente aleatorias 4. El percentil 1 para las simulaciones espacialmente aleatorias 5. El percentil 2.5 para las simulaciones espacialmente aleatorias 6. El percentil 5 para las simulaciones espacialmente aleatorias 37
7. El percentil 10 para las simulaciones espacialmente aleatorias 8. El percentil 90 para las simulaciones espacialmente aleatorias 9. El percentil 95 para las simulaciones espacialmente aleatorias 10. El percentil 97,5 para las simulaciones espacialmente aleatorias 11. El percentil 99 para las simulaciones espacialmente aleatorias 12. El percentil 99,5 para las simulaciones espacialmente aleatorias Estos percentiles permiten una prueba de significancia de una cola o dos colas. Por ejemplo, para un 5 % la prueba de una cola utiliza el percentil 95, mientras que para el 5 % una prueba de dos colas utiliza los percentiles 2.5 y 97.5. La data simulada utilizada pueden ser vista marcando en ventana Opciones, la casilla ’Dump simulation data’. Ajuste del Riesgo de clusters espacial jerárquico del vecino más cercano (Rnnh) El ajuste del Riesgo del clusters espacial jerárquico del vecino más cercano (Rnnh) es una rutina que agrupas los puntos muy cercanos basandose en la proximidad espacial, pero la agrupación es ajusta de acuerdo a la distribución de una variable de referencia. La rutina requiere los dos archivos primario y secundario,(por ejemplo, robos a mano y el segundo archivo,la población). En el segundo archivo en caso de usar la variable intensidad o peso debe ser especificada. El usuario selecciona una probabilidad umbral para agrupar al azar, un par de puntos muy cercanos, el mínimo número de puntos que se requieren para cada grupo, y el tamaño de salida para mostrar los clusters con elipses. Además, un modelo de densidad de kernel para la variable secundaria debe ser especificado. La distancia umbral es determinada por la probabilidad umbral, y la densidad de celda en la grilla es producida por la estimación de densidad del núcleo de la variable secundaria. Así, en zonas o áreas con alta densidad de la variable secundaria, la distancia umbral es menor que en áreas con baja densidad en la variable secundaria.
38
La rutina identifica clusters de primer orden, que representa grupos de puntos que están muy cercanos con la distancia umbral y en el que se encuentra por lo menos el mínimo número de puntos especificados por el usuario. El clustering es jerárquica en sentido en que las agrupaciones de primer orden son tratados como puntos separados, para ser agrupados en un segundo orden de clusters, y el segundo orden de agrupaciones son tratadas igualmente como puntos separados, que se agrupan en un tercer orden de clusters, y así sucesivamente. El clusters de orden superior es identificado sólo si la distancia entre sus centros es menor que la nueva distancia umbral. Los resultados se pueden imprimir, salvar como archivo texto, o como un archivo .dbf. Los resultados gráficos como elipses o cascos convexo (o ambos) pueden salir como archivos para ArcView .shp, MapInfo .mif o Atlas*GIS .bna. Los archivos de salida tanto para elipse como para casco convexo deben tener nombres diferentes. La rutina muestra seis resultados para cada cluster que calcula: 1. El orden jerárquico y el número de agrupación. 2. La media central del clusters (media X y media Y). 3. El elipse de desviación estándar del cluster (la rotación y longitud de los ejes X e Y). 4. El número de puntos en el cluster. 5. El área del cluster 6. La densidad del cluster (puntos dividido por área). Distancia umbral Nnh La distancia umbral es el intervalo de confianza alrededor de la distancia esperada (aleatoria) para un par de puntos. Sin embargo, a diferencia de la rutina Nnh dónde la distancia umbral es constante a lo largo del área en estudio, en rutina Rnnh la distancia umbral se ajusta inversamente proporcional a la distribución de la secunda variable. En las zonas con una alta densidad en la variable secundaria, la distancia umbral será pequeña, mientras que en áreas con baja densidad en la variable secundaria, la distancia umbral será 39
mayor. El probabilidad umbral por defecto es de 0,1 (es decir, menos del 10% de los pares que se espera se encuentren muy cerca bajo). Los Pares de puntos que están más cerca que la distancia umbral se agrupan, mientras que los pares de puntos que están a mayor distancia que la distancia umbral se ignoran. Cuanto menor sea el nivel de significación que se ha seleccionado, menor será la distancia umbral y, por lo general, menor número de pares serán seleccionados. Por otra parte, la elección de un nivel mayor de significación, mayor será la distancia umbral y, por en general, más pares serán seleccionados. Sin embargo, cuanto más alto sea el nivel significación elegido, mayor sera la probabilidad que los clusters sean agrupaciones alzar. La barra deslizante se utiliza para ajustar el nivel de significación. Para elegir una menor distancia umbral mueva la barra deslizante hacia la izquierda y hacia la derecho para escoger una mayor distancia umbral. Parámetros de riesgo Rnnh Una estimación de densidad de la variable secundaria debe ser calculada para ajustar la distancia de umbral de la variable primaria. Esto se hace a través de la estimación de densidad del kernel. En la pestaña parámetros de riesgo (risk parameters) se define este modelo. La segunda variable automáticamente se asume que debe ser la variable riesgo variable . Si se debe usar la variable ponderada o intensidad en el archivo secundario, esta debe seleccionarse. El usuario debe especificar el método de interpolation de kernel (normal, uniforme, quartic, triangular o exponencial negativo), y seleccionar el ancho de banda (intervalo fijo o adaptable). Si el intervalo de adaptación es utilizado, el tamaño muestra mínimo para el ancho de banda (radio de búsqueda) debe ser especificado. Si se usa un intervalo fijo, el tamaño del intervalo (radio) debe ser especificado junto con las unidades de medida (kilómetros, millas náuticas, pies, kilómetros, metros). Por último, las unidades de la densidad para la salida debe ser especificado (millas al cuadrado, cuadrado millas náuticas, pies cuadrados, kilómetro cuadrado, metros cuadrados). La rutina superpone una rejilla de 50 x 50 grillas en el área de estudio y calcula una estimación de densidad de kernel de la variable secundaria. La densidad es entonces re-escalada para igualar el tamaño de muestra de la variable primaria. Para cada celda, una distancia umbral específica es calculada 40
para agrupar en pares de puntos al azar. La probabilidad umbral seleccionada por el usuario se aplica a esta distancia umbral específica de cada celda para producir una distancia umbral que corresponde al intervalo de confianza. Los pares de puntos que están más cercanos que la distancia umbral específica de cada celda son seleccionados para el cluster de primer orden. Número mínimo de puntos Rnnh La casilla mínimo de puntos por clusters (minimum points for clusters) permite al usuario especificar un número mínimo de puntos para cada grupo. El valor por defecto es 10 puntos. El tamaño de salida para los clusters puede ser ajustado por la segunda barra deslizante, mediante número de desviaciones estándar definidas para los elipse; de una desviación estándar (el valor predeterminado) a tres desviaciones estándar. Generalmente, una desviación estándar cubre aproximadamente el 65 % de los casos, mientras tres desviaciones estándar cubrirá más del 99 % de los casos. Salida como Elipse Los resultados se pueden salir como objeto gráfico tipo elipse como archivos para ArcView .Shp, MapInfo .mif o Atlas*GIS .bna. El prefijo será RNNH1 para la elipse de primer orden, RNNH2 para la elipses de segundo orden, y RNNH3 para la elipse de tercer orden. Para elipse de orden superior sólo cambia el número índice. Tamaño de salida de elipse para Rnnh La salida del tamaño del cluster se puede ajustar en la parte inferior de la ventana con la barra deslizante. Con la barra deslizadora (number of standard deviations for the ellipses) se especifica el número de desviaciones estándar del elipse que se calcula para cada cluster: una desviación estándar, una desviaciones estándar y media (1.5xy), o dos desviaciones estándar (2X). Por defecto es una desviación estándar. Generalmente, una desviación estándar servirán para cubrir los más de la mitad de los casos, mientras que dos desviaciones estándar se cubrirá más del 99% de los casos, aunque el porcentaje exacto dependerá de la distribución. El archivo de salida se guarda como Rnnh . El número es el orden del cluster (es decir, 1, 2), mientras que el nombre raíz es proporcionado por el usuario. 41
La restricciones sobre el número de clusters puede ser colocado mediante la definición del número mínimo de puntos necesarios. Por defecto el valor es 10. Si se permiten muy pocos puntos, entonces habrá muchos grupos pequeños, y al aumentar el número de puntos necesarios, el número de clusters se reducirá. Cluster de salida como capsula convexo Los cluster también pueden salir como objeto gráfico tipo cápsula convexa en archivos para ArcView .Shp, MapInfo .mif o Atlas*GIS .bna. Debe especificarse el nombre del archivo, este sale con un prefijo CRNNH1, para el cluster de primer orden, con CRNNH2 para el cluster de segundo orden, y CRNNH3 para el cluster de tercer orden; y para clusters de orden superior sólo se cambia el número índice. Ejecutar una simulación Rnnh Una simulación de Monte Carlo puede ser ejecutar para obtener una estimación del confianza intervalos de alrededor del cluster de primer orden; para el cluster de segundo orden y de orden superior no se puede simularse, ya que su estructura depende del cluster de primer orden. El usuario especifica el número de simulaciones a ejecutar y el cluster Rnnh es calculado para datos asignados al azar. La salida aleatoria es ordenada y los percentiles son calculaddos. La salida incluye el número de cluster de primer orden, el área, el número de puntos, y la densidad. Doce percentiles se identifican para estas estadísticas: 1. El mínimo para la simulación Rnnh 2. El máximo para la simulación Rnnh 3. El percentil 0,5 para la simulación Rnnh 4. El percentil 1 para la simulación Rnnh 5. El percentil 2,5 para la simulación Rnnh 6. El percentil 5 para la simulación Rnnh 42
7. El percentil 10 para la simulación Rnnh 8. El percentil 90 para la simulación Rnnh 9. El percentil 95 ppara la simulación Rnnh 10. El 97,5 percentil para la simulación Rnnh 11. El percentil 99 para la simulación Rnnh 12. El 99,5 percentil para la simulación Rnnh La data simulada que se usa se puede ver marcando la casilla Salida de la Data simulada ’Dump Simulation Data’ en la ventana Optiones.
Análisis de puntos o zonas calientes II (Hot Spot II) La pestaña Análisis puntos calientes II (Hot Spot Analysis II) incluye tres rutinas diferentes: 1. Análisis espacio temporal del Crimen (STAC) 2. Cluster de K-Medias 3. Estadístico local de Moran como el de Anselin. Análisis espacio temporal del Crimen (STAC) El análisis espacio y tiempo del Crimen (Spatial and Temporal Analysis of Crime) es una rutina de cluster de distancia-variable. Inicialmente los grupos de puntos cercanos son agrupados sobre la base de un radio de búsqueda constante, pero luego se combina grupos que se superponen. En la pestaña "STAC Parameters", se define un radio de búsqueda, el número mínimo de puntos que se requieren para cada grupo, y el tamaño de los clusters para mostrar con elipses. Los resultados pueden ser impresos, guardado en archivo de texto, como un archivo .dbf, o como objeto gráfico tipo elipses o capsula convexa en formato de archivo para Review .Shp, MapInfo .mif o Atlas*GIS .bna. La rutina de seis productos los resultados de cada grupo se calcula que: 1. El orden jerárquico y el número de cluster. 43
2. La media central del grupo (media de X y Media de Y). 3. La deviational estándard de elipse del cluster (la rotación y la longitud de las X e Y ejes). 4. El número de puntos en el cluster. 5. El área de la elipse. 6. La densidad de la elipse (puntos en elipse dividido por área). Parámetros STAC La pestaña parámetros de STAC (STAC parameters) permite seleccionar un radio de búsqueda, el número mínimo de puntos por clusters, el tipo de búsqueda, definición de la frontera, el número simulaciones ha ejecutar, y el tamaño de elipses de STAC. Radio de búsqueda de STAC El radio de búsqueda es la distancia dentro de la rutina de búsquedas de STAC. El valor por defecto es de 0,5 millas. Una rejilla de 20x20 cubre el área de estudio. En cada intersección entre fila y columna, la rutina cuenta todos los puntos que se encuentra a menor distancia que el radio de búsqueda. La superposición de círculos se combinan para formar cluster de tamaño variables. En Cuanto más pequeño sea radio de búsqueda seleccionado, menos puntos por clusters serán seleccionados. Por otra parte, la elección de un radio mayor de búsqueda, más puntos serán seleccionados. Sin embargo, cuanto mayor sea el radio de búsqueda, mayor será la probabilidad de que los cluster puedan ser agrupados al azar. En la pestaña parámetros de STAC (STAC Parameters), introduzca el radio de búsqueda en la casilla e indique las unidades de medida (millas, millas, pies, kilómetros, metros). Tipo de busqueda del STAC El tipo de busqueda (scan type) es un tipo de rejilla que cubre el área en estudio. Hay dos opciones: rectangular (por defecto) y triangular. Límite de área en STAC 44
Los límites del área de estudio pueden ser definidas a partir del conjunto de datos o de la red de referencia. El número mínimo de puntos en STAC El usuario debe especificar el número mínimo de puntos necesarios para cada cluster (minimum points for clusters). Por defecto son 5 puntos. Si se elige muy pocos puntos, habrá muchos clusters pequeños; sin embargo, aumentar el número de puntos requeridos, el número de clusters se reducirá. En la pestaña STAC Parámetros, escriba el número mínimo de puntos requeridos para cada cluster. Tamaño de salida de elipses para el STAC El tamaño de salida del cluster como elipse puede ser ajustado por la barra deslizante. La rutina de salida del elipses puede ser una desviación estándar (1X), desviación estándar y media (1.5X), y dos deviational estándar (2X). Generalmente, si los datos tienen distribucion normal, una desviación estándar cubrirá aproximadamente el 50% de los casos, mientras que dos desviaciones estándar cubrirá más de un 99 % de los casos, sin embargo, el porcentaje real puede diferin. En la parte inferior de la ventana STAC Parámetros, deslice la barra para seleccionar el número de desviaciones estándar del elipse. El archivo de salida es guardado como ST. El nombre raíz debe ser proporcionado por el usuario. Salida de cluster como Convexo casco Los cluster también pueden salir como objetos gráficos tipo cápsulas convexas en formato de archivo para ArcView .shp, MapInfo .mif o Atlas*GIS .bna. Debe especificar un nombre para el archivo, que saldrá con un prefijo CST. Ejecutar una simulación STAC Una simulación de Monte Carlo se puede correr para estimar un intervalo de confianza alrededor del cluster del STAC. El usuario especifica el número 45
de simulaciones ha ejecutar y el clustering del STAC es calculado para datos asignados al azar. La salida es ordenada y los percentiles son calculados. El resultado incluye el número de clusters, el área, el número de puntos, y la densidad. Doce estadísticos muestra esta rutina: 1. El mínimo de simulaciones. (The minimum for the spatially random simulations) 2. El máximo de simulaciones. 3. El percentil 0.5 para la simulación. 4. El percentil 1 para la simulación. 5. El percentil 2.5 para la simulación. 6. El percentil 5 para la simulación. 7. El percentil 10 para la simulación. 8. El percentil 90 para la simulación. 9. El percentil 95 para la simulación. 10. El percentil 97.5 para la simulación. 11. El percentil 99 para la simulación. 12. El percentil 99.5 para la simulación. Los diez estadísticos permiten una prueba de una o dos colas. Por ejemplo, para un 5 % una prueba de una cola usa el percentil 95, mientras el 5 % que para una prueba de dos cola, usa los percentiles 2.5 y 97.5. Los datos simulados que se usan pueden ser vistos en la ventana Opciones seleccionando la casilla ’Dump simulation data’. Clusters de K-means (KMeans) La rutina clusters de K-means es un procedimiento para agrupar los puntos en K grupos, donde K es un número asignado por el usuario. La rutina encuentra K lugares, en los que asignan los puntos al lugar más cercano. Por defecto el valor es igual a 5. Si K es pequeño, los grupos se suelen cubrir 46
areas muy grandes. El los resultados tabutares pueden ser impresos, guardados en un archivo de texto, o salir como archivo dbf. Los resultados gráficos puede salir como elipses o casuplas convexas (o ambos) en formatos de archivos para ArcView .Shp, MapInfo .mif, Atlas*GIS bna. Los nombres para la elipse y la capsula convexa deben ser proporcionados por el usuario, de manera separada. Localizaciones de clusters inicial La rutina comienza con un supuesto inicial (la semilla) para los K lugares, y luego lleva a cabo la optimización local. El usuario puede modificar la ubicación de los clusters iniciales de dos maneras: 1. La separación entre los clusters iniciales pueden disminución o incrementarse. Hay una escala de separación con valores predefinidos de 1 a 10; por defecto el valor es 4; sin embargo, el usuario puede seleccionar cualquier número; no obstante, al aumentar el número, aumenta la separación entre las posiciones de los cluster iniciales, mientras que disminuyendo el número, disminuye la separación. 2. El usuario también puede definir las localizaciones iniciales y el número k de clusters, con el archivo de secundario. La rutina toma el número de puntos del archivo secundario y las coordenadas X/Y de los puntos como las posiciones iniciales de los k clusters iniciales. Tamaño de salida de los clusters de K-means como elipses Para ambos métodos, el tamaño de salida del cluster como elipses puede ser ajustado por la barra deslizante. El resultado de la rutina puede salir como elipses con una desviación estándar (1X), con desviación y media (1.5X), y con dos deviational estándar (2X). Generalmente, si los datos están distribuidos aleatoriamente, una desviación estándar cubrirá aproximadamente el 50% de los casos, mientras que dos desviaciones estándar cubrirá del 99% de los casos, sin embargo, los porcentajes reales pueden variar. Deslice la barra para seleccionar el número de desviaciones estándar de la elipse. El archivo de salida es guardado como KM. El nombre 47
raíz debe ser proporcionado por el usuario. Salida de los clusters como casco Convexo Los clusters también pueden salir como casco convexo en archivo para ArcView shp, MapInfo mif o ATLAs*SIG bna. Debe especifique el nombre del archivo, el cual saldrá con un prefijo CKM. Estadístico Local de Anselin El estadístico local de Moran Anselin (Anselin’s local Moran) aplica el estadístico I de Moran a puntos individuales (o zonas), para evaluar si puntos (o zonas) están espacialmente relacionados con puntos cercanos (o zonas vecinas). El estadístico requiere de una variable intensidad en el archivo principal. A diferencia del estadístico global de Moran I, el estadístico local Moran es aplicado a cada punto en forma individual (o zona). El índice indica clustering o dispersión en relación con la vecindad local. Los puntos (o zonas) con valores altos del índice I, tienen intensidad más alto que sus vecinos, mientras que los puntos con valores bajos tienen intensidad más abajo que sus vecinos. La salida puede se impresa o salir como archivo .dbf. Ajuste para pequeñas distancias Las pequeñas distancias se ajustan de manera que la máxima ponderación no sea superior a 1. Esto asegura que el índice local I, no se haga excesivamente grande para los puntos muy cercanos. Esta es la configuración predeterminada.
1.2.3. Modelado Espacial III Crimestat en la ventana modelado espacial presenta cuatro pestañas, de las cuales dos exponemos: estimación de densidad de kernel y análisis de espacio-tiempo, las demás no se trataran en este trabajo, pero puede obtener información en, si desea investigar puede revisar la la notas (se tratara muy elemental de manera simple, en la calibración y la estimación del viaje a la delincuencia).
48
Interpolación La pestaña interpolación (interpolation) permite estimar la densidad de punto usando el método suavizado densidad kernel. Hay dos tipos de suavizado de densidad del kernel: el simple, aplicado a una sola distribución de los puntos; y el dual, aplicado a dos distribuciones diferentes. Cada tipo tiene variaciones sobre el método que se pueden seleccionar. Ambos tipos requieren de un archivo de referencia, que es superpuesto sobre la zona de estudio (ver archivo de referencia). Las variables intensidad y ponderación pueden ser usadas en la estimación de kernel. Las densidades pueden convertirse en probabilidades. La interpolación es una técnica para generalizar localizaciones del incidente en todo el área de estudio. Mientras las técnicas de distribución espacial y puntos caliente proporciona los resúmenes estadísticos para los incidentes de los datos en sí mismos, la técnica de la interpolación generalizan esos incidentes de los datos a toda la región. Particularmente, proporcionan las estimaciones de densidad para todas las zonas de la región (es decir, en cualquier localización). La estimación de la densidad es una variable de la intensidad, un valor Z(·), que se estima una localización particular. Por lo tanto, puede ser visualizada en los mapas de la superficie o en mapas de contorno que demuestran la intensidad en todos los lugares o localizaciones. Estimación de densidad de kernel simple (KernelDensity) La rutina densidad de kernel simple (kernel density estimates single) estima la densidad de punto para una distribución simple, colocando una superficie simétrica sobre cada punto (superposición), evaluando la distancia del punto a cada celda de referencia por la función kernel, y sumando las evaluaciones en cada celda de referencia. Archivo ha interpolar La estimación puede aplicarse a cualquier archivo tanto al principal como al secundario. Debe seleccione el archivo a ser interpolado. Por defecto es el archivo primario 49
Método de interpolación Hay cinco tipos de kernels que pueden ser utilizados para estimar la distribución de densidad de los puntos. Cuatro de las cinco distribuciones superponen un círculo alrededor alrededor de cada celda o cuadrícula y asigna ponderaciones a los puntos dentro de las celdas o cuadrícula. Los cinco tipos varían en las ponderaciones que asignan a los puntos cercanos: Kernel que asigna ponderaciones a todo el área en estudio 1. El kernel kernel normal superpone una distribución distribución normal en cada punto, punto, que luego se extiende sobre toda el área en estudio definida por el archivo de referencia. Esta es la función kernel por defecto. La distribución se extiende en todas direcciones y es limitado únicamente por el área en estudio. Kernels que asignar ponderaciones en un círculo específico 2. El kernel uniforme asigna igual ponderación a todos los puntos dentro del círculo. 3. El kernel quartic superpone una superficie en forma de campana invertida que se extiende sólo para una distancia limitada en cada punto; las ponderaciones para los puntos dentro del círculo disminuyen con la distancia gradualmente (poco a poco). 4. El kernel triangulado (o cónico) superpone un cono en cada celda de la cuadrícula; Los pesos para puntos dentro del círculo disminuyen constantemente tantemente con la distancia distancia (coherentemen (coherentemente). te). 5. El kernel exponencial negativo superpone una función disminuyendo drásticamente sobre cada celda de la cuadrícula; las ponderaciones de los puntos dentro del círculo disminución muy rápidamente con la distancia. Los cinco métodos producen resultados similares, aunque el kernel normal es generalmente más suave para cualquier ancho de banda. Elección del ancho de banda 50
Los kernels son aplicados a una distancia de búsqueda limitada, denominado ancho de banda. Para el kernel normal, el ancho de banda es la desviación desviación estándar de la distribución normal. Para el kernel kernel uniforme, quartic, triangular y exponencial negativo, la amplitud o ancho de banda es el radio de un círculo para la distancia de búsqueda. Para todos los tipos de kernels, un ancho de banda grande produce estimaciones de densidad más suave. Tanto el ancho de banda adaptable como el fijo pueden ser seleccionados. Ancho de banda Adaptable La distancia ancho de banda adaptable es identificada por el número mínimo de puntos encontrados dentro del círculo dibujado alrededor de un sólo punto. Un círculo es colocado alrededor del punto, a su vez, y el radio se aumenta hasta que se alcanza el tamaño de muestra mínimo; de esta forma cada punto tiene un intervalo de ancho de banda diferente. El ancho de banda es la configuración por defecto. El usuario puede modificar mo dificar el tamaño de muestra mínimo, que por defecto es igual a 100 puntos. Ancho de banda fijo La distancia ancho de banda fija es un intervalo fijo para cada uno de los puntos. El usuario puede definir el intervalo y las unidades distancia en que se calcula (millas, millas, pies, kilómetros, metros). Unidades de área Debe especificar las unidades de densidad como puntos por milla cuadrada, por millas náuticas cuadradas, por pies cuadrados, por kilómetros cuadrados, o por metros cuadrados. Las unidades por defecto son puntos por milla cuadrada. Uso de una variable intensidad Debe marcarse la variable intensidad, si ha de ser interpolada. Uso una variable ponderación Debe marcarse la variable ponderación, si ha de ser interpolada. 51
Cálculo de densidad de probabilidades o densidad La densidad estimada para cada celda se puede calcular de tres maneras: 1. Densidad Densidad absoluta. Este es el número número de puntos por celda de la cuadrícula y se escala de tal forma que la suma de todas las celdas sea igual al tamaño de la muestra. 2. Densidad Densidad relativa. relativa. La densidad absoluta de cada celda en la cuadrícula es dividida por el área de la celda; y la salida se expresa en unidades cuadradas (por ejemplo, puntos por millas cuadradas). 3. Probabilidades. Esta es la proporción de todos los incidentes que ocurren en la celda. La suma de todas las cedas es igual a 1, equivale a la probabilidad. Debe seleccione el tipo de estimación de la densidad: densidad absoluta, densidad relativa, o probabilidades, la salida es para cada celda. Por defecto es densidad absoluta. Salida Si el archivo de referencia es externo o creado por Crimestat, los resultados pueden salir como archivo para Surfer for Windows o como archivo para ArcView ’.Shp’, MapInfo .mif, Atlas*Gis ’.bna’; y para ArcView Spatial Analyst sólo si el archivo de referencia es creado por CrimeStat.
Estimación de la densidad de kernel dual (DuelKernel) La rutina de estimación de densidad de kernel dual (Dual kernel density estimate) compara dos distribuciones diferentes que involucran los archivos primario y secundario. Así, es necesario definir los archivos primario y secundario. La comparación permite la relación entre el primer archivo dividido por el segundo archivo, el logaritmo de la relación (cociente) entre el primer archivo dividido por el segundo archivo, la diferencia entre el primer archivo y segundo (es decir, el primer archivo - segundo archivo), o la suma del primer 52
archivo y el segundo. Archivo ha interpolar Debe identificarse los archivos que ocupan la categoría de principal y secundario en la interpolación. Por defecto el principal es el archivo primario y secundario es el archivo secundario. Método de interpolación Hay cinco tipos de distribuciones de kernels que pueden ser utilizados para estimar la densidad de puntos. Cuatro de los cinco superponen un círculo alrededor de cada celda y asigna ponderaciones a los puntos dentro de la celda. Los cinco tipos varían en las ponderaciones que asignan puntos cercanos: Kernel que asigna ponderaciones a todo el área en estudio 1. El kernel normal superpone una distribución normal en cada punto, que luego se extiende sobre toda el área en estudio definida por el archivo de referencia. Esta es la función kernel por defecto. La distribución se extiende en todas direcciones y es limitado únicamente por el área en estudio. Kernels que asignar ponderaciones en un círculo específico 2. El kernel uniforme asigna igual ponderación a todos los puntos dentro del círculo. 3. El kernel quartic superpone una superficie en forma de campana invertida que se extiende sólo para una distancia limitada en cada punto; las ponderaciones para los puntos dentro del círculo disminuyen con la distancia gradualmente (poco a poco). 4. El kernel triangulado (o cónico) superpone un cono en cada celda de la cuadrícula; Los pesos para puntos dentro del círculo disminuyen constantemente con la distancia (coherentemente). 5. El kernel exponencial negativo superpone una función disminuyendo drásticamente sobre cada celda de la cuadrícula; las ponderaciones de los puntos dentro del círculo disminución muy rápidamente con la distancia. 53
Los cinco métodos producen resultados similares, aunque el kernel normal es generalmente más Elección del ancho de banda Los kernels son aplicados a una distancia de búsqueda limitada, denominado ancho de banda. Para el kernel normal, el ancho de banda es la desviación estándar de la distribución normal. Para el kernel uniforme, quartic, triangular y exponencial negativo, la amplitud o ancho de banda es el radio de un círculo para la distancia de búsqueda. Para todos los tipos de kernels, un ancho de banda grande produce estimaciones de densidad más suave. Tanto el ancho de banda adaptable como el fijo pueden ser seleccionados. Ancho de banda Adaptable La distancia ancho de banda adaptable es identificada por el número mínimo de puntos encontrados dentro del círculo dibujado alrededor de un sólo punto. Un círculo es colocado alrededor del punto, a su vez, y el radio se aumenta hasta que se alcanza el tamaño de muestra mínimo; de esta forma cada punto tiene un intervalo de ancho de banda diferente. El ancho de banda es la configuración por defecto. El usuario puede modificar el tamaño de muestra mínimo, que por defecto es igual a 100 puntos. Ancho de banda fijo La distancia ancho de banda fija es un intervalo fijo para cada uno de los puntos. El usuario puede definir el intervalo y las unidades distancia en que se calcula la misma (millas, millas, pies, kilómetros, metros). Ancho de banda variable El ancho de banda variable permite separar intervalos fijos para el primero y el segundo archivo. El usuario debe definir el intervalo y las unidades (millas, millas, pies, kilómetros, metros), para cada uno de los archivos. Por defecto la unidad es una milla para ambos (primero y segundo archivo). Para cada uno, el usuario debe definir el intervalo y las unidades de la distancia por los cuales es calculada (las millas, las millas náuticas, los pies, 54
los kilometers, los metros). Por defecto es una milla para los primeros y segundos archivos. Unidades de área Debe especificar las unidades de densidad como puntos por milla cuadrada, por millas cuadriculadas náuticas, por pies cuadrados, por kilómetros cuadrados, o por metros cuadrados. Por defecto es puntos por milla cuadrada. Uso de la variable intensidad Los archivos (primario y secundario) se tratan por separado, y se marcar la casilla correspondiente a la variable intensidad, en caso de que esta se utilice en interpolación. Uso de la variable ponderación Los archivos (primario y secundario) se tratan por separado, y se marca la casilla correspondiente a la variable ponderación, en caso de que esta se utilice en interpolación. Cálculo de densidad de probabilidades o densidad La estimación de densidad para cada celda se puede calcular de seis maneras: 1. Rata de densidades. Es el cociente (rata) de la densidad para el primer archivo dividido por la densidad del segundo archivo. 2. Logaritmo de rata de densidad. Es el logaritmo natural del cociente (rata) de la densidad del primer archivo dividido por la densidad del segundo archivo. 3. Diferencia en densidad absoluta. Es la diferencia entre la densidad absoluta del primer archivo y el segundo, diferencia neta. La densidad de cada archivo es escalada de modo que la suma de las celdas iguale el tamaño de la muestra. 4. Diferencia en densidad relativa. Esta es la diferencia entre la densidad relativa del primer archivo y la densidad relativa del segundo archivo. Es 55
la diferencia relativa neta. La densidad celda de cada archivo es dividen por el área de celda para producir una medida de densidad relativa en unidades específicas (por ejemplo, puntos por milla cuadrada). A la densidad relativa del primer archivo se le resta la densidad relativa del segundo archivo. 5. Suma de densidad absoluta. Es la suma de la densidad absoluta del primero y el segundo archivo. La densidad de cada archivo es escalada de modo que la suma de las celdas sea igual al tamaño de la muestra. 6. Suma de densidad relativa. Es la suma de la densidad relativa de la primer archivo y del segundo. Es la suma relativa de la densidad celda de cada uno de los archivos dividida por el área de cada celda para producir una medida de densidad relativa en unidades específicas,(por ejemplo, puntos por milla cuadrada). La densidad relativa del segundo archivo se suma a la densidad relativa del primer archivo. Debe seleccionar el tipo de estimación de densidad de probabilidad que calculara la rutina: la rata de densidades (o proporción de densidades), el logaritmo de rata de densidad, la diferencia en densidad absoluta, la diferencia de densidad relativa, la suma de densidades absoluta, o la suma de densidad relativa. Por defecto es la rata de densidad. Salida Si el archivo de referencia es externo o creado por Crimestat, los resultados pueden salir como archivo para Surfer for Windows o como archivo para ArcView .Shp, MapInfo .mif, Atlas*Gis .bna; y para ArcView Spatial Analyst sólo si el archivo de referencia es creado por CrimeStat. Salida Los resultados pueden salir como archivo para Surfer for Windows (para ambos un archivo de referencia externo o creado) o como archivo para ArcView .Shp, MapInfo .mif, Atlas*Gis .bna, or ArcView Spatial Analyst (sólo si el archivo de referencia es creado por CrimeStat).
56
1.2.4. Análisis de espacio tiempo La pestaña análisis espacio tiempo (space-time analysis) abre una ventanea que permite analizar la interacción entre el espacio y tiempo. En esta ventana, se muestran cuatro rutinas. En primer lugar, el índice Knox que muestra relación binomial simple entre los eventos ocurridos en el espacio y en el tiempo. En segundo lugar, el índice Mantel que muestra la correlación entre la proximidad en el espacio y la proximidad en el tiempo. En tercer lugar, la media móvil espacio-temporales (spatial-temporal moving average) que calcula la media central para un span temporal. En cuarto lugar, el Análisis de caminos correlacionado (Correlated Walk Analysis ) que diagnostica la secuencia espacial y temporal de los incidentes cometidos por un delincuente en serie. Para cada una de estas rutinas, el tiempo debe ser definido como un número entero o real, y no en formato de fecha; por ejemplo son valores elegibles: 3 días, 2.1 semanas, 4.3 meses, o el número de días desde 1 de enero de 1900, (por ejemplo, 37.174); mientras que en formato de fecha no son elegibles, por ejemplo, 1 de noviembre de 2001 ó 07/30/01. Debe convertirse los formato de fechas en número real. Las unidades de tiempo debe ser coherente en todas las observaciones, (es decir, deben tener una única unidad, como horas, días, semanas, meses o años). Si una de estas condiciones es viola, CrimeStat ejecuta los calcular y da los resultados, pero no serán correctos.
Índice de Knox El estadístico de Knox es un índice que muestra la relación entre la «cercanía el tiempo» y «cercanía la distancia». Se comparan los pares de eventos en distancia y tiempo, y luego son representados en una tabla de 2x2. Existen tres métodos que definen cercanía en tiempo o distancia: 1. Media. Esto es; eventos que están más cercanos (en tiempo) que el intervalo de tiempo medio, o que están más cerca (en distancia) que la distancia media, se definen como «cercano», mientras que los eventos que están más lejos en tiempo, que el intervalo de tiempo medio, o están más lejos en distancia que la distancia media, se define como «no cercano». 2. Mediana. Esto es; eventos que están más cercanos (en tiempo) que la 57
mediana del intervalo de tiempo, o más cerca (distancia) que la mediana de la distancia, se definen como «cercano»; mientras que los eventos que están mas lejos que la mediana del (intervalo) tiempo, o mas lejos que mediana de la distancia se definen como «no cercano». 3. Definida por el usuario. El usuario puede especificar cualquier valor para distinguir «cercano» y «no cercano», para cualquier tiempo o distancia. La salida incluye una tabla de 2x2 de la distribución de los pares en categoría «cercano» o «no cercano» en tiempo y en distancia. Como se comparan pares de eventos, resulta N ∗ (N − 1)/2 pares en el conjunto de datos, donde N es el número de eventos. La salida también incluye una tabla con esperanza de la distribución de pares en el supuesto de que eventos en el tiempo y en el espacio son independientes uno de otro. La salida incluye un estadístico Chi-cuadrado. Sin embargo, como las observaciones no son independientes, el p-valor asociado con la prueba Chi-cuadrado no en aplicado en este caso. Corrida de simulación de Knox Una simulación de MonteCarlo puede ser ejecutada para estimar aproximadamente los niveles de probabilidad del error tipo I, del Índice de Knox. El usuario debe especificar el número de simulacines ha ejecutar. La data es asignada al azar y el valor de la chi-cuadrado para el índice de Knox es calculado en cada corrida. La salida aleatoria es ordenada y se calculan los percentiles. Doce resultados presenta esta rutina: 1. El mínimo de simulaciones espaciales 2. El máximo de simulaciones espaciales 3. El percentil 0.5 para la simulación espacial 4. El percentil 1 para la simulación espacial 5. El percentil 2.5 para la simulación espacial 6. El percentil 5 para la simulación espacial 7. El percentil 10 para la simulación espacial 58
8. El percentil 90 para la simulación espacial 9. El percentil 95 para la simulación espacial 10. El percentil 97.5 para la simulación espacial 11. El percentil 99 para la simulación espacial 12. El percentil 99.5 para la simulación espacial Los percentiles permiten una prueba de significancia de una o dos colas. Por ejemplo, para un 5 %, una prueba de una cola usa el percentil 95, mientras que para una prueba de dos cola, usa los percentiles 2.5 y 97.5. Los datos simulados que se usan pueden ser visualizados en la ventana Opciones marcando la casilla «Dump simulation data».
Índice de Mantel El índice de Mantel es la correlación entre la cercanía en tiempo y la cercanía en distancia a través de pares. Cada par de eventos es comparado por intervalo de tiempo y distancia entre ellos. Si hay una relación positiva entre la cercanía en tiempo y la cercanía en espacio (distancia), entonces debe haber una importante correlación positiva entre las dos medidas. Observe, como se comparan pares de eventos, hay N ∗ (N − 1)/2 pares en el conjunto de datos, donde N es el número de eventos. Corrida de simulación para Mantel Una simulación de MonteCarlo puede ser ejecutada para estimar aproximadamente los intervalos de confianza alrededor de la correlación de Mantel. El usuario debe especificar el número de simulación ha ejecutar, y usando la data asignada (al azar) el índice es calculado. La salida aleatoria es ordenada, y los percentiles son calculados. La salida ofrece dose resultados: 1. El mínimo de simulaciones espaciales 2. El máximo de simulaciones espaciales 3. El percentil 0.5 para la simulación espacial 4. El percentil 1 para la simulación espacial 59
5. El percentil 2.5 para la simulación espacial 6. El percentil 5 para la simulación espacial 7. El percentil 10 para la simulación espacial 8. El percentil 90 para la simulación espacial 9. El percentil 95 para la simulación espacial 10. El percentil 97.5 para la simulación espacial 11. El percentil 99 para la simulación espacial 12. El percentil 99.5 para la simulación espacial Los percentiles permiten pruebas de significancia de una o dos colas. Por ejemplo, para un 5 %, una prueba de una cola usa el percentil 95, mientras que para una prueba de dos cola, usa los percentiles 2.5 y 97.5. La data simulada que se usan pueden ser vistos usando la ventana de Opciones en la casilla «Dump simulation data».
Promedio móvil de Espacio-tiempo Esta rutina calcula la media central como un cambio en la secuencia de los eventos. La rutina ordena los incidentes en el orden en que ocurren. El usario define un span de incidentes secuencial. Por defecto el span de incidentes secuencial es igual a cinco observaciones. La rutina coloca una ventana que cubre el span sobre los incidentes y calcula la media central (la coordenada X de la media, coordenada Y de la media). Entonces mueve la ventana una observación. Las aproximaciones se hacen al principio y al final de la observaciones secuencial. El resultado es un conjunto de medias centrales ordenadas a partir de la primera hasta la última observación. Este estadístico útil para determinar la localización central de un conjunto de incidentes (tal vez cometido por un delincuente en serie) que se ha desplazado en el tiempo. Esta rutina presenta cuatro de salidas: 1. El tamaño de la muestra. 2. El número de observaciones que componen el span. 60
3. El número span. 4. Las coordenadas X e Y para cada span de ventana. Los resultados tabulares salen como un archivo dBase .dbf, Microsoft Access .mdb, Ascii .dat o ODBC-compatible. Un resultado gráfico que muestra una línea secuencia en archivo para ArcView .shp, para Mapifo .mif o Atlas*gis .bna.
Análisis de caminos correlacionado (CWA) El Análisis de caminos correlacionados (Correlated Walk Analysis, CWA) analiza la secuencia de movimientos de un delincuente en serie y hace predicciones acerca del tiempo y la localización de un próximo evento. Los movimientos secuenciales son analizados en términos de tres parámetros: diferencia de tiempo entre eventos (por ejemplo, el número de días entre dos eventos consecutivos); distancia entre eventos (por ejemplo, la distancia entre dos eventos consecutivos); y ángulo entre eventos, dirección angular entre dos eventos consecutivos medidos en grados (de 0 a 360). Hay tres rutinas para analizar la secuencia de eventos: 1. Correlograma. 2. Diagnóstico de Regresión. 3. Predicción. Correlograma de CWA El correlogram presenta las correlaciones rezagadas entre eventos por diferencia de tiempo, distancia, y ángulo (dirección). Los retardos son comparaciones de secuencias. Un retardo de cero es la secuencia comparada con ella misma; por definición, la correlación es igual a 1. Un retardo de 1 es la comparación de la secuencia con la anterior secuencia. Un retardo de 2, es la secuencia en comparación con dos secuencias anteriores. Un retardo de 3 es la secuencia en comparación con tres secuencias anteriores, y así sucesivamente. En total, las comparaciones se hacen hasta siete secuencias anteriores (un retardo de 7).
61
Generalmente, tratando por separado la diferencia de tiempo, distancia y localización, un retardo con la más alta correlación es el más fuerte. Sin embargo, con cada retardo consecutivo, el tamaño de la muestra disminuye en uno. Si el tamaño de la muestra es pequeño, una correlación alta asociado con un retardo alto puede ser poco fiable. Por consiguiente, correlograma ajustado (adjusted correlogram) descuenta las correlaciones por el número de retrasos. Diagnóstico de regresión del CWA El diagnóstico de regresión (regression diagnostics) presenta la regresión estadística para los diferentes modelos de retados. El retardo debe especificarse. Por defecto el retardo es igual a 1 (secuencia de eventos comparados con el anterior). Tres modelos de regresión pueden ser ejecutados para la diferencia de tiempo, dirección y ángulo. La salida muestra los siguientes estadísticos: 1. El tamaño de la muestra. 2. Las unidades de distancia y tiempo. 3. El retardo del modelo (de 1 a 7). 4. El R multiple (correlación) entre los retardos. 5. El R cuadrado multiple (es decir, R-cuadrado). 6. El error estándar de estimación para la regresión. 7. El coeficiente, el error estándar, el t-valor, el valor del probabilidad para la constante (dos colas). 8. El coeficiente, el error estándar, el t-valor, el valor del probabilidad para la para el coeficiente (dos colas). 9. El análisis de varianza para el modelo de regresión, incluyendo la suma de los cuadrados y la media cuadrática de error para el modelo de regresión y el residual (error), el valor del F-test de regresión de error media cuadrática de dividido por el residual cuadrado del error medio, y el nivel de probabilidad para la F-test. 62
En general, el modelo con el menor error estándar de estimación es el mejor, y por consiguiente, con mayor índice de correlación multiple R. Sin embargo, con un tamaño de muestra pequeño, el modelo puede ser poco fiables. Además, con cada retardo consecutivo, el tamaño de la muestra disminuye en uno; si el tamaño de la muestra es pequeño, un R múltiple alto asociado con un retardo alto de comparación puede ser poco fiable. Predicción del CWA La rutina de predicción (prediction) permite predecir un próximo evento en tiempo, distancia y dirección. Para cada parámetro (diferencia de tiempo, distancia, y ángulo) hay tres modelos que pueden ser usados: 1. La diferencia de media (es decir, diferencia en tiempo medio, en distancia media y en ángulo medio) 2. La diferencia de medianas (es decir, diferencia en medianas de tiempo, en distancias medianas y ángulo mediano) 3. El modelo de regresión (es decir, el coeficiente de regresión estimado e intercepto) Cada uno de ellos puede utilizar retardos de 1 a 7 para comparar. Se debe definir el retardo de la secuencia para el cual se hace la predicción. Así, para un retardo de 1, el intervalo del penúltimo al último evento se utiliza como referencia (es decir, entre el evento N-1 y N); para un retardo de 2, el intervalo del antepenúltimo al penúltimo evento se utiliza como referencia (es decir, entre los eventos N -2 y N-1), y así sucesivamente. Nota: Si el modelo de regresión es utilizado, el retardo para la distancia y el ángulo debe ser el mismo. Ejemplo 1: con un retardo de 1 y usando la diferencia de medias, la diferencia de tiempo medio se añadirá al tiempo del último evento, la distancia media se agrega a la localización del último evento, y el ángulo medio se añade a la localización del último evento. Ejemplo 2: con un retardo de 2 y el uso del modelo de regresión, la diferencia del tiempo de predicción es añadida al tiempo del penúltimo evento, la predicción de la distancia se añade la localización del penúltimo evento y 63
predicción angular se añade a la localización último evento. Ejemplo 3: con un retardo de 1 para el tiempo y el uso del modelo de regresión, con un retardo de 2 para la distancia y el uso de la distancia media, y con un retardo de 3 para el ángulo y el uso de la mediana angular, la diferencia del tiempo de predicción es añadida al ultimo evento, la distancia media es agregada al penúltimo evento, y la mediana angular es añadida a la localización del antepenúltimo evento. La salida incluye: 1. El método utilizado para el tiempo, distancia, y ángulo 2. El retardo usado para el tiempo, distancia, y ángulo 3. La predicción de la diferencia de tiempo. 4. La predicción de la distancia. 5. La predicción ángular. 6. La predicción del tiempo final. 7. La predicción de la coordenada X de la ubicación final. 8. La predicción de la coordenada Y de la ubicación final.
1.2.5. Opciones En esta ventana de opciones, CrimeStat permite salvar parámetros, cambiar los colores de las pestañas en las cuatro secciones, y ver la data simulada por la rutina de Monte Carlo.
Salvando Parámetros Todos los parámetros de entrada pueden ser salvados. En la ventana Opciones, hay un botón para Salvar parámetros (Save parameters). Los archivos de parámetros salen con la extensión ’param’. Un archivo de parámetros salvado puede ser recargado con el botón parámetros de Carga (Load parameters). 64