Homogeneiza Homogeneización ción de los datos cli matológi cos de la base aérea con R y MySQL MySQL Cedeño, Fernando; Guevara, Guevara, Esnil; Cho, Anthony; Vega, Cristóbal FACYT, Facultad de Ciencias y Tecnología. Universidad de Carabobo, Venezuela. Email
[email protected]
Resumen El propósito de este trabajo es emplear y adaptar algunas herramientas estadísticos, para luego aplicarlo a la data que se han ido recolectado a través de los años; dado que la recolección de dicha data dependen de instrumentos de medición de cada uno de los elementos meteorológico, éstas pueden producir impurezas o hasta podría faltar datos por recolectar debido a factores como: descalibración del instrumento, mantenimiento del aparato, otros. Para reducir estas impurezas, es necesario depurar y homogeneizar la data obtenida por medio de los instrumentos, de tal manera, poder realizar estimaciones, detección de anomalías, errores y además, rellenar los datos faltantes a través de construcción de series de referencias. Dichos procesos son facilitados del paquete estadístico CLIMATOL, el cual contiene rutinas programadas bajo el lenguaje R. Y los datos digitalizados, son almacenados en la base de datos usando el software MySQL con el fin de poder hacer consultas y obtener mejores resultados en los estudios meteorológicos a futuras. Palabras clave: Impurezas, estimaciones, anomalías, errores, datos faltantes.
1. Introducc Introducc ión El gran problema en la base de datos climatológicos, es que las series meteorológicas disponibles tengan inhomogeneidades y errores debidos a causas no climáticas. El estudio de homogeneidad y reconstrucción de datos nos permite la identificación y la eliminación de inconsistencia en las series temporales climáticas, que son a causa de factores no climáticos, como cambio en la localización de la estación, cambio en el entorno de la estación y descalibración de los instrumentos de la estación. En la actualidad los ordenadores nos permiten la manipulación de grandes cantidades de datos y se han convertido en una potente herramienta en la reconstrucción de base de datos climáticos, de ahí, la importancia de construcción de software que permitan la manipulación de datos climáticos y realizar estudios de homogeneidad de datos climáticos. 205
En este trabajo se construirá un software en el lenguaje estadístico R que permitan la manipulación de datos climáticos de una base de datos bajo MySQL e integre las herramientas del paquete de depuración de datos climáticos mensuales CLIMATOL de R. 2. CLIMATOL Es un software libre para la depuración y homogenización de datos climatológicos desarrollado por José A. Guijarro (Guijarro 2006). El paquete hace el estudio de homogeneidad de la serie comparándola con una serie de referencia. Esta es construida a través de varias series usando un criterio de correlación. Una vez construida la serie de referencia se procede a compararla con la serie a la que se hace el estudio. Esta comparación se puede realizar a través del estudio de la serie de diferencias entre la serie de referencia y la serie que se estudia. Esta serie de diferencia debería comportarse como un ruido blanco, pudiendo considerar como inhomogeneidades a cualquier anomalía. Estas anomalías pueden ser: Errores aislados, debidos a errores de lectura o trascripción, o a • errores puntuales en el Censor (estaciones automáticas). Se pueden detectar como datos anómalos aislados (outliers en la terminología inglesa). (GUIJARRO, 2006:495) Saltos en las series, atribuibles a cambios de instrumentación o • de las condiciones de instalación de los aparatos. Se pueden detectar por cambios en los promedios anteriores y posteriores a los saltos (mediante pruebas de la t.). (GUIJARRO, 2006:495) Las series de referencia suelen obtenerse a partir de una o, más frecuentemente, varias series de estaciones próximas o que estén bien correlacionadas con la serie del observatorio problema. En este caso, la serie de referencia se obtiene como promedio de los valores de las series de los observatorios escogidos, utilizando algún método de ponderación para dar mayor peso a las mejores correlacionada. (GUIJARRO, 2006:496) Para conseguir estos objetivos los pesos de cada estación se han calculado mediante la función 1 1+
d
2
a
206
donde d es la distancia entre la estación problema y la de referencia, y ‘a’ es un parámetro de forma (GUIJARRO, 2006:498). Sus valores estarán acotados en el intervalo (0,1]. Para valores de a=1 o superiores diluirán los errores de las estaciones de referencia al considerar gran número de ellas con pesos del mismo orden, mientras que con a=10 o inferior obtendremos estimas con mayor ajuste a la Climatología local de la estación problema y con poca disminución de varianza. Una vez construidas las series de referencia (series de datos estimados para cada observatorio) por el procedimiento anterior, la homogeneidad de cada serie original se puede contrastar mediante comparación con su serie estimada. Para ello se estudian las diferencias entre ambas series que, en el caso ideal, deberían semejarse a una serie aleatoria de distribución normal. 3. Desarrol lo del sof tware En este trabajo hemos desarrollado un software en lenguaje R que permite la manipulación de una base de datos climatológicos en MySQL y la homogeneización de las series climatológicas mediante CLIMATOL. Además tiene protocolo de usuarios que evite daños a la base de datos. Para la conexión de la base de datos hemos utilizado el paquete del lenguaje R llamado RMySQL, que permite cargar datos de una base de datos en MySQL al entorno de trabajo de R. En este menú principal permite escoger entre las dos principales tareas la Consulta y la grafica de datos climatológicos.
Figura 1: Menú Principal del software (Fuente: Interfaz prototipo del software) 207
El programa incluye un administrador de usuario que asegura la manipulación de los datos climáticos por usuarios registrados
Figura 2: Menú de asistente de admini strador de usuarios
Podemos manipular los elementos y estaciones climáticos que se registran en la base de datos
Figura 3: Administrador de Estación y Elemento
208
Figura 4: Asistente de elemento
Figura 5: registrar elemento
209
Figura 6: Asistente Estación
Figura 7: Información Geográfica de la Estación (Fuente: Interfaz prototipo del software) 210
Figura 8: Información de las Observaciones de la Estación
Figura 9: Asistente de Relación Estación Elemento (Fuente: Interfaz prototipo del software)
Podemos mensuales
hacer
consultas
211
de
datos
horarios,
diarios
y
Figura 10: Consultas de datos climatológicos
Al programa se le implementaron las rutinas de depuración del paquete CLIMATOL (Fuente: Interfaz prototipo del software)
Figura 11: homogeneización de datos mensuales
Además de algunas rutinas graficas
212
Figura 12: Rosa de los vientos y Diagrama de Walter – Lieth
4. Consi deraciones Finales Este trabajo permite a los usuarios hacer un estudio de homogeneización a series mensuales, esperamos en un futuro ir incorporando con el tiempo nuevos modelos que permitan el estudio de series climatológicas sobre los datos diarios y anuales. Además, el uso de nuevos criterios de correlación para la construcción de series de referencia y nuevas funciones visuales, los cuales son de mucha utilidad al momento de realizar algún tipo de análisis meteorológicos. 5. Biblio grafía Citada GUIJARRO PASTOR, José A. (2006), CLIMATOL: SOFTWARE LIBRE PARA LA DEPURACION Y HOMOGENEIZACION DE DATOS CLIMATOLOGICOS, Instituto Nacional de Meteorología, Centro Meteorológico en Illes Balears.
213
214