Masterarbeit, 2019
72 Seiten
Geowissenschaften / Geographie - Bevölkerungsgeographie, Stadt- u. Raumplanung
1. Introducción
2. Planteamiento del problema
2.1. Objetivos
2.2. Metodología
3. Estado del arte
4. Datos
4.1. Histórico de datos del tráfico desde 2013
4.2. Ubicación de los puntos de medida del tráfico
4.3. Selección de la propiedad objeto de estudio
4.4. Análisis exploratorio de la propiedad carga
4.5. Fallas en los datos
5. Métodos paramétricos
5.1. Fundamentos
5.2. Método STL con estacionalidad única
5.3. Método MSTL - STL multiestacional
5.4. Método ARIMA
5.5. Método SARIMA - ARIMA estacional
6. Métodos basados en Deep Learning
6.1. Estrategias de pronóstico
6.2. Redes autorregresivas
6.3. LSTM univariado
6.4. LSTM con variables exógenas
7. Resultados
7.1. Métricas de error
7.2. Mejores métodos por familia
7.3. Comparación de resultados del mejor método por familia
7.4. Resultados segmentando por porcentaje de fallas en los datos
7.5. Reproductibilidad
8. Conclusiones
8.1. Trabajo futuro
La capacidad para pronosticar el flujo de tráfico en un entorno operativo es una necesidad crítica de los sistemas de transporte inteligentes (ITS). En particular, la predicción del volumen de tráfico es un factor clave para su control dinámico y proactivo.
Esta investigación compara el rendimiento de diferentes modelos utilizando los datos históricos reales reportados por los dispositivos de medida de tráfico de la ciudad de Madrid. Se han medido los rendimientos de pronóstico de los distintos modelos para diferentes horizontes de predicción, desde los 15 minutos hasta las 48 horas.
Se han probado 21 modelos para el pronóstico de flujo de tráfico en Madrid, 11 de ellos basados en la descomposición de tendencia y estacionalidad de la serie de flujo (7 con estacionalidad simple y 4 con estacionalidad múltiple), 1 basado en el método ARIMA, 1 basado en el método SARIMA (ARIMA estacional), 6 basados en redes neuronales recurrentes y 2 basados en un método Mixto STL+LSTM .
Una componente importante de esta investigación ha sido determinar si para este tipo de series temporales los modelos basados en aprendizaje profundo pueden compararse o mejorar en rendimiento a los modelos paramétricos.
Los resultados de la investigación muestran que este tipo de serie temporal puede predecirse con bastante precisión y que efectivamente los métodos basados en redes neuronales ofrecen resultados perfectamente comparables a los métodos paramétricos. Sin embargo, el algoritmo basado en redes neuronales no llega a superar de manera significativa al método basado en la descomposición en tendencia y estacionalidad de la serie.
Para el desarrollo de esta investigación se han realizado intensos esfuerzos de recopilación de datos y de saneamiento de los mismos dado que algunas series padecen de fallas en sus datos bastantes significativas. Se han medido los resultados segmentando por la calidad de los datos de la serie, viéndose que en términos medios los algoritmos se comportan igual independientemente de considerar o no este factor.
Es difícil resumir en unas líneas la cantidad de esfuerzo, tiempo y dedicación que hay detrás de las páginas que componen este trabajo. No ha sido fácil y hemos tenido que superar algunos baches y dificultades que llegaron a parecer casi insalvables.
Nada habría sido posible sin la comprensión y el constante apoyo del Dr. José Luis Amarte Mellado. La empatia que ha ofrecido ante la adversidad, la generosidad con la que ha permitido que la investigación evolucione sin ataduras y el optimismo y confianza que siempre ha manifestado han sido fundamentales. Gracias, José Luis.
Pero nada de esto habría sido posible sin la comprensión de mi familia. Laura, María, Montse, sois mi vida. Os debo todo el tiempo de varias primaveras, que a vuestro lado es la única estación que compone los años. Las palabras felicidad y alegría sólo se escriben si es con vosotras. Os quiero más que a nada.
4.1. Propiedades del conjunto de datos históricos del flujo de tráfico
4.2. Muestra de datos históricos de flujo de tráfico (Septiembre 2018)
4.3. Número de puntos de medida por año y mes que han registrado datos
4.4. Tabla de frecuencia de tipos de punto de medida (Septiembre 2018)
4.5. Resumen de propiedades de las frecuencias con las que informan los puntos de medida (Septiembre 2018)
4.6. Propiedades del conjunto de datos de ubicación de los puntos de medida del flujo de tráfico
4.7. Muestra de datos de localización de los puntos de medida (Septiembre 2018) ...
4.8. Dispositivos que informan localización por año y mes
4.9. Resumen de dispositivos cuya variación en la localización es superior a la unidad (todo el histórico de datos)
4.10. Resumen de dispositivos cuya variación en la localización es superior a la unidad (desde Noviembre de 2017)
4.11. Resumen de valores reportados erróneamente en 2018 para las propiedades intensidad, ocupación y carga
7.1. Número de experimentos realizados por cada método
7.2. RMSE y MAPE para la familia de experimentos basados en ARIMA con horizonte de pronóstico a 1, 4, 12, 24 y 48 horas
7.3. RMSE y MAPE para la familia de experimentos basados en STL con horizonte de pronóstico a 1, 4, 12, 24 y 48 horas
7.8. Mejor método por familia
7.4. RMSE y MAPE para la familia de experimentos basados en STLM con horizonte de pronóstico a 1, 4, 12, 24 y 48 horas
7.5. RMSE y MAPE para la familia de experimentos basados en LSTM con horizonte de pronóstico a 1, 4, 12, 24 y 48 horas
7.6. RMSE y MAPE para la familia de experimentos basados en MIXTO con horizonte de pronóstico a 1, 4, 12, 24 y 48 horas
7.7. RMSE y MAPE para la familia de experimentos basados en LSTM Exógeno con horizonte de pronóstico a 1, 4, 12, 24 y 48 horas
7.9. RMSE y MAPE para el mejor método de cada familia con horizonte de pronóstico a 1, 4, 12, 24 y 48 horas
7.10. RMSE y MAPE para el mejor método de cada familia evaluado en series con porcentaje de fallas en los datos inferior al 5 %
4.1. Distribución de los identificadores de los puntos de medida
4.2. Mapa de localización de los Puntos de Medida (Septiembre 2018)
4.3. Histograma del porcentaje de datos faltantes en los datos reportados por todos los dispositivos
4.4. Gráfico de diferentes estacionalidades de la carga (dispositivo 4000)
4.5. Fallas en los datos informados por el dispositivo 10.329 en Julio de 2018
5.1. Descomposición aditiva con estacionalidad diaria para los datos reportados por el dispositivo 4.000 en el verano de 2018
5.2. Descomposición aditiva con estacionalidad semanal para los datos reportados por el dispositivo 4.000 en el verano de 2018
5.3. Ejemplo de pronósticos a 48 horas vista con el algoritmo STL para la serie reportada por el dispositivo 4.000 utilizando estacionalidad diaria, semanal, mensual o anual, considerando toda la serie o solamente los 20.000 valores más recientes de la misma
5.4. Ejemplo de descomposición multiestacional: dispositivo 4.000, últimos 5.000 valores reportados, estacionalidades diaria y semanal
5.5. Ejemplo de pronósticos a 48 horas vista con el algoritmo MSTL para la serie re portada por el dispositivo 4.000 utilizando combinaciones de estacionalidad diaria, semanal, mensual o anual, considerando toda la serie o solamente los 20.000 valores más recientes de la misma
5.6. Original, ACF y PACF para los valores de carga del dispositivo 4.000 a finales de Septiembre de 2018
5.7. Pronóstico del flujo de carga para el terminal 4.000 con ARIMA
5.8. Curvas de las diferencias estacionales del dispositivo 4.000 a finales de Septiembre de 2018
5.9. Ejemplo de pronósticos a 48 horas vista con el algoritmo SARIMA para la serie reportada por el dispositivo 4.000 en diferentes momentos
6.1. Ejemplo de perceptrón multicapa
6.2. Arquitectura NNAR básica
6.3. Arquitectura RNN básica
6.4. Arquitectura RNN expandida
6.5. Capas de las celdas LSTM
6.6. Pronóstico del flujo de carga para el terminal 5.575 con LSTM
7.1. Gráfica de errores cometidos por los mejores métodos por familia para todos los horizontes
7.2. Gráfica de errores cometidos por los mejores métodos por familia evaluados en series con porcentaje de fallas inferior al 5 %
7.3. Distribución de los errores cometidos por método en pronósticos a 48 horas vista 63 Capítulo
La congestión del tráfico se ha incrementado a nivel mundial como resultado de un incremento en el crecimiento poblacional, la urbanización y los cambios en la densidad de población en determinadas regiones a lo largo y ancho del planeta. Esta congestión reduce la eficiencia de las infraestructuras de transporte e incrementa el tiempo de viaje, el consumo de combustible y la contaminación ambiental.
Disponer de información precisa sobre los flujos de tráfico es útil tanto para usuarios individuales como para cualquier sector comercial o gubernamental cuya actividad dependa de operaciones de tráfico rodado. En particular, para el tráfico por carretera, esta información ayuda a los viajeros a organizar de forma eficiente sus viajes, alivia la congestión, reduce las emisiones de carbono y mejora el rendimiento de los desplazamientos.
Sin embargo, no es suficiente con conocer el estado del tráfico en el momento presente sino que es necesario conocer su estado y evolución en el futuro.
En este contexto se ubican los Sistemas Inteligentes de Transporte (ITS1 ), que son un conjunto de soluciones tecnológicas diseñadas para mejorar la operación y la seguridad del transporte terrestre, tanto para carreteras urbanas y rurales, como para ferrocarriles. Este conjunto de soluciones también pueden utilizarse en otros modos de transporte, pero su principal desarrollo ha sido orientado al transporte terrestre.
El desarrollo y despliegue de los ITS ha propiciado que cada vez se preste más atención a la predicción del flujo de tráfico, de modo que hoy en día se considera un elemento imprescindible de estos sistemas. De esta manera, la información sobre el tráfico no sólo ayuda a la toma de decisiones inmediatas sino que la predicción permite la programación de cualquier actividad influida por el estado del tráfico de forma más inteligente.
La predicción del flujo de tráfico depende en gran medida de los datos de tráfico históricos y en tiempo real, recopilados de diversas fuentes de sensores tales como los detectores basados en bucles inductivos, los radares, las cámaras, los sistemas de posicionamiento global (GPS), el análisis de redes sociales, etc.
Disponiendo de esta componente predictiva, podemos dotarnos de sistemas que proporcionan al usuario tres tipos de información:
- histórica, que describe el estado del sistema durante períodos de tiempo anteriores.
- actual, referida a las condiciones del tráfico presentes, obtenida con los sistemas indicados más arriba.
- y predictiva, que puede ser estratégica y de corto plazo.
La información predictiva estratégica es principalmente necesaria para las decisiones importantes sobre la planificación vial e incluye la predicción de los flujos y las condiciones a meses o años vista.
En contraste, la información predictiva a corto plazo a menudo tiene un horizonte de solo unos minutos y, por lo tanto, es más adecuada para la implementación en sistemas de gestión e información de tráfico.
Es conveniente que el estado del tráfico pueda ser pronosticado, pues de esto modo las acciones dependientes de este estado podrían ser planificadas en coherencia. Los conductores que planifican sus viajes en ausencia de información predictiva están implícitamente asumiendo unas condiciones futuras a partir de la información pasada y actual que tienen a su alcance. Pero esta información es parcial y subjetiva y no necesariamente suficiente para una planificación óptima. Por lo tanto, disponer de predicciones sobre las condiciones de tráfico a corto plazo es fundamental para la gestión efectiva de esta actividad.
En este trabajo abordamos el problema de pronosticar el estado del tráfico a corto plazo en la ciudad de Madrid. A tal efecto, hacemos una revisión de los trabajos realizados en el pasado, seleccionamos los algoritmos que mejores resultados han dado en los distintos documentos revisados y desarrollamos, entrenamos y evaluamos nuestros modelos. Los datos que utilizamos son los que pone a disposición pública el Departamento de Tráfico del Ayuntamiento de Madrid, que describimos más adelante.
En el capítulo 1 justificamos el interés por la investigación de este problema. En el capítulo 2 hacemos una descripción detallada del problema que queremos resolver y explicamos los objetivos que se persiguen y la metodología que seguimos en la investigación. En el capítulo 3 hacemos una revisión de los trabajos y publicaciones más significativos que se relacionan con este problema. En el capítulo 4 hacemos un análisis bien detallado de los datos que se utilizan para esta investigación y fundamentamos la elección de la propiedad objeto de predicción de este trabajo. Revisamos también en este capítulo la calidad de los datos que utilizamos. En el capitulo 5 explicamos los distintos métodos paramétricos utilizados y damos unas explicaciones sobre su fundamento teórico. En el capítulo 6 explicamos los métodos basados en redes neuronales detallando la elección de metaparámetros realizada. En el capítulo 7 presentamos los resultados obtenidos conjuntamente por todos los métodos utilizados, segmentando por calidad de los datos de las series utilizadas. En el capítulo 8 hacemos un resumen de las conclusiones obtenidas y proponemos algunas líneas de investigación futuras relacionadas con este problema. Por último, relacionamos las fuentes bibliográficas utilizadas.
Nos planteamos tres objetivos en este trabajo.
En primer lugar, queremos recopilar todos los datos históricos que publica el Ayuntamiento de Madrid relacionados con el flujo de tráfico de la ciudad y almacenarlos de manera que puedan ser utilizados fácilmente por herramientas informáticas en un formato común independientemente de la estructura como se han ido publicando a lo largo del tiempo.
En segundo lugar, utilizando los datos anteriores, queremos determinar cuál es la propiedad más significativa de estos datos, en términos de ser interpretada de forma natural con el estado de flujo de la vía. Y una vez determinada esta propiedad queremos predecir su valor a diferentes horizontes de pronóstico que van desde los 15 minutos hasta las 48 horas mediante el uso de métodos de pronóstico paramétricos clásicos.
Una vez el objetivo anterior se haya cumplido, queremos poner a prueba los métodos de pronóstico basados en redes neuronales y comprobar si su capacidad predictiva puede compararse o mejorar a los métodos paramétricos clásicos basados en el estudio de tendencias y estaciona- lidades.
Lo primero ha sido realizar una revisión del estado del arte en materia de predicción de flujo de tráfico. Se han leído decenas de trabajos y se han seleccionado los que más relevancia puedan tener para este estudio. De la lectura detallada de esta selección se ha realizado una propuesta inicial de métodos a utilizar y estos métodos se han estudiado en detalle.
De especial utilidad ha sido la lectura de algunas fuentes, en particular casi cualquier trabajo publicado por el profesor Rob J. Hyndman, pero muy concretamente el documento (Rob J Hyndman, 2018).
Se ha realizado posteriormente una revisión exhaustiva de la documentación relativa al conjunto de datos que publica el Ayuntamiento de Madrid. Se han explorado los archivos de datos a lo largo del tiempo. Se ha comprobado que no siempre las propiedades de los archivos de datos publicados han tenido el mismo nombre o los archivos en sí, la misma estructura. Se ha realizado un procesamiento de todos los archivos de manera que la información se ha guardado en una base de datos consultable y operable de forma cómoda con garantías de que se han curado todos lo errores de origen.
Se ha tenido especial cuidado de que todo el código utilizado por los procesos y algoritmos de esta investigación quede guardado y que todos los experimentos o tratamientos realizados puedan ser consultados o reproducidos.
Para la redacción de la memoria en la que se plasman estas investigaciones se han utilizado librerías de programación que permiten escribir textos científicos al mismo tiempo que se ejecuta código y se visualizan los resultados. Es difícil explicar con palabras la utilidad que para este menester puede tener el paquete bookdown (Xie, 2018) del lenguaje R (R Core Team, 2018). En el momento en el que se publique este documento, todo este trabajo estará consultable de forma pública en los repositorios Github de Andrés Mañas (Mañas, 2019).
De la revisión de la literatura indicada más arriba, y teniendo en cuenta la naturaleza estacional y multiestacional de las series objeto de estudio, se han seleccionado los métodos paramétricos más prometedores por su naturaleza teórica. Se ha desarrollado una librería R para la realización de las pruebas de manera que quede totalmente abstraída la implementación del método respecto de la serie sobre la que se aplica. De este modo, para una misma serie en un mismo punto, se han podido aplicar y medir las capacidades de todos los métodos puestos a prueba. Esta librería es perfectamente reutilizable para otros métodos futuros que se quieran poner a prueba.
Según las indicaciones del punto anterior, todos los métodos se han aplicado en todas las series objeto de estudio (más de 4.500, como veremos después) en un mismo punto de prueba, siendo el punto de prueba variable en cada serie, elegido de forma aleatoria pero el mismo para cualquier método aplicado a la serie. De esta manera aseguramos que no siempre se intenta predecir lo mismo en el mismo sitio de manera que se garantiza la generalidad y la validez de los resultados evitándose sesgos que pudieran producirse por predecir siempre en el mismo día de la semana, en el mismo mes o a la misma hora.
Todos los resultados arrojados por todos los experimentos (más de 80.000 experimentos) junto con los valores pronosticados por cada experimento a 48 horas vistas a intervalos de 15 minutos se han guardado en una base de datos, de manera que puede realizarse cómodamente cualquier análisis posterior sin necesidad de repetir los experimentos.
Se han medido también los tiempos de ejecución de cada método, valor que permite comparar los distintos algoritmos también en términos de consumo de recursos.
Con todos estos datos se han reportado los resultados, segmentando por diferentes subconjuntos de las series originales según la calidad de los datos de la serie. No obstante, se podría segmentar por cualquier otra propiedad por la que se puedan etiquetar las series.
A principios de la década de 1970, los modelos de medias móviles autorregresivas integradas (ARIMA) se utilizaron para predecir el flujo de tráfico en autopista a corto plazo.
Desde entonces, investigadores de diferentes áreas han propuesto una amplia variedad de modelos para la predicción de los flujos de tráfico, como los basados en ingeniería del transporte, en estadística, en aprendizaje automático, en ingeniería de control y en economía.
Todos estos enfoques se pueden agrupar en tres categorías:
- modelos paramétricos, por ejemplo, modelos de series temporales, modelos de filtrado de Kalman, etc.
- modelos no paramétricos, entre otros, métodos del vecino más cercano (k-NN2 ), redes neuronales artificiales (ANN3 ), etc.
- y simulaciones, que utilizan herramientas de simulación de tráfico para desarrollar modelos que predicen el flujo.
Los modelos parámetricos son aquellos que utilizan un número fijo de variables, independientemente del tamaño de los datos de entrenamiento:
A learning model that summarizes data with a set of parameters of fixed size (independent of the number of training examples) is called a parametric model. No matter how much data you throw at a parametric model, it won’t change its mind about how many parameters it needs.
(Russell and Norvig, 2016), página —737
Y los modelos no parámetricos son aquellos para los que no se define a priori el conjunto de variables que formará parte del modelo:
Nonparametric methods are good when you have a lot of data and no prior knowledge, and when you don’t want to worry too much about choosing just the right features.
(Russell and Norvig, 2016), página —757
(Lv et al., 2015) realiza un repaso bastante completo de los trabajos para pronóstico de flujo de tráfico según las categorías anteriores. En este documento podemos leer que, para los modelos paramétricos, hay multitud de estudios que utilizan ARIMA(0,1,1), KARIMA, ARIMAX, ARMA y SARIMA.
(Chung and Rosalion, 2001) evalúan la regresión lineal, las medias históricas, el modelo ARIMA y el SARIMA. En este estudio se concluye que estos algoritmos funcionan razonablemente bien durante las condiciones de operación normales pero no responden bien a los cambios externos del sistema.
Sin embargo, debido a la naturaleza estocástica y no lineal de los flujos de tráfico, los investigadores han prestado mucha atención a los métodos no paramétricos.
(Davis and Nihan, 1991) realizan un estudio empírico que utiliza datos reales para probar el enfoque k-NN y compararlo con pronósticos de series temporales lineales univariadas. El método k-NN ofrece un rendimiento comparable, pero no mejor, que el enfoque de series temporales.
(Stathopoulos and Karlaftis, 2003) realiza un estudio utilizando mediciones tomadas cada 3 minutos en las calles arteriales urbanas cerca del centro de Atenas. Los resultados sugieren que diferentes especificaciones de modelo son apropiadas para diferentes períodos de tiempo del día. Además, también sugieren que el uso de modelos multivariados teniendo en cuenta la componente espacial mejoran la precisión, comparados con los modelos de series temporales univariadas.
(Chen et al., 2012) compara diferentes modelos de predicción de tráfico en carreteras que utilizan la serie temporal original y la serie temporal residual eliminando la tendencia intradía. Los resultados de las pruebas indican que el rendimiento de la predicción puede mejorarse significativamente en este último escenario. También muestran que casi todos los predictores conocidos tienen supuestos ocultos de suavidad y, por lo tanto, no pueden predecir los puntos de explosión que se desvían demasiado de la tendencia intradía. Como resultado, los puntos de ruptura del tráfico solo se pueden identificar pero no predecir.
(Kirby et al., 1997) analizan redes neuronales y métodos de series temporales para el pronóstico del tráfico y resumen los resultados de un estudio comparativo de su desempeño para el tráfico de autopistas en Francia. Obtienen buenos rendimientos tanto con las redes neuronales como con los modelos tradicionales ARIMA. Se observó que las técnicas no paramétricas superan a las técnicas estadísticas simples, como el promedio histórico y las técnicas de suavizado, pero hay resultados contradictorios sobre si los métodos no paramétricos pueden producir rendimientos mejores o comparables a los modelos SARIMA.
(Sun et al., 2006) proporcionan un algoritmo de red bayesiana, dónde se calcula la probabilidad condicional de un punto de tráfico en una carretera a partir de los estados dados en los vecinos topológicos de la red de carreteras. La distribución de probabilidad conjunta resultante es una mezcla de gausianos. (Tebaldi and West, 1998) analizan y prueban que los enfoques bayesianos son eficientes para la estimación del estado de la red de transporte a gran escala. (Anacleto et al., 2013) proporcionan una red bayesiana dinámica para modelar técnicas de intervención externa para adaptarse a situaciones con variables de tráfico que cambian repentinamente.
(Smith and Demetsky, 1997) comparan los métodos estadísticos y de aprendizaje automático para pronosticar el tráfico. (Van Lint, 2008) aborda el aprendizaje de parámetros en tiempo real y mejora la calidad de los pronósticos utilizando un filtro de Kalman extendido.
(Oswald et al., 2000) sostienen que los métodos no paramétricos producen mejores pronósticos que los modelos paramétricos debido a su capacidad para capturar mejor las relaciones espacio temporales y los efectos no lineales. (Vlahogianni et al., 2014) proporcionan una extensa revisión reciente de la literatura sobre predicciones de tráfico a corto plazo. Aborda además el desafío de identificar las relaciones espacio-temporales en los patrones de flujo.
(Qiao et al., 2001) muestran que los enfoques analíticos no proporcionan buenos pronósticos. (Breiman, 2003) describe los distintos inconvenientes entre el aprendizaje automático y los métodos estadísticos tradicionales. (Ripley, 2007) aplica ampliamente el aprendizaje automático y muestra su utilidad para el reconocimiento de patrones de flujo tráfico.
En resumen, se han desarrollado un gran número de algoritmos de predicción de los flujos de tráfico debido a la creciente necesidad de información en tiempo real en los ITS. Involucran diversas técnicas en diferentes disciplinas. Sin embargo, es difícil decir que un método es claramente superior a otros métodos en cualquier situación. Una razón que puede explicar esto es que los modelos propuestos se desarrollan con una pequeña cantidad de datos de tráfico. Y la precisión de los métodos de predicción de flujo de tráfico depende de las características del flujo de tráfico en un contexto espaciotemporal.
La presente investigación se fundamenta en el estudio de dos conjuntos de datos que pone a disposición pública el Ayuntamiento de Madrid:
- Histórico de datos del tráfico desde 2013, (CIRCULACION, 2018a)
- Ubicación de los puntos de medida del tráfico, (CIRCULACION, 2018b)
En los siguientes apartados hacemos una descripción exhaustiva del contenido de ambos conjuntos de datos y de las acciones de preprocesado realizadas para poderlos utilizar.
Éste primer conjunto de datos, (CIRCULACION, 2018a), contiene el histórico de medidas tomadas por los puntos de medida de tráfico de la ciudad de Madrid. Los datos se publican en archivos que contienen los registros de un mes completo y se van incorporando mes a mes.
Los diversos sistemas de control de tráfico de la ciudad de Madrid proporcionan periódicamente y de forma automática datos de todos los detectores de vehículos de los puntos de medida que controlan.
Si el sensor no proporciona información en un periodo, no se contabilizará esa información; no obstante, si el sensor proporciona información pero los parámetros de calidad de la misma no son óptimos la información se integra, pero se reporta como posible error. El error puede deberse a que el sensor detecta parámetros fuera de los rangos establecidos o porque alguno de los sensores que componen el punto de medida no esté operativo (por ejemplo, en un punto de medida de 4 carriles uno de los carriles no está funcionando).
Siguiendo la documentación de (CIRCULACION, 2018a), los atributos de los datos históricos del flujo de tráfico tomados por los Puntos de Medida son los que se relacionan en el Cuadro 4.1.
Cuadro 4.1: Propiedades del conjunto de datos históricos del flujo de tráfico
Abbildung in dieser Leseprobe nicht enthalten
Podemos observar una muestra de estos datos en el Cuadro 4.2.
Cuadro 4.2: Muestra de datos históricos de flujo de tráfico (Septiembre 2018)
Abbildung in dieser Leseprobe nicht enthalten
Revisando los datos históricos a lo largo del tiempo, observamos que han cambiado tanto las propiedades de este conjunto de datos como el formato de los archivos csv en dónde se publican, lo que ha conllevado un intenso ejercicio de saneado de la información previo a su explotación.
El carácter de separación de campos en el archivo csv no siempre es el mismo. A veces hay que leer los archivos considerando que es una coma y otras un punto y coma
Respecto a la heterogeneidad con la que se presentan los nombres de las propiedades de las medidas registradas, se ha observado que:
- id e idelem representan la misma propiedad, que unos meses viene informada con un nombre y otros con otro. Adoptamos id como nombre maestro.
- identif es una propiedad que tenemos que descartar, pues no siempre está presente y no tiene relevancia para el resto de nuestra investigación
- los valores de la propiedad tipo elem viene codificados de forma diferente dependiendo del año y del mes. En particular:
- M30: puede venir codificado como M30, ‘PUNTOS MEDIDA M-30’ o 24. Adoptamos M30 como valor maestro.
- URB: puede venir informado como URB, ‘PUNTOS MEDIDA URBANOS’ o 495. Adoptamos URB como valor maestro.
- el resto de propiedades, en lo relativo al nombre no requieren de corrección
Respecto a la heterogeneidad con la que se presentan los tipos de dato de las propiedades de las medidas registradas, se ha comprobado que:
- la propiedad fecha se guarda como texto, por lo que hay que parsearla apropiadamente a un objeto de tipo timestamp
- las propiedades numéricas (id, intensidad, ocupación, carga, vmed, periodo integración) unas veces vienen expresadas como números y otras como textos (separados por comillas simples o dobles). En todos los casos se procede a su conversión a tipo numérico.
Se han desarrollado funciones que realizan de manera trasparente todas las correcciones descritas en las líneas anteriores, de manera que se pueda trabajar de forma más cómoda y productiva.
Los datos se publican por meses en ficheros de unos 100 MB, con todas las medidas tomadas a lo largo del mes por todos los puntos de medida.
Cada uno de estos ficheros, descomprimido, ocupa unos 800 MB. Por lo tanto, cada vez que se quisiera revisar los datos de un dispositivo de medida sería necesario descargar el fichero, descomprimirlo, cargarlo en una estructura de datos y luego operarlo. Y eso para cada mes. Es una situación que hace imposible el trabajo.
Para sobreponernos a este inconveniente se ha procedido del siguiente modo:
- hemos creado una tabla en una base de datos con columnas year, month, device y data
- cada una de estas columnas guarda (comprimidos) los datos de las medidas tomadas por el dispositivo device, en el año year y en el mes month correspondientes. Esta información se almacena en la columna data.
- este primer almacenamiento se ha realizado sin transformación/mejora alguna de los datos de medida en bruto; los datos se guardan tal cual se reciben, pero eso sí, troceados en unidades más pequeñas y mucho más manejables.
En particular, en el Cuadro 4.3, podemos ver por año y mes el número de terminales que han estado registrando medidas:
Cuadro 4.3: Número de puntos de medida por ano y mes que han registrado datos
Abbildung in dieser Leseprobe nicht enthalten
Igualmente, hemos desarrollado un conjunto de funciones convenientes que nos permite descargar las medidas registradas por un terminal concreto en un año y mes concretos. Algunas de las funciones más importantes que se han desarrollado son:
Abbildung in dieser Leseprobe nicht enthalten
Un ejemplo de su uso puede verse en el siguiente fragmento de código, que realiza una consulta relativa a las medidas tomadas por el punto de medida 1001 en Septiembre de 2018:
Abbildung in dieser Leseprobe nicht enthalten
En una primera revisión exploratoria de los datos, Septiembre de 2018, vemos que tenemos informados 10.668.743 registros, recogidos desde 3.910 puntos de medida.
Agrupando por tipo de elemento, Cuadro 4.4, podemos ver los conteos por tipo de registro.
Cuadro 4.4: Tabla de frecuencia de tipos de punto de medida (Septiembre 2018)
Abbildung in dieser Leseprobe nicht enthalten
4.1. HISTÓRICO DE DATOS DEL TRÁFICO DESDE 2013
Y de particular importancia es observar que no todos los puntos de medida informan la misma cantidad de medidas a lo largo del tiempo.
Abbildung in dieser Leseprobe nicht enthalten
Figura 4.1: Distribución de los identificadores de los puntos de medida
Podemos explorar de forma visual la gráfica de densidad de registros informados por los puntos de medida en Septiembre 2018 (Figura 4.1). Vemos que la cantidad de medidas reportadas cada mes varía según el punto, siendo los detalles de esta variación los que se relacionan en el Cuadro 4.5.
Cuadro 4.5: Resumen de propiedades de las frecuencias con las que informan los puntos de medida (Septiembre 2018)
Abbildung in dieser Leseprobe nicht enthalten
Esto supone que en nuestro trabajo tenemos series con datos faltantes (fallas). Más adelante veremos la técnica seguida para resolver esta problemática.
Por otro lado, podríamos hacer el mismo estudio considerando únicamente aquellos registros que se han etiquetado sin “error”. Sin embargo, para el mes de Septiembre de 2018, ninguno de los registros viene caracterizado como erróneo.
Éste segundo conjunto de datos, (CIRCULACION, 2018b), contiene el histórico de localizaciones de los puntos de medida del flujo de tráfico. Los datos se publican en archivos que contienen los registros de un mes completo; sin embargo no todos los meses se publican.
La infraestructura de puntos de medida, disponible en la ciudad de Madrid se corresponde con:
- 7.360 detectores de vehículos con las siguientes características:
- 71 incluyen dispositivos de lectura de matrículas
- 158 disponen de sistemas ópticos de visión artificial con control desde el Centro de Gestión de Movilidad
- 1.245 son específicos de vías rápidas y acceso a la ciudad
- y el resto de los 5.886, con sistemas básicos de control de semáforos
-Más de 4.000 puntos de medida:
- 253 con sistemas para el control de velocidad, caracterización de los vehículos y doble lazo de lectura
- 70 de ellos conforman las estaciones de toma de aforos específicas de la ciudad.
Según documenta (CIRCULACION, 2018b), los atributos de los datos de ubicación de los puntos de medida son los relacionados en el Cuadro 4.6.
Cuadro 4.6: Propiedades del conjunto de datos de ubicación de los puntos de medida del flujo de tráfico
Abbildung in dieser Leseprobe nicht enthalten
Al igual que con los datos de medidas, observamos que a lo largo del tiempo, el conjunto de datos de localización ha cambiado tanto en las propiedades que informa como en el formato de los archivos csv en dónde se publican. Nuevamente esto requiere de un trabajo de saneado previo.
El carácter de separación de campos en el archivo csv no siempre es el mismo. A veces hay que leer los archivos considerando que es una coma y otras un punto y coma
Respecto a la heterogeneidad con la que se presentan los nombres de las propiedades, se ha observado que:
- los valores de la propiedad tipo elem viene codificados de forma diferente dependiendo del año y del mes. En particular:
- M30: puede venir codificado como M30, ‘PUNTOS MEDIDA M-30’ o M-30. Adoptamos M30 como valor maestro.
- URB: puede venir informado como URBANOS. Adoptamos URB como valor maestro.
- X, st X y utm x representan la misma propiedad, que unos meses viene informada con un nombre y otros con otro. Adoptamos x como nombre maestro de la propiedad.
- y, st y y utm y representan la misma propiedad, que unos meses viene informada con un nombre y otros con otro. Adoptamos y como nombre maestro de la propiedad.
Respecto a la heterogeneidad con la que se presentan los tipos de dato, se ha comprobado que las coordenadas de localización de los puntos de medida unas veces se guardan utilizando comas como separador de miles y otras puntos ”
Se han desarrollado funciones que realizan de manera transparente todas las correcciones descritas en las líneas anteriores, de manera que se pueda trabajar de forma más cómoda y productiva.
Al igual que en el caso anterior, los archivos con los datos de localización se han guardado apropiadamente en una tabla de una base de datos. Esto simplifica mucho la tarea de operarlos, pues se evita mantener ficheros.
Podemos observar una muestra de estos datos en el Cuadro 4.7.
Cuadro 4.7: Muestra de datos de localización de los puntos de medida (Septiembre 2018)
Abbildung in dieser Leseprobe nicht enthalten
Y visualmente, sobre un mapa, podemos observar su distribución geográfica en la Figura 4.2.
Abbildung in dieser Leseprobe nicht enthalten
Figura 4.2: Mapa de localización de los Puntos de Medida (Septiembre 2018)
Al igual que con los datos de medidas, podemos observar en qué meses se han informado localizaciones de los dispositivos de medida (Cuadro 4.8).
Cuadro 4.8: Dispositivos que informan localización por año y mes
Abbildung in dieser Leseprobe nicht enthalten
En particular, resulta interesante estudiar cuánto ha variado el valor de localización por dispositivo a lo largo del tiempo.
Hemos comprobado que considerando todo el histórico de localizaciones de terminales, 4.065 de los 4.141 se han visto sometidos a cambios superiores a 1 unidad en sus coordenadas de localización (Cuadro 4.9).
Cuadro 4.9: Resumen de dispositivos cuya variación en la localización es superior a la unidad (todo el histórico de datos)
Abbildung in dieser Leseprobe nicht enthalten
Sin embargo, considerando sólo datos de localización de los terminales desde Noviembre de 2017, vemos que sólo 18 dispositivos tienen cambios significativos en sus coordenadas df icalización (Cuadro 4.10).
Cuadro 4.10: Resumen de dispositivos cuya variación en la localización es superior a la unidad (desde Noviembre de 2017)
Abbildung in dieser Leseprobe nicht enthalten
Esto claramente nos indica que los datos de localización históricos están corruptos.
[...]
1 Sistemas Inteligentes de Transporte (Intelligent Trasport Systems, en inglés).
2 Modelo de los K vecinos más cercanos (K Nearest Neighbours, en inglés).
3 Redes neuronales artificiales (Artificial Neural Networks, en inglés).
Der GRIN Verlag hat sich seit 1998 auf die Veröffentlichung akademischer eBooks und Bücher spezialisiert. Der GRIN Verlag steht damit als erstes Unternehmen für User Generated Quality Content. Die Verlagsseiten GRIN.com, Hausarbeiten.de und Diplomarbeiten24 bieten für Hochschullehrer, Absolventen und Studenten die ideale Plattform, wissenschaftliche Texte wie Hausarbeiten, Referate, Bachelorarbeiten, Masterarbeiten, Diplomarbeiten, Dissertationen und wissenschaftliche Aufsätze einem breiten Publikum zu präsentieren.
Kostenfreie Veröffentlichung: Hausarbeit, Bachelorarbeit, Diplomarbeit, Dissertation, Masterarbeit, Interpretation oder Referat jetzt veröffentlichen!
Kommentare