Blog

Blog

Sembrando ideas

Un espacio de discusión y análisis sobre la actualidad del sector agroindustrial argentino e internacional.

Fecha de Publicación: 19/07/2021

Modelo de liquidación de divisas

Cada año y, a veces con mayor frecuencia, surge la pregunta de cuantas divisas liquidará el sector. El objetivo último de contar con esta estimación es aportar mayor información al sector para la toma de decisiones en sus distintos estadios. Lo cierto es que, para brindar una respuesta aproximada al valor efectivo ex-post se pueden utilizar diversas técnicas. Gracias al avance en el procesamiento de datos y al acceso a las nuevas tecnologías, a principios del año se desarrolló una técnica que implementa modelos de machine learning sobre datos de series de tiempo, ateniéndose al hecho de que dichas técnicas resultan muy eficientes a la hora de hacer predicciones. En esta entrada les vamos a contar sobre la metodología aplicada para elaborar estas predicciones.

Autores: Juan Pablo Gianatiempo

En un breve resumen, se toma la serie mensual de liquidación de divisas desde junio del 2002 hasta el último dato disponible y, el período disponible se particiona en dos partes, una para entrenamiento y otra para testeo o prueba. A los datos correspondientes a la submuestra de entrenamiento, se le realizan distintas transformaciones y combinaciones. Luego, se aplican múltiples modelos a cada una de las variaciones realizadas, se verifican la bondad de los resultados pronosticados respecto a la partición del testeo (submuestra de comparación), seleccionando los modelos que mejor ajustaron en base a cierta métrica definida. Paralelamente, se realiza una regresión con los datos anuales de liquidación y la cosecha valorizada. Finalmente, se proyectan todos los modelos seleccionados y se realiza el promedio de las proyecciones.

Ahora sí, el diagrama de descripción de la metodología estará dividido de la siguiente manera:

  • Datos
  • Partición
  • Ingeniería de variables
  • Modelos
  • Selección
  • Predicción
  • Comentarios finales

Datos

  • Serie mensual de liquidación de divisas, cuya fuente es  CIARA-CEC.
  • Serie anual de liquidación de divisas de CIARA-CEC.
  • Serie anual de producción, proveniente de Estimaciones Agrícolas de la Bolsa de Cereales .
  • Serie anual de precios FOB en puertos argentinos del Ministerio de Agricultura, Ganadería y Pesca.

Partición

Para la elaboración de los modelos mensuales es necesario particionar  la serie de liquidación de divisas en dos subperíodos. El fin es entrenar los modelos de machine learning con el 90% de los datos contando desde el principio de la serie y después evaluar las predicciones que se generan, contrastándolas con los valores reales de ésta en el 10% de los datos restantes, que son los valores que están más cercanos temporalmente a los que se quieren proyectar.

Ingeniería de variables

Con el fin de capturar el comportamiento estacional y autocorrelacionado de la serie mensual de liquidaciones, se llevan a cabo distintas trasformaciones y combinaciones de la misma. Entre las transformaciones que se aplican se encuentran las vinculadas con la identificación del mes, trimestre, cuatrimestre y año; la incorporación de hasta 6 rezagos de la serie; la transformación de Fourier para analizar la frecuencia de la serie de forma alternativa. Luego, se realiza la combinación de cada una de estas transformaciones para identificar qué modelo y combinación tiene mejor performance.

Modelos

Por cada combinación de entrenamiento se ajustan diversos modelos:

  1. Prophet xgboost: modelo para serie de tiempo desarrollado por Facebook, que además incorpora al algoritmo xgboost para mejorar los errores de modelado (residuos).
  2. Earth: regresión no paramétrica que modela automáticamente las relaciones no lineales y las interacciones entre variables.
  3. Nnetar: regresión con modelo de red neuronal que aprende al procesar la información en paralelo y conduce a distintos resultados ponderados.
  4. Arima xgboost: modelo autorregresivo integrado de media móvil para serie de tiempo que utiliza variaciones y regresiones. Además, incorpora al algoritmo xgboost para mejorar los errores de modelado (residuos).
  5. Ets:  forma parte de la familia de modelos de series de tiempo, pero incorpora información de espacio de estados subyacentes, que consta de un componente de nivel, uno de tendencia, uno estacional y un término de error.
  6. Tbats: modelo basado en métodos de suavizado exponencial que permite incorporar múltiples estacionalidades. Las siglas corresponden a Estacionalidad trigonométrica, transformación Box-Cox, errores ARMA, componentes de tendencia y estacional.
  7. Bag tree: modelo de árbol de decisión que aplica bagging o empaquetado para reducir la varianza al crear varios subconjuntos de datos a partir del set de entrenamiento elegida al azar con reemplazo. Cada colección de datos de subconjuntos se utiliza para entrenar un árbol de decisión. Luego, se utiliza el promedio de todas las predicciones de los diferentes árboles, siendo el resultado más robusto que el proveniente de un solo árbol de decisión.

Mientras que, paralelamente se aplica un modelo de regresión lineal para predecir la liquidación de divisas anual como respuesta al comportamiento esperado de la cosecha valorizada, que se obtiene al multiplicar la producción anual estimada por los precios FOB en puertos argentinos.

Selección

De cada combinación de transformaciones se le aplican los primeros 7 modelos descriptos. Existen casos que, por las características del modelo empleado, no es posible utilizar la información transformada. En ese caso, se descarta automáticamente la opción. De todas las opciones de modelado descriptas,  se obtienen diversas métricas que permiten evaluar la bondad de la predicción sobre el conjunto de testeo como el RMSE, MAE, MAPE, MASE, SMAPE y RSQ.

En el presente trabajo, se toma como criterio de selección  el indicador Error Medio Absoluto (MAE). El mismo contabiliza la sumatoria del valor absoluto de la diferencia entre las predicciones y el valor efectivo, ajustados por la cantidad de errores.

Siendo Yi e ŷi los valores de la serie a predecir y la predicha, respectivamente, en el subconjunto de datos de testeo o prueba. A futuro la métrica elegida puede estar sujeta a posibles modificaciones en función de considerar que otra métrica sea más apropiada.

Entonces de todas las opciones mensuales se eligen los mejores 4 modelos, siendo los mejores aquellos que tienen el menor MAE. Adicionalmente, se realiza un control extra para evaluar la performance de los modelos seleccionados dentro de la muestra de entrenamiento, pero en un periodo distinto al que define los indicadores. En caso de detectar que alguno tenga un comportamiento divergente al efectivo, se descarta.

Predicción

Se realiza la predicción por fuera de la serie temporal (es decir, para un período posterior al disponible) de los mejores modelos mensuales seleccionados para la cantidad de meses que restan para finalizar el año. Adicionalmente, se realiza la proyección del modelo de regresión lineal anual, en base a los datos de cosecha valorizada, y una proyección con el promedio histórico mensual de los meses restantes para finalizar el año. Finalmente, se calcula el promedio de todos los modelos proyectados para tener un valor más robusto que el generado por un solo modelo.

Comentarios finales

Con este tipo de herramientas la Bolsa busca mejorar la información a disposición del sector, y para ello se vale en parte de herramientas cuantitativas que permitan realizar tanto proyecciones como también dar respuesta a preguntas particulares.

Es por ello que tanto el desarrollo, mantenimiento y mejoras de los modelos es una tarea continua, apuntando a objetivos de pertinencia técnica como relevancia para la toma de decisiones. En este sentido, es el uso práctico de las herramientas el que, con el tiempo, permite determinar qué mejoras o actualizaciones se realizarán a futuro.