Este doctorando francés ha creado una IA que supera a los mejores jugadores de GeoGuessr

Una IA que ubica todo lo que le das
Imagina una inteligencia artificial capaz de mirar cualquier fotografía y, en cuestión de segundos, determinar con asombrosa precisión en qué lugar del mundo fue tomada. Esto es precisamente lo que ha logrado Nicolas Dufour, un doctorando en IA, con su revolucionaria herramienta de geolocalización.
Este modelo no solo identifica la ubicación de imágenes de paisajes o ciudades, sino que va mucho más allá: puede localizar fotos satelitales, rastrear el origen de especies raras e incluso competir al nivel de un jugador experto en el popular juego GeoGuessr. Lo más sorprendente es que esta potente IA fue concebida y entrenada con un único procesador gráfico (GPU), demostrando un nuevo enfoque que podría cambiar para siempre el mundo del análisis de inteligencia de fuentes abiertas (OSINT).
Precisión sorprendente y resultados inesperados
Los resultados obtenidos por esta IA son espectaculares. En pruebas realizadas, el modelo fue capaz de localizar la Torre Eiffel con un margen de error de tan solo 10 metros y acierta el país correcto en el 80% de los casos. Además, un 20% de sus predicciones se sitúan en un radio de 20 kilómetros de la ubicación real. Sin embargo, lo más fascinante son sus capacidades emergentes, que van más allá de los datos con los que fue entrenada.
[EMBED:image:/uploads/images/article-136-plonk.png] El modelo predice las distribuciones de ubicación de las imágenes a partir de tres importantes conjuntos de datos de geolocalización visual: iNat-21 (fauna silvestre), YFCC-100M (imágenes naturales) y OSV-5M (vista de calle).
Por ejemplo, aunque el modelo solo "vio" imágenes a pie de calle durante su entrenamiento, fue capaz de identificar correctamente el hábitat natural de un cóndor en la cordillera de los Andes a partir de una simple foto del ave. De la misma manera, al analizar la foto de un gecko tomada en un apartamento de París, la IA dedujo que su origen correspondía a la cuenca mediterránea, su hábitat natural, demostrando una capacidad de generalización y comprensión del contexto que abre la puerta a aplicaciones insospechadas.
¿Cómo funciona esta IA?
El proceso técnico detrás de su herramienta se puede resumir en los siguientes pasos:
- 2. Uso de un modelo de difusión: La principal innovación de Dufour es el uso de un modelo de difusión (modelos generativos que se utilizan principalmente para la generación de imágenes y otras tareas de visión artificial). En lugar de que la IA intente predecir directamente una única coordenada GPS (lo que se conoce como regresión), el modelo aprende a revertir un proceso de "destrucción" de la información. Durante el entrenamiento, se toman las coordenadas GPS reales de una imagen, se les añade "ruido" progresivamente hasta que se vuelven irreconocibles, y luego se entrena a la IA para reconstruir las coordenadas originales a partir de la imagen.
- 3. Condicionamiento por imagen: Este proceso de reconstrucción de las coordenadas no se hace a ciegas. Está "condicionado" por la imagen. Para ello, se utiliza un modelo llamado CLIP, desarrollado por OpenAI, que es capaz de comprender el contenido de una imagen y asociarlo con texto o, en este caso, con información geográfica. Así, la IA aprende la relación entre las características visuales de una imagen y su ubicación geográfica.
- 4. Generación de probabilidades: Gracias a este enfoque, el modelo no se limita a dar una única respuesta. En su lugar, genera una distribución de probabilidades, mostrando en un mapa múltiples ubicaciones posibles donde la foto podría haber sido tomada. Esto es especialmente útil para imágenes ambiguas, como paisajes genéricos.
- 5. Adaptación a la geometría de la Tierra: La técnica también tiene en cuenta la forma esférica de la Tierra, lo que permite que las predicciones sean geográficamente coherentes.
- [Code](https://github.com/nicolas-dufour/plonk)
Nuestra prueba
Hemos realizado una prueba en PLONK_OSV_5M con la configuración básica. Hemos tomado una carretera aleatoria en Georgia, Estados Unidos, situada en 32.815067, -83.679617. Aquí está la foto enviada al modelo:
[EMBED:image:/uploads/images/article-136-img2.jpg] Google Maps
Como resultado, el modelo planteó la hipótesis de que esta foto fue tomada en Georgia, con una estimación aproximada de una hora y veinte minutos del lugar real.
[EMBED:image:/uploads/images/article-136-img3.jpg] nicolas-dufour.github.io
Este modelo es, por lo tanto, una señal de que hoy en día es posible crear herramientas tan potentes con pocos recursos (Nicolas Dufour solo tenía una GPU). Los gigantes del mundo de la IA y la localización ya están trabajando en herramientas mejoradas con IA para emular las oportunidades que ofrecen estas nuevas innovaciones.
Enlaces a la herramienta de Nicolas Dufour:
- [Papel](https://arxiv.org/abs/2412.06781)
- [Demo](https://nicolas-dufour.github.io/plonk#demo)