DeepSeek presenta V3.2-exp para abaratar hasta a la mitad el costo de la IA en contextos largos

Una solución ingeniosa para el desafío de los contextos largos
El principal desafío a la hora de utilizar modelos de lenguaje en aplicaciones que necesitan manejar grandes cantidades de texto es el costo de la inferencia, es decir, los recursos y tiempo que consume un servidor para producir respuestas. DeepSeek, empresa china reconocida por su modelo R1, ha dado un nuevo paso con V3.2-exp, su propuesta experimental que incorpora un sistema llamado DeepSeek Sparse Attention.
Este sistema emplea dos mecanismos clave: primero, un “lightning indexer” que prioriza fragmentos específicos dentro del contexto; y luego, un “fine-grained token selection”, que selecciona cuidadosamente los tokens más relevantes dentro de esos fragmentos para que el modelo los procese. El resultado es la reducción de la ventana de atención a la información esencial sin perder precisión, lo que disminuye considerablemente la cantidad de cálculo necesario.
Impacto para la comunidad IA y los proveedores de servicios
En pruebas preliminares, DeepSeek ha logrado reducir hasta en un 50 % el costo de una llamada a su API en contextos largos, una mejora sustancial para quienes dependen de modelos grandes para aplicaciones como análisis extensos de documentos, generación de informes o inventarios de grandes bases textuales.
El modelo, además, es abierto y está disponible en Hugging Face, lo que permitirá a desarrolladores y terceros validar y extender sus resultados. Aunque no se espera que V3.2-exp tenga el impacto disruptivo que tuvo R1 a inicios de año, su enfoque podría ofrecer a proveedores globales, especialmente en Estados Unidos, valiosas lecciones para manejar sus costos operativos de manera más eficiente.
El lanzamiento llega en un momento en que Alibaba, el otro gran actor chino en IA, sigue acelerando con modelos gigantescos y multimodales, pero con costes significativamente mayores. DeepSeek busca así mantener su ventaja en eficiencia y convertirse en referencia para aplicaciones que exigen transparencia y bajo consumo.