Avances Publicado el 3 de septiembre de 2025

Chatterbox revoluciona la síntesis vocal con IA open source y gratuita

Un modelo de síntesis vocal realista y accesible

Chatterbox es un nuevo modelo de inteligencia artificial desarrollado por Resemble AI, diseñado para competir con las soluciones más avanzadas del sector, como las de ElevenLabs. Su capacidad para generar voces realistas a partir de texto, así como para clonar una voz existente con solo cinco segundos de grabación, destaca por la calidad y naturalidad del resultado en múltiples idiomas.

[EMBED:image:/uploads/images/Chatterbox.png] Comparación con otros modelos - Resemble AI

La característica que diferencia a Chatterbox de otras herramientas es su naturaleza open source. Esto permite que cualquier persona pueda acceder al modelo sin coste y ejecutar las funciones localmente en su propio equipo, reduciendo la dependencia de servicios en la nube o suscripciones. El modelo [está disponible públicamente en Github](https://github.com/resemble-ai/chatterbox) y puede probarse [online mediante HuggingFace Spaces](https://huggingface.co/spaces/ResembleAI/Chatterbox) o en la [plataforma de Resemble AI](https://www.resemble.ai/) con una versión gratuita limitada.

Este potencial levanta inquietudes sobre el uso indebido al facilitar la clonación vocal con acceso libre y uso local, sin restricciones impuestas por plataformas centralizadas. Para mitigar riesgos, los audios producidos por Chatterbox incorporan un filigrana digital invisible para el oído humano, pero resistente a la mayoría de manipulaciones de archivos como la compresión MP3 o ediciones simples. Esta tecnología utiliza Perth, una solución open source basada en redes neuronales, que permite identificar el origen del audio y limita el posible mal uso.

Control avanzado y medidas para evitar abusos

Chatterbox ofrece un control detallado sobre la voz generada, pudiendo ajustar el estilo (como tonos suaves, dramáticos o enojados) y la intensidad. Además de convertir texto en voz, el sistema puede modificar grabaciones de audio existentes, alterando la voz original de un narrador.

Este modelo de código abierto, entrenado con más de 500 000 horas de datos, genera archivos con una marca de agua digital. A pesar de que resulta imperceptible para el oído humano, esta marca de agua posee la capacidad de resistir la compresión MP3, la edición de audio y las manipulaciones más frecuentes de los archivos. Para ello, se implementa el uso de Perth, una solución de marca de agua de código abierto que utiliza diversos métodos basados en redes neuronales.

Impacto en la comunidad y futuro de la síntesis vocal

La aparición de modelos open source como Chatterbox representa un cambio significativo en el ecosistema de síntesis vocal. Su accesibilidad gratuita y local abre nuevas posibilidades de desarrollo y personalización para investigadores, desarrolladores y creadores de contenido. Sin embargo, también plantea un desafío en términos de regulación y ética, ya que la facilidad para clonar voces reales puede facilitar usos malintencionados.

En el plano económico, la competencia con gigantes de la generación vocal podría incentivar mejoras continuas y democratizar el acceso a estas tecnologías, antes limitadas por costes o barreras de uso. El seguimiento del desarrollo y adopción de Chatterbox contribuirá a comprender mejor cómo equilibrar innovación, accesibilidad y seguridad en el campo de la inteligencia artificial aplicada al audio.