Cómo crear un Agente de Voz con IA (sin programar, gratis)
En 2026 ya puedes tener un agente de voz con IA contestando tus llamadas o atendiendo a tus clientes, sin saber programar y sin gastar un euro. Esto es lo que puedes hacer hoy, lo que cuesta de verdad y el tutorial paso a paso para tener el tuyo funcionando en 5 minutos.
TL;DR
- ElevenLabs (free tier): la más fácil para empezar. Web UI pura, 10.000 créditos al mes, agentes en 5 minutos y 70+ idiomas.
- Vapi (free trial): la más completa para uso real. Sub-600 ms de latencia, panel sin código, BYOK (trae tu propia API) y más de 30 proveedores de voz, LLM y STT.
- Retell AI (free credits): la más rápida para producción. $10 gratis al registrarse, simulación de llamadas, integraciones con Twilio y n8n.
- OpenAI Realtime API: el motor de voz nativo de OpenAI. Sin free tier, pero es lo que hay detrás de muchas de las demás.
- vocode (open source): si quieres montarlo tú en tu servidor y olvidarte de cuotas. Github público, gratis, pero requiere saber Python.
Qué es un agente de voz con IA y por qué importa en 2026
Un agente de voz con IA es un software que habla por teléfono (o en un chat de voz web) como si fuera una persona: escucha lo que dices, lo entiende, responde con voz natural y, si hace falta, ejecuta acciones reales (reservar una cita, consultar un pedido, transferir la llamada a un humano). No es un IVR de "pulsa 1 para ventas". Es una conversación real.
Hasta 2024 esto requería montar un stack con tres servicios separados: reconocimiento de voz (STT), un modelo de lenguaje (LLM) y síntesis de voz (TTS), más una capa de orquestación para que todo encajara en menos de un segundo. Eso significaba programar, pagar tres APIs y rezar para que la latencia no matara la experiencia.
En 2026 el panorama ha cambiado. Hay cinco plataformas web que te dan todo eso empaquetado, con panel visual, y que en cinco minutos te dejan un agente funcionando. Algunas gratis de verdad, otras con prueba gratuita generosa, pero las cinco se manejan sin tocar código.
Las 5 plataformas que permiten crear un agente de voz sin programar
Las he probado todas o las he revisado a fondo. Aquí va el ranking por caso de uso, no por popularidad.
1. ElevenLabs — La más fácil para empezar
ElevenLabs lanzó su producto de ElevenAgents a finales de 2025 y es, sin discusión, la opción más amable para alguien que no ha tocado una API en su vida. La interfaz es 100% web: escribes qué quieres que haga el agente, subes un PDF con tu catálogo o preguntas frecuentes, eliges una voz de las más de 10.000 que tienen (o clonas la tuya), y listo.
El plan Free te da 10.000 créditos al mes y acceso a Text to Speech, Speech to Text, Sound Effects, Voice Design y Conversational AI. Para probar y tener un agente personal o de un negocio pequeño, llega. Cuando pasas a Starter (5 dólares al mes) obtienes licencia comercial y 30.000 créditos.
Donde brilla: voces increíblemente naturales, soporte de más de 70 idiomas, latencia sub-segundo y un editor de "tone" que te permite ajustar qué tan sonriente, calmado o directo suena el agente. Donde flojea: si quieres lógica compleja con transferencias entre agentes o integración profunda con tu CRM, toca irse a un plan de pago alto (Scale, 299 dólares al mes) o pelearse con su API.
2. Vapi — La más completa para uso real
Vapi es la que más usan empresas que quieren producción seria sin montar infraestructura propia. Su panel permite crear asistentes con un solo prompt de sistema y herramientas (tools), o construir "squads" de varios asistentes especializados que se pasan la llamada entre ellos.
Lo que destaca: sub-600 ms de latencia en conversación (es lo más rápido que he visto en plataformas no-propietarias), y más de 30 proveedores que puedes mezclar como piezas de Lego: OpenAI, Anthropic, Google, Deepgram, ElevenLabs, Cartesia… Eliges qué STT, qué LLM y qué TTS quieres usar, y Vapi orquesta la conversación.
El modelo de precios es por uso: $0,05 por minuto de llamada en el plan Build, más el coste del modelo (que te lo cobran a precio de coste, o cero si traes tus propias API keys). Incluye 10 líneas concurrentes gratis y 60+ minutos mensuales para probar. Si quieres HIPAA o Zero Data Retention, son 2.000 y 1.000 dólares al mes respectivamente.
3. Retell AI — La más rápida para producción
Retell se ha posicionado como la opción "production-first". Te registras, recibes $10 en créditos gratis al instante, y tienes acceso completo a la plataforma sin commitments. Su panel incluye simulador de llamadas para probar el agente antes de soltarlo con clientes reales, plantillas pre-construidas para casos típicos (recepcionista, cualificador de leads, soporte) y webhooks/API para integrarlo con tu stack.
El coste por minuto va de $0,07 a $0,31 según qué stack de LLM y voz uses. Con GPT-5 nano y ElevenLabs, el mínimo realista. Incluye 20 llamadas concurrentes gratis y, si necesitas más, 8 dólares por línea extra al mes. En España el coste de telephony por Twilio anda en torno a 1,5 céntimos por minuto.
La gracia de Retell: la calidad de llamada es consistentemente alta, tienen integraciones nativas con Twilio, Vonage, Make, n8n y HubSpot, y un dashboard de monitorización que te muestra transcripciones y calidad de cada interacción.
4. OpenAI Realtime API — El motor nativo de voz
OpenAI lanzó en 2024 su Realtime API y en 2026 ya va por la segunda generación (GPT-Realtime-2). Este es el motor de voz que hay por debajo de muchas de las plataformas anteriores: un único modelo que hace STT, razonamiento y TTS en un solo paso, lo que reduce la latencia a mínimos.
No tiene free tier: necesitas meter crédito en tu cuenta de la API de OpenAI y pagar por uso. El precio actual del modelo GPT-Realtime-2 es de $32 por millón de tokens de audio de entrada y $64 por millón de tokens de audio de salida. Para una conversación de 5 minutos, la factura anda en torno a 30-50 céntimos.
¿Por qué está en la lista entonces? Porque si sabes algo de código (o tienes a alguien que sepa), es la opción más flexible. Conectas vía WebRTC, WebSocket o SIP, le mandas audio, recibes audio, y montas la lógica que quieras. No es la opción "sin programar", pero es la que recomendarías a un equipo técnico que quiera control total.
5. vocode — La opción open source
vocode es la única de la lista que es 100% código abierto (licencia MIT en el repo de Python) y que puedes correr en tu propio servidor sin pagar a nadie. La librería en sí es gratis; lo que pagas son los proveedores externos de STT, LLM y TTS que elijas conectar.
Tiene abstracciones de conversación (streaming, turnos, endpointing), integraciones con Deepgram, AssemblyAI, OpenAI, Anthropic, ElevenLabs, PlayHT, y soporte para telefonía, web y Zoom. El equipo también ofrece un servicio hosted opcional (vocode.dev) por si no quieres montarlo tú.
Importante: vocode sí requiere saber programar (Python). Lo incluyo porque es la base sobre la que otras plataformas han construido, y porque para un equipo técnico es la mejor manera de tener control total sin atarse a un vendor.
Tabla comparativa honesta
| Plataforma | Free tier | Latencia aprox. | Idiomas | Ideal para |
|---|---|---|---|---|
| ElevenLabs | 10.000 créditos/mes | ~700 ms | 70+ | Empezar sin código, voces top |
| Vapi | 60+ min incluidos | <600 ms | 30+ | Producción seria, multi-proveedor |
| Retell AI | $10 en créditos | ~500 ms | 20+ | Producción rápida, integraciones |
| OpenAI Realtime | No tiene | ~300-500 ms | 50+ | Equipos técnicos, control total |
| vocode | Open source (MIT) | Variable | Depende de TTS | Devs, self-hosted, sin vendor lock |
Precios verificados en las páginas oficiales en junio de 2026. Las latencias son valores típicos y dependen de la región y la conexión.
Tutorial paso a paso: tu primer agente con ElevenLabs en 5 minutos
He elegido ElevenLabs para el tutorial porque es la única que cumple de verdad la promesa "sin programar y gratis". El resto requiere tarjeta desde el primer minuto o saber Python.
Paso 1. Crea una cuenta. Ve a elevenlabs.io y regístrate con Google o email. No pide tarjeta. Te dan 10.000 créditos al mes desde el primer día.
Paso 2. Entra en "Conversational AI". En el menú lateral verás la opción "ElevenAgents" o "Conversational AI". Haz clic en "Create Agent". Te sale un formulario con tres campos: nombre del agente, idioma principal y un prompt de sistema.
Paso 3. Escribe el prompt de sistema. Aquí defines la personalidad y las instrucciones. Por ejemplo, para una peluquería:
Eres el asistente virtual de Peluquería María, en Madrid.
Tu trabajo es atender llamadas de clientes que quieren reservar cita,
modificar una cita existente o preguntar por precios.
Reglas:
- Saluda siempre con "Hola, gracias por llamar a Peluquería María".
- Pregunta qué servicio quieren (corte, color, peinado).
- Pregunta el día y la hora que prefieren.
- Si no hay hueco, ofrece dos alternativas cercanas.
- Al final, confirma la cita leyendo día, hora y servicio en voz alta.
- Si preguntan algo que no sabes (horarios especiales, eventos),
di: "Eso te lo confirma María, ¿quieres que le pase el recado?" Paso 4. Sube tu knowledge base (opcional). En la pestaña "Knowledge" puedes subir PDFs, documentos de Google Drive o pegar texto. El agente lo usará para responder preguntas reales (tu carta de servicios, política de cancelación, dirección exacta, etc.).
Paso 5. Elige la voz. ElevenLabs tiene 10.000+ voces pre-hechas. Filtra por idioma español, sexo y estilo (formal, casual, energética). Puedes probar cada voz con un texto de prueba antes de asignarla. Si quieres, puedes clonar tu propia voz subiendo 3 minutos de audio limpio.
Paso 6. Configura el primer mensaje. Es lo que dice el agente al descolgar. Por defecto usa el saludo que pusiste en el prompt, pero puedes sobreescribirlo aquí. Por ejemplo: "Hola, Peluquería María, ¿en qué puedo ayudarte?".
Paso 7. Prueba en el simulador. En la misma pantalla hay un widget de chat de voz. Pulsa el micrófono, habla como si fueras un cliente, y comprueba que el agente entiende, responde con sentido y mantiene la personalidad. Si se atasca o contesta cosas raras, vuelve al paso 3 y afina el prompt.
Paso 8. Conecta a un número de teléfono (opcional). Aquí es donde entra el coste. ElevenLabs no da número de teléfono propio: te integra con Twilio, Genesys, Vonage o cualquier PBX compatible con SIP. Para probar sin pagar, quédate en el simulador web. Para atender llamadas reales, crea cuenta en Twilio, compra un número español (~1 dólar al mes), y vincúlalo en la pestaña "Telephony". Cada minuto de llamada consume créditos.
Tiempo total: entre 3 y 7 minutos para tener el agente configurado. La parte larga no es la herramienta, es decidir qué quieres que diga y qué no. Ahí es donde se nota la diferencia entre un agente que suena a robot y uno que parece humano.
Lo que NO te dicen: limitaciones reales
Después de probar las cinco plataformas y leer documentación hasta hartarme, esto es lo que los vendedores callan:
- La latencia no es cero. Aunque Vapi presume de sub-600 ms, en la práctica la respuesta del agente tarda entre 500 ms y 1,5 segundos. El oyente lo nota. Si tu cliente está acostumbrado a una conversación humana, va a percibir un "tic" de pausa. Es aceptable, pero no es magia.
- El acento español no es nativo en todos los modelos. ElevenLabs y OpenAI tienen voces españolas que suenan muy bien. Vapi, dependiendo del proveedor TTS que elijas, puede sonar a mexicano o a argentino aunque el LLM hable en español de España. Hay que probar.
- El coste escala rápido. Una llamada media son 3-5 minutos. Si el agente atiende 50 llamadas al día, son 150-250 minutos. A 5-10 céntimos por minuto, son 7-25 euros al día. No es barato cuando empiezas a tener volumen.
- Las hallucinations siguen pasando. El agente puede inventarse horarios, precios o políticas que no existen. Por eso la knowledge base es crítica: cuanta más info real le des, menos improvisará. Y aun así, hay que revisar transcripciones.
- No sustituye a un humano en casos complejos. Quejas, emergencias, problemas emocionales… sigue necesitando una transferencia a una persona real. Las mejores configuraciones lo prevén desde el prompt: "Si el cliente está molesto, ofrece transferir a un humano".
Cuándo SÍ tiene sentido pagar
El plan gratis de ElevenLabs es perfecto para probar y para un uso personal o de un autónomo con pocas llamadas. Pero en cuanto cumples alguna de estas condiciones, toca pasar a un plan de pago o a una plataforma de producción:
- Atiendes más de 100 llamadas al mes.
- Necesitas un número de teléfono español (o de otro país) dedicado.
- Quieres que el agente transfiera a un humano de forma limpia.
- Manejas datos sensibles (sanidad, legal, finanzas) y necesitas HIPAA o equivalente.
- Quieres integrarlo con tu CRM, calendario o sistema de tickets.
Para empezar: ElevenLabs gratis. Para escalar: Vapi o Retell. Para control absoluto: OpenAI Realtime o vocode.
FAQ
¿Necesito saber programar para crear un agente de voz?
No, si usas ElevenLabs, Vapi o Retell. Las tres tienen panel web 100% visual: rellenas un formulario, subes documentos, eliges voz y ya tienes el agente funcionando. OpenAI Realtime y vocode sí requieren programar (Python o JavaScript), pero son para casos avanzados o equipos técnicos.
¿Cuánto cuesta de verdad un agente de voz en 2026?
Gratis para empezar: ElevenLabs Free (10.000 créditos al mes) o Retell ($10 de crédito al registrarte). Para uso real, los precios están entre 5 y 30 céntimos por minuto de llamada, dependiendo de la plataforma y los proveedores de voz y LLM que elijas. A Twilio hay que sumarle el número de teléfono (1-2 dólares al mes) y el coste de telephony (1-2 céntimos por minuto en España).
¿Funciona en español de España?
Sí, las cinco plataformas soportan español. ElevenLabs es la que tiene las voces más naturales en castellano peninsular. OpenAI Realtime y Retell también suenan bien. Vapi depende del TTS que elijas: con ElevenLabs o Cartesia suena natural; con voces genéricas puede notarse un acento latino.
¿Puede un agente de voz transferir la llamada a una persona?
Sí. Vapi, Retell y ElevenLabs (en planes de pago) permiten configurar transferencias a números de teléfono reales. El prompt de sistema le dice al agente cuándo ofrecer la transferencia (por ejemplo: "si el cliente dice que es una emergencia, transfiere a María al 6XX XXX XXX"). ElevenLabs Free no incluye esta función; toca subir a Starter.
¿Qué pasa con la privacidad de las llamadas?
Depende del plan. ElevenLabs Free puede usar las conversaciones para mejorar sus modelos (se puede desactivar en ajustes). En planes de pago, las conversaciones no se usan para entrenar. Vapi y Retell, por defecto, retienen el historial 14-30 días y luego lo borran. Si trabajas con datos sensibles, necesitas planes enterprise con "Zero Data Retention", que cuestan 1.000 dólares al mes en Vapi.
Fuentes verificadas
Todos los datos de precios, latencias y características de este artículo están extraídos de las páginas oficiales de cada producto, consultadas en junio de 2026:
- ElevenLabs — pricing oficial, planes Free y Starter, créditos mensuales y agentes conversacionales: elevenlabs.io/pricing y elevenlabs.io/conversational-ai
- Vapi — modelo de precios por minuto, latencia sub-600 ms, panel Assistants vs Squads: vapi.ai/pricing y docs.vapi.ai
- Retell AI — créditos gratis, $0,07-$0,31/min, integraciones con Twilio, n8n y HubSpot: retellai.com/pricing
- OpenAI Realtime API — modelo GPT-Realtime-2, precios por millón de tokens de audio, conexión WebRTC/WebSocket/SIP: openai.com/api/pricing y platform.openai.com/docs/guides/realtime
- vocode — librería open source (MIT), integraciones STT/TTS/LLM, opción hosted: docs.vocode.dev
Conclusión
Un agente de voz con IA ya no es cosa de empresas con miles de euros al mes en desarrollo. En 2026, con cinco minutos y sin programar, puedes tener uno que conteste tus llamadas, pida cita o atienda a tus clientes. La parte difícil no es la herramienta: es definir bien qué quieres que diga, qué no, y cuándo debe pasar la llamada a un humano.
Si te interesa profundizar en cómo integrar estos agentes con tu forma de trabajar, te he preparado un PDF gratuito con 50 prompts y trucos de IA para el día a día: cubre productividad, escritura, código y aprendizaje. Lo tienes en /recursos.
Y si antes de meterte con voz quieres comparar las IAs de texto gratuitas que mejor funcionan en 2026, échale un vistazo al análisis de las 5 mejores alternativas a ChatGPT gratis que publicamos la semana pasada.
¿Quieres que profundice en alguna de las cinco plataformas? ¿O que monte un tutorial de Vapi o Retell? Déjamelo en comentarios o escríbeme a @decodificaia.
— Jordi