En enero de 2017, el 37% de usuarios en Reino Unido ya usaba voz al menos una vez al mes. Google reportaba que el 20% de búsquedas en Android eran habladas. Amazon había vendido cerca de 11 millones de Echo. La adopción existía; lo que faltaba entender era por qué.

El reporte Speak Easy de JWT (enero–marzo 2017) intentó responder esa pregunta con métodos mixtos: neurociencia, etnografía, entrevistas y encuesta a más de mil usuarios. El hallazgo central venía del laboratorio: en tareas comparables, la interacción por voz mostraba menor actividad cerebral que la pantalla táctil. Hablar cansa menos que tocar o tipear. Y cuando algo cansa menos, la gente lo elige. El 41% de usuarios regulares admitía usar voz cuando se sentía con poca energía, sin ganas de hacer esfuerzo.

A partir de ahí, el reporte proponía una figura: el "digital butler". La analogía es con el mayordomo de las casas acomodadas: alguien que no solo cumple órdenes sino que anticipa, sugiere y a veces decide por cuenta propia. "El señor siempre pide té a las cinco; ya lo preparé." Aplicado a asistentes de voz: si hablar es más fácil que evaluar alternativas, el usuario va a preferir que el asistente recomiende en vez de buscar él mismo. Y cuando el asistente recomienda, también filtra. Para las marcas, la implicación era clara: en voz, solo hay lugar para una respuesta. El 83% de usuarios creía que la voz funciona mejor así.

De 2017 a 2024: el mayordomo que tardó

Ese mayordomo no llegó en 2017. La voz servía para timers, música y clima, y fallaba cuando el pedido salía del guion. Las barreras tampoco ayudaban: 22% sentía vergüenza de hablarle a un dispositivo en público; 48% de no-usuarios no le veía ventaja sobre tocar la pantalla. El asistente respondía, pero no decidía.

El salto real ocurre desde 2024 con modelos que manejan voz, texto e intención como un mismo flujo. OpenAI presenta GPT-4o y consolida voz avanzada; después abre el Realtime API para experiencias speech-to-speech con baja latencia. (OpenAI)

Google mueve su tablero en 2025: el "Assistant experience" en móvil se actualiza hacia Gemini y, en el hogar, "Gemini for Home" entra en early access con despliegue más amplio hacia inicios de 2026. (blog.google) Amazon opera desde otra lógica: Alexa+ (febrero de 2025) reintroduce la promesa de "asistente que hace" con un modelo generativo, apoyado en el parque instalado de Echo y Prime como palanca. (Amazon News)

Apple parece aceptar el diagnóstico. En enero de 2026, Reuters reporta el giro: una Siri rearmada como chatbot integrado al sistema. Después de años con dominio de interfaz pero asistente débil, Apple apuesta a que el asistente sea el punto de entrada. (Reuters)

Lo que cambió es la capacidad de sostener una conversación con contexto. Estos modelos interpretan intención, recuerdan lo que se dijo antes y pueden actuar sin instrucciones paso a paso. El usuario dice "organízame el viaje" y el asistente elige vuelos, hoteles y horarios. Eso es el mayordomo: anticipar, sugerir, ejecutar.

Economía de la respuesta

Cuando el asistente conversa bien, la pregunta cambia de forma. El usuario pide que le resuelvan, no que le listen opciones. Google empuja esa gramática en búsqueda con AI Overviews desde 2024: un resumen arriba, links abajo y una interfaz que intenta hacer "la parte pesada" del descubrimiento. (blog.google) En voz, esa economía es más radical: normalmente hay una respuesta hablada, y el resto queda fuera.

Para marcas, el Speak Easy ya lo adelantaba: el premio es ser "seleccionado para recomendación" por el mayordomo. En 2026 esa selección se juega en integraciones, disponibilidad y datos estructurados, pero también en diseño conversacional. Lo que antes era SEO para páginas ahora se reparte entre resultados resumidos, acciones ejecutables y acuerdos con plataformas.

Privacidad y transparencia

El propio reporte de 2017 decía que la relación con el asistente requiere confianza, y que el proveedor tiene que aliviar preocupaciones de privacidad y demostrar responsabilidad con datos personales. Desde 2024, esa tensión entra en lenguaje regulatorio: la Comisión Europea resume el criterio de transparencia del EU AI Act para chatbots, y el texto del Artículo 50 exige informar al usuario cuando la interacción con IA no sea evidente. (European Commission)

Queda el frente de identidad. En 2017, 72% de usuarios regulares decía querer voces y personalidades propias para marcas en sus apps o Skills, no una voz genérica para todo. Con síntesis y clonación de voz disponibles, esa ambición es realizable, pero el estándar de transparencia sube: la voz persuasiva no puede confundirse con humano sin costo reputacional o legal.

El asistente pasó de responder a decidir. Y el que decide también define qué queda afuera. La fricción baja para el usuario; el control sobre qué opciones existen se mueve hacia la plataforma.