“¡Hey, Google!”, “¡Oye, Siri!”, “¡Alexa!”. ¿Te son familiares estas expresiones? Apuesto a que sí.
La manera en la que las marcas y los consumidores interactúan en entornos digitales está viviendo una gran transformación. Esta transición, impulsada por el uso cada vez mayor de la inteligencia artificial conversacional, está desplazando la forma de la búsqueda basada en texto y pantallas hacia una interfaz dominada por la voz.
El mercado de la búsqueda por voz es una realidad, es masivo y su adopción se ha generalizado. Las proyecciones para 2024 indicaban que la cantidad de dispositivos de asistente de voz activos alcanzaría el total de 8.400 millones de unidades en todo el mundo. Esta cifra es superior a la población mundial actual y refleja la integración de esta tecnología en la vida cotidiana a través de diferentes dispositivos, como teléfonos y altavoces inteligentes. Su volumen de búsquedas es asombroso, ya que alcanza las mil millones de búsquedas por voz cada mes.
El "boom" de esta expansión es la adopción en el hogar. Como parámetro podemos tomar en cuenta que tres cuartas partes de todos los hogares de EE.UU. poseen al menos un altavoz inteligente. En 2023 Amazon anunció haber vendido más de 500 millones de dispositivos Alexa. ¿Comienzas a ver las dimensiones de estas cifras?
Este crecimiento en la adquisición de estos dispositivos se refleja en un cambio en la preferencia de búsqueda del usuario. 71% de los consumidores ahora prefieren realizar consultas por voz en lugar de teclear, lo que indica una clara transición en el comportamiento del consumidor.
El cambio más importante que hay que comprender no radica en lo cuantitativo, sino en lo cualitativo. La manera de buscar ha cambiado por completo. Se prevé que aproximadamente el 80% de todas las búsquedas por voz sean de manera conversacional.
Este cambio tiene implicaciones directas para la estrategia de contenido:
Ahora, más allá de la "búsqueda por voz" surge un nuevo término: la "delegación por voz". Los usuarios no solo buscan información, sino que esperan que el asistente de IA haga algo por ellos, una expectativa ampliada por las IA que son capaces de actuar dentro de múltiples aplicaciones. Una estrategia web que sólo ofrece enlaces de información fracasará en una economía donde la métrica del éxito es una tarea completada.
No. Hay equipos de marketing digital que creen "estar listos para la búsqueda por voz" debido a la indexación mobile first. Consideran que como Google utiliza su sitio móvil, están optimizados para la voz. Esto es un grave error.
El mobile first está centrado en el teléfono y no en el contenido. La voz elimina esta limitación y obliga a las empresas a adoptar una arquitectura content first. El reto ya no es "¿cómo se ve esto en un teléfono?", sino "¿cuál es la (posible) respuesta (sin importar el dispositivo) a la pregunta de mi cliente?".
En ese punto ya identificamos que la voz rompe la “experiencia móvil”. Entonces ahora debemos puntualizar una nueva estrategia. Definir la búsqueda por voz como un canal de experiencia de cliente, en lugar de un proyecto SEO por separado. ¿Qué estrategia elegir: multicanal u omnicanal?
La omnicanalidad ocurre cuando la información de una empresa (horarios, precios, servicios, inventario) es accesible y congruente independientemente del punto de contacto: smartphone, wearable, PC de escritorio o, ahora, un asistente de voz como Alexa, Siri, Cortana o Google Assistant.
La voz no es una estrategia separada, es una nueva modalidad de interacción (audio). Además, la "personalización", un pilar clave del marketing omnicanal, se vuelve mucho más poderosa con la voz. La omnicanalidad busca unificar los datos del cliente, y las nuevas IA de voz buscan entender el "contexto personal". La conexión de ambos permite a un asistente de voz que reconoce al usuario consultar la información unificada de la empresa para ofrecer una respuesta hiperpersonalizada.
Es momento de entender cómo los asistentes de voz encuentran respuestas. No están "navegando" por tu página web de manera visual, más bien, consultan bases de datos (información) que se alimentan de contenido web estructurado. A continuación te muestro el paso a paso:
Los asistentes de voz como Siri, Alexa y Google Assistant no solo hacen coincidir palabras clave. Utilizan IA y Procesamiento de Lenguaje Natural (NLP por sus siglas en inglés) para “traducir” la intención de una consulta conversacional. Una vez que se entiende la intención, el asistente extrae la respuesta de bases de datos de información.
La respuesta se basa en los fragmentos destacados. Un fragmento destacado es un formato especial de resultado de búsqueda donde Google muestra un extracto de la respuesta en un cuadro en la parte superior de la página. Más del 50% de todos los resultados de búsqueda por voz se basan en un featured snippet.
Los asistentes virtuales están programados para encontrar la respuesta más directa y concisa. Cuando un usuario hace una pregunta, el asistente lee en voz alta el contenido exacto que se encuentra en ese fragmento destacado.
Esto cambia la estrategia SEO. Antes, los featured snippets se veían como una forma de llevar más tráfico a tu web y aumentar la tasa de clics (CTR). Pero en el contexto de la voz, el fragmento destacado suele ser la única respuesta que el usuario escucha. No hay otros 9 resultados. La marca que posee el snippet no solo gana visibilidad, sino también gana autoridad cuando el asistente anuncia la fuente.
Sí, todos conocemos el SEO (Search Engine Optimization) tradicional, pero la voz impulsó un concepto llamado "Search Everywhere Optimization" (Optimización de Búsqueda en Todas Partes). A medida que la intención de búsqueda del usuario se divide y se aleja de Google, moviéndose hacia marketplaces, redes sociales y chats de IA, las marcas deben permitir que el usuario pueda seguir encontrándolos aunque su búsqueda se fragmente en diferentes canales.
El objetivo de esta optimización es garantizar que la respuesta de la marca sea coherente en todas las plataformas. La estrategia omnicanal y la "Search Everywhere Optimization" son la única forma de garantizar que la respuesta en un chat de IA, un snippet de voz y la página web tengan una arquitectura de datos unificada.
Para las búsquedas por voz, tu página web debe evolucionar, tiene que dejar de ser una "colección de páginas visuales" a ser una "bodega de datos" fácil de leer por las máquinas (SSOT, Single Source of Truth - Fuente Única de Verdad), que alimenta todos los canales en los que tienes presencia (CMS headless) usando un lenguaje universal (Schema).
El SSOT o "Fuente Única de Verdad" es un concepto de gestión de la información que describe la práctica de cómo una empresa debe guardar su data en una única ubicación centralizada y de referencia. El SSOT no es un sistema o herramienta, sino una condición de los datos de una organización.
En el contexto de la voz, tu página web debe actuar como esta fuente única. Cuando un usuario pregunta por voz, "Ok Google, ¿a qué hora cierran la tienda ubicada en Parque Tezontle?", el asistente de voz debe poder extraer esa respuesta del SSOT que alimenta la landing "Nuestras tiendas" de la página web, el perfil en Facebook y el perfil en TikTok, por citar un ejemplo.
El SSOT es el correcto manejo de datos, el sistema de gestión de contenidos (CMS) headless es la arquitectura que lo pone en marcha.
Un CMS tradicional acopla el backend con el frontend. El CMS headless almacena el contenido en el back y mediante una API la distribuye en el front al mismo tiempo en un sitio web de escritorio, una app móvil y primordialmente para asistentes de voz y chatbots. Un CMS headless permite crear contenido una vez en el SSOT y publicarlo infinitas veces a través de la API.
Si el SSOT representa los datos y el CMS headless la arquitectura, el marcado Schema es el lenguaje que permite al asistente de voz entender la información.
Al implementar la etiqueta speakable estás transformando el SEO de palabras clave que conocemos a un conjunto de instrucciones (datos estructurados) listas para ser tomadas por los asistentes de voz.
Ya tenemos lista la arquitectura técnica para una estrategia omnicanal, es tiempo de hablar de la estrategia de contenido y SEO diseñados para la voz.
Despídete de las palabras clave cortas y dile “¡hola!” al contenido conversacional en tu página web.
Un gran porcentaje de las búsquedas por voz tienen intención local. Para estas consultas (tipo "¿dónde queda el restaurante de sushi más cercano?", "¿a qué hora cierra la tienda de la colonia Roma?"), el asistente de voz no consulta tu página web, consulta la base de datos local de Google, a través de Google Business Profile (GBP), antes conocido como Google Mi Negocio.
La transición hacia una página web omnicanal y optimizada para las búsquedas por voz (VSO) no es un proyecto de programación y contenido, es una evolución íntegra del modelo de negocio. En un Internet donde los usuarios prefieren hablar que escribir, y donde las IAs están comenzando a “hacer” tareas por nosotros, tu presencia digital debe ser coherente, técnica y, sobre todo, humana.
Optimizar tu página web para la voz no es solo "ser recomendado" por Siri o Alexa; es garantizar que tu marca sea la respuesta más confiable en un mundo donde tu cliente potencial puede llegar desde cualquier canal.
En SIGNE360 te ayudamos a realizar un diagnóstico estratégico de tu página web y presencia digital. Analizamos desde tu estructura de datos hasta tu estrategia de contenidos para asegurar que, cuando tu cliente pregunte, seas tú el que aparezca primero.
Conoce nuestros diagnósticos técnicos y de contenido
Aunque el diseño mobile first optimiza la visualización en teléfonos, las búsquedas por voz no dependen de una pantalla. La voz requiere una arquitectura content first, donde la prioridad es la estructura del dato y no su apariencia estética. Las interfaces de voz no pueden interactuar con elementos visuales ocultos o menús plegables típicos del diseño móvil; solo pueden procesar información lineal y estructurada.
En una estrategia multicanal, la marca tiene presencia en varios medios (página web, redes sociales, tienda física) pero no están conectados, operan de forma aislada. En cambio, la omnicanalidad integra todos estos puntos de contacto para que la información (precios, horarios, stock) sea idéntica y fluida. Esto es de gran importancia para la voz, pues garantiza que un asistente entregue siempre la respuesta correcta y actualizada sin importar el canal.
El Single Source of Truth (SSOT) o Fuente Única de Verdad es la práctica de centralizar toda la información de una empresa en una ubicación de referencia. Su beneficio principal es la consistencia: asegura que cuando un cliente pregunte por voz, la respuesta que dé Alexa, Siri o Google Assistant, la que aparezca en tu web y la de tu chatbot sean exactamente la misma, evitando confusiones y proyectando autoridad.
Los featured snippets o fragmentos destacados son la fuente de más del 50% de las respuestas de voz. Cuando haces una pregunta a un asistente virtual, este no lee una lista de resultados; selecciona la respuesta más directa y concisa que Google ha posicionado en el "resultado cero". Ganar estos fragmentos es la clave para que tu marca sea la voz elegida por los asistentes.
Los tres tipos de datos estructurados indispensables son:
Referencias:
Un entusiasta del arte, melómano rockero, persistente cuando de mis sueños se trata, el Marketing Digital mi pasión, "gamer" en mis ratos libres, apasionado por el género de terror, fascinado por los deportes, enamorado de la vida. Siempre conserva una sonrisa, nunca sabes a quién le puedes hacer el día. Acompáñame, te contaré mil aventuras.