Мультимодальная различимость: когда бренд ищут не словами

Исследовательский вопрос

Как визуальный поиск, голосовые запросы и мультимодальные интерфейсы меняют требования к видимости бренда и что из классической текстовой оптимизации переносится в мир изображений, голоса и видео.

Тип доказательств

Данные Google о Google Lens (20 млрд запросов/месяц), документация Google о мультимодальном AI Mode, рыночные наблюдения Semrush и Lumar.

Актуальность фактуры

Данные о платформах и объёмах запросов актуальны на первый квартал 2026 года.

Текст — это уже не единственный вход

На протяжении всего корпуса AI100 мы говорили о видимости в контексте текстовых запросов: пользователь печатает вопрос, модель формирует ответ. Но мир поиска уже давно не сводится к набору слов на клавиатуре. Пользователь фотографирует товар в магазине и спрашивает «сколько это стоит онлайн?». Говорит вслух «какая это модель?», наведя камеру на наушники. Загружает скриншот из Instagram и просит «найди похожее, но дешевле». Снимает видео и добавляет текстовый вопрос: «Из какого материала это сделано?»

Это не экзотические сценарии. Google Lens обрабатывает более 20 миллиардов визуальных запросов в месяц, и 20% из них связаны с покупками [1]. AI Mode интегрирован с Google Lens: пользователь может сделать фотографию или загрузить изображение, а система, используя мультимодальные возможности Gemini, анализирует всю сцену — объекты, их контекст, материалы, цвета, формы — и формирует комплексный ответ [2]. ChatGPT с GPT-4o обрабатывает изображения, голос и текст одновременно. 27% мобильных пользователей уже используют голосовой поиск [3].

Для бренда это означает, что текстовая оптимизация — необходимое, но уже недостаточное условие видимости. Если ваш товар невозможно распознать по фотографии, если у видео на YouTube нет транскрипта, если голосовой ассистент не может связать произнесённое имя компании с правильной сущностью — вы теряете аудиторию, которая ищет не словами.

Как визуальный поиск меняет правила

Визуальный поиск работает принципиально иначе, чем текстовый. Пользователь не описывает то, что ищет, — он показывает это. Свёрточные нейросети (CNN) преобразуют изображение в числовой вектор и сравнивают его с базой проиндексированных изображений [4]. Это значит, что качество, консистентность и техническая доступность изображений на сайте напрямую влияют на то, будет ли ваш товар найден.

Для e-commerce последствия наиболее очевидны. Покупатель видит платье на улице, фотографирует его, и Google Lens за три секунды показывает похожие товары с ценами из разных интернет-магазинов. Если ваши товарные изображения низкого качества, без описательных alt-текстов, без Product schema, без единого стиля съёмки — они не попадут в эту выборку. А конкурент с чистыми, размеченными фотографиями — попадёт.

Визуальная консистентность между платформами тоже становится фактором. Google Lens лучше распознаёт бренды, которые используют одинаковый стиль фотографий на сайте, в маркетплейсах и в социальных сетях. Разнородный визуальный ряд затрудняет привязку к сущности [5].

Голосовой поиск и длинные запросы

Голосовые запросы отличаются от текстовых не только модальностью, но и структурой. Человек, говорящий вслух, использует естественные предложения: «Какое лучшее кафе рядом со мной, которое сейчас открыто?» вместо «кафе рядом открыто». Запросы в AI Mode в среднем в три раза длиннее обычных поисковых запросов [6]. Это означает, что контент, оптимизированный под короткие ключевые фразы, может не совпадать с тем, как люди формулируют запросы голосом.

Для бренда практическое следствие: FAQ-секции, написанные в формате «вопрос — прямой ответ», лучше работают для голосового поиска, чем длинные маркетинговые тексты. Structured data (FAQ schema, HowTo schema) помогает голосовым ассистентам извлечь конкретный ответ. Имя бренда должно быть произносимым и однозначным — модель, которая не может связать произнесённое «Экско-Дата» с сущностью «ExcoData», потеряет бренд при голосовом запросе.

Видео и транскрипты

ИИ-системы всё активнее используют видеоконтент. Транскрипты видео с YouTube становятся источником для цитирования: если в вашем видео эксперт подробно объясняет, как работает продукт, и транскрипт доступен — модель может извлечь из него фрагмент для ответа. Если транскрипта нет — видео остаётся невидимым для текстовой части ответной системы.

Google прямо указывает, что AI Mode использует мультимодальный анализ: система одновременно работает с текстом, изображениями, видео и контекстом [2]. Для бренда, который публикует обучающие видео, обзоры или демонстрации продукта, чистый и точный транскрипт — это не опция, а условие обнаружения.

Что делать уже сейчас

Мультимодальная оптимизация не требует революции. Она требует расширения привычной работы на новые форматы.

Изображения: высокое качество, описательные имена файлов и alt-тексты, Product schema с привязкой к конкретным товарам, единый стиль съёмки по платформам.

Голос: FAQ-секции в формате вопрос-ответ, HowTo schema для инструкций, произносимое и однозначное имя бренда.

Видео: транскрипты для каждого ролика на YouTube и на сайте, VideoObject schema, описательные заголовки и метаданные.

Общий слой: тот же принцип, что и для текстовой видимости — структурированные данные, машиночитаемость, внешние подтверждения. Мультимодальность не отменяет эти основы, а добавляет к ним новые входные каналы.

Что установлено надёжно

Визуальный поиск уже обрабатывает десятки миллиардов запросов в месяц. AI Mode интегрирует мультимодальный ввод (фото + текст + голос). Транскрипты видео используются как источник для цитирования. Голосовые запросы длиннее и разговорнее текстовых.

Где остаётся неопределённость

Точная доля ответов ИИ, инициированных визуальным или голосовым вводом, пока плохо измерена вне Google Lens. Влияние мультимодальной оптимизации на цитируемость бренда в разных платформах изучено фрагментарно.

Что это меняет на практике

Бренду нужно оптимизировать не только текст, но и изображения, видео и голосовую обнаруживаемость. Базовые действия (alt-тексты, транскрипты, FAQ schema) просты и могут быть начаты уже сейчас.

Источники

[1] Google / DemandSage. Google Lens: 20 billion visual searches per month, 20% shopping-related. 2025

[2] 9to5Google / Google I/O. Google AI Mode adding multimodal Google Lens search. 2025

[3] Google / Lumar. 27% of global mobile users use voice search. 2025

[4] Xictron / Pinecone. Visual search technology: CNN embeddings and vector matching. 2026

[5] SE Blog. Multimodal Search Optimization: visual consistency and entity recognition. 2026

[6] ALM Corp. Google AI Mode queries average nearly 3x longer than traditional search. 2026

Связанные материалы

Исследование 7 мин

Машиночитаемая коммерческая инфраструктура: разметка, товарные ленты данных и каталоги как язык, понятный ИИ

Слой данных и разметки, который делает бренд и товар понятными для машин: каталоги, товарные ленты, структурированные описания и их синхронизация.

Открыть материал →

Базовый текст 7 мин

SEO и ИИ-видимость: что переносится, что нет и где привычная оптимизация может навредить

Что из классического SEO переносится в ответную ИИ-среду, что перестаёт работать и какие новые требования возникают.

Открыть материал →

Путеводитель 8 мин

Практическая карта действий: как усилить машинную различимость бренда

Шесть последовательных шагов для улучшения ИИ-видимости: от проверки идентичности через пересборку языка и контура доверия к наблюдению.

Открыть материал →

Исследование 7 мин

Лаг обновления: как быстро ИИ-системы меняют представление о компании после новости, запуска продукта или изменения цены

Почему между изменением факта о бренде и его устойчивым появлением в машинном ответе проходит время — и как этот лаг наблюдать на практике.

Открыть материал →

Следующий шаг

Как проверить, видит ли ИИ не только ваш текст

AI100 проверяет текстовую видимость бренда в нейтральных сценариях. Но мультимодальная диагностика начинается с тех же основ: различимость сущности, структурированные данные и внешние подтверждения. Отчёт покажет, где начать.

Открыть образец отчёта →