Google научила Gemini 2.5 понимать и передавать эмоции в диалогах

На конференции Google I/O 2025 компания анонсировала обновлённую мультимодальную модель Gemini 2.5, которая теперь умеет не только понимать, но и генерировать аудио, включая реалистичные диалоги с распознаванием эмоций, интонаций и акцентов. Новая версия поддерживает более 24 языков, умеет игнорировать фоновый шум и использовать внешние источники, такие как Google Поиск, для получения актуальной информации.
Gemini 2.5 также предлагает гибкие функции синтеза речи (TTS) — от темпа и стиля до эмоциональной окраски и смены голосов, что делает модель идеальной для создания подкастов, аудиокниг и интерактивного контента. Все аудиофайлы маркируются через технологию SynthID для прозрачности происхождения.
Доступ к новым функциям открыт разработчикам через Google AI Studio и Vertex AI, включая вкладки Stream и Generate Media. Gemini 2.5 — важный шаг к универсальной ИИ-платформе, объединяющей текст, изображение, звук и видео.
Зарегистрируйтесь, чтобы оставлять комментарии
Вход
Заходите через социальные сети
FacebookTwitter