Новости в нашем Телеграм канале Подписаться ×

Google научила Gemini 2.5 понимать и передавать эмоции в диалогах

Google научила Gemini 2.5 понимать и передавать эмоции в диалогах

На конференции Google I/O 2025 компания анонсировала обновлённую мультимодальную модель Gemini 2.5, которая теперь умеет не только понимать, но и генерировать аудио, включая реалистичные диалоги с распознаванием эмоций, интонаций и акцентов. Новая версия поддерживает более 24 языков, умеет игнорировать фоновый шум и использовать внешние источники, такие как Google Поиск, для получения актуальной информации.

Gemini 2.5 также предлагает гибкие функции синтеза речи (TTS) — от темпа и стиля до эмоциональной окраски и смены голосов, что делает модель идеальной для создания подкастов, аудиокниг и интерактивного контента. Все аудиофайлы маркируются через технологию SynthID для прозрачности происхождения.

Доступ к новым функциям открыт разработчикам через Google AI Studio и Vertex AI, включая вкладки Stream и Generate Media. Gemini 2.5 — важный шаг к универсальной ИИ-платформе, объединяющей текст, изображение, звук и видео.

Комментарии 0

Зарегистрируйтесь, чтобы оставлять комментарии

Вход

Заходите через социальные сети