Логотип Оргцентр5
Microsoft представила новые ИИ-модели для текста, речи и изображений
← Назад к статьям

Microsoft представила новые ИИ-модели для текста, речи и изображений

Категория: Новости

Опубликовано: · 1 мин на чтение

Microsoft представила новые ИИ-модели для текста, речи и изображений

Компания Microsoft объявила о запуске трёх новых моделей искусственного интеллекта, ориентированных на генерацию изображений, синтез речи и преобразование речи в текст. Новинки получили названия MAI-Transcribe-1, MAI-Voice-1 и MAI-Image-2.

По заявлению компании, эти модели превосходят решения конкурентов, включая разработки и OpenAI, предлагая лучшее соотношение цены и производительности.


Новые ИИ-модели Microsoft

Все три модели уже доступны через платформы Microsoft Foundry и MAI Playground, а также постепенно внедряются в пользовательские сервисы компании.


MAI-Transcribe-1 — продвинутая транскрибация речи

MAI-Transcribe-1

Главной новинкой считается MAI-Transcribe-1 — модель для преобразования речи в текст.

Ключевые особенности:

  • поддержка 25 наиболее популярных языков
  • высокая точность транскрибации
  • улучшенные показатели по сравнению с конкурентами

По внутренним тестам Microsoft (бенчмарк FLEURS), модель демонстрирует более низкий уровень ошибок, чем решения вроде Gemini 3.1 Flash и GPT-Transcribe.


MAI-Voice-1 — генерация реалистичной речи

MAI-Voice-1

Модель MAI-Voice-1 предназначена для синтеза речи с высокой степенью реализма.

Возможности:

  • естественное звучание с эмоциями и интонацией
  • сохранение голосовой идентичности в длинных аудио
  • создание кастомного голоса по короткому аудиофрагменту

Кроме того, модель способна генерировать до 60 секунд аудио всего за одну секунду.

Она также будет использоваться в функциях:

  • Copilot Audio Expressions
  • Copilot Podcasts

MAI-Image-2 — улучшенная генерация изображений

MAI-Image-2

Модель MAI-Image-2 развивает возможности предыдущей версии и делает акцент на качестве визуального контента.

Особенности:

  • более реалистичное освещение
  • точная передача текстур
  • корректное отображение текста на изображениях

Модель создавалась при участии фотографов, дизайнеров и визуальных рассказчиков. Среди первых корпоративных партнёров — компания WPP.


Интеграция в продукты Microsoft

MAI-Image-2 Copilot

MAI-Image-2 уже внедряется в ключевые сервисы компании:

  • Microsoft Copilot
  • Bing
  • Microsoft PowerPoint

Это делает новые возможности ИИ доступными не только разработчикам, но и широкой аудитории пользователей.


Итог

Microsoft продолжает активно развивать собственную экосистему ИИ, делая ставку на универсальные и доступные решения. Новые модели MAI демонстрируют стремление компании конкурировать с лидерами рынка не только по качеству, но и по цене и скорости работы.

Автор: Сергей Пивоваров 64 просмотра