
Команда Alibaba Cloud совершила революцию, выпустив Qwen3.5-Omni. Это мультимодальный гигант, способный обрабатывать текст, изображения, аудио и видео одновременно. Главная сенсация — эмерджентное свойство «Audio-Visual Vibe Coding»: модель может посмотреть видеозапись вашего экрана с аудиокомментариями и самостоятельно написать работающий код без текстовых инструкций.
Qwen3.5-Omni обошла Gemini 3.1 Pro в понимании аудио и сравнялась с лидерами в видеоаналитике. Модель понимает 113 языков и диалектов, а её контекстное окно в 256 тысяч токенов позволяет анализировать до 10 часов звука за один запрос. Технология ARIA обеспечивает идеальную синхронизацию речи, исключая ошибки в произношении чисел и терминов при стриминге.
Материал подготовлен технологической редакцией «Amul Info» на основе анализа архитектуры Hybrid-Attention MoE от Alibaba Cloud.
Keywords