Inicio » Tecnología » Qwen2.5 Omni para Smartphones y NetBooks: texto, imágenes, audio y vídeo simultáneamente

Qwen2.5 Omni para Smartphones y NetBooks: texto, imágenes, audio y vídeo simultáneamente

Alibaba presentó Qwen2.5-Omni-7B, una nueva IA multimodal capaz de procesar texto, imágenes, audio y vídeo simultáneamente, y lo suficientemente eficiente como para funcionar directamente en hardware de consumo como smartphones y portátiles.

El nuevo modelo multimodal integral de la serie Qwen. Diseñado para una percepción multimodal integral, procesa con fluidez diversas entradas, como texto, imágenes, audio y vídeo, a la vez que ofrece respuestas en tiempo real mediante generación de texto y síntesis de voz natural.

Para probar el modelo más reciente, visite Qwen Chat y elija Qwen2.5-Omni-7B. El modelo ya está disponible en Hugging FaceModelScopeDashScope y GitHub, y la documentación técnica está disponible en nuestro artículo.

Para experimentar las capacidades interactivas con nuestra demo o participe en nuestro Discord para participar en debates.

Características principales:

  • Arquitectura omnidireccional y novedosa : Proponemos una arquitectura de pensamiento-habla, un modelo multimodal integral diseñado para percibir diversas modalidades, como texto, imágenes, audio y video, a la vez que genera respuestas de texto y voz natural en streaming. Proponemos una novedosa incrustación de posición, denominada TMRoPE (RoPE multimodal alineado en el tiempo), para sincronizar las marcas de tiempo de las entradas de video con el audio.
  • Chat de voz y video en tiempo real : arquitectura diseñada para interacciones completamente en tiempo real, que admite entrada fragmentada y salida inmediata.
  • Generación de voz natural y robusta : supera muchas alternativas de transmisión y no transmisión existentes, demostrando una robustez y naturalidad superiores en la generación de voz.
  • Excelente rendimiento en todas las modalidades : El Qwen2.5-Omni muestra un rendimiento excepcional en todas las modalidades al compararlo con modelos monomodales de tamaño similar. Supera al Qwen2-Audio, de tamaño similar, en capacidades de audio y alcanza un rendimiento comparable al del Qwen2.5-VL-7B.
  • Excelente seguimiento de instrucciones de voz de extremo a extremo : Qwen2.5-Omni muestra un rendimiento en el seguimiento de instrucciones de voz de extremo a extremo que rivaliza con su eficacia con entradas de texto, como lo evidencian puntos de referencia como MMLU y GSM8K.

Arquitectura

Qwen2.5-Omni emplea la arquitectura Thinker-Talker. Thinker funciona como un cerebro, responsable de procesar y comprender las entradas de texto, audio y vídeo, generando representaciones de alto nivel y el texto correspondiente.

Talker funciona como una boca humana, asimilando las representaciones de alto nivel y el texto producido por Thinker en streaming y generando tokens discretos de voz con fluidez. Thinker es un decodificador Transformer, acompañado de codificadores de audio e imagen que facilitan la extracción de información.

Por el contrario, Talker está diseñado como una arquitectura de decodificador Transformer autorregresivo de doble pista. Durante el entrenamiento y la inferencia, Talker recibe directamente representaciones de alta dimensión de Thinker y comparte toda la información de contexto histórico de Thinker.

En consecuencia, toda la arquitectura funciona como un modelo único y cohesivo, lo que permite el entrenamiento y la inferencia de extremo a extremo.

Actuación

Realizamos una evaluación exhaustiva de Qwen2.5-Omni, que demuestra un excelente rendimiento en todas las modalidades en comparación con modelos monomodales de tamaño similar y modelos de código cerrado como Qwen2.5-VL-7B, Qwen2-Audio y Gemini-1.5-pro.

En tareas que requieren la integración de múltiples modalidades, como OmniBench, Qwen2.5-Omni alcanza un rendimiento excepcional. Además, en tareas monomodales, destaca en áreas como reconocimiento de voz (Common Voice), traducción (CoVoST2), comprensión de audio (MMAU), razonamiento de imágenes (MMMU, MMStar), comprensión de video (MVBench) y generación de voz (Seed-tts-eval y naturalidad subjetiva).

¿Qué sigue?

Nos entusiasma escuchar sus comentarios y ver las aplicaciones innovadoras que crean con Qwen2.5-Omni. Próximamente, «nuestro objetivo es mejorar la capacidad de nuestro modelo para seguir comandos de voz y mejorar la comprensión colaborativa audiovisual.»

Además, el objetivo es integrar más modalidades para lograr un omnimodelo.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

WP to LinkedIn Auto Publish Powered By : XYZScripts.com