Un nuevo tipo de inteligencia artificial mucho más avanzada está empezando a ganar terreno debido a su capacidad para lograr mejores resultados y aplicaciones al poder procesar varios tipos de datos simultáneamente, como es el caso de texto, imágenes, audio o incluso de los sensores que incorporan los dispositivos como los celulares.

Incluso se podría decir que esta renovada IA amplia considerablemente su campo de aplicación tanto en el ámbito de uso cotidiano por los consumidores, como en el desarrollo industrial y el aprendizaje automático.

Este avance ha sido bautizado como inteligencia artificial multimodal, una palabra que se refiere literalmente al uso de múltiples modos y que en este contexto significa la utilización de diferentes fuentes de entrada, como un audio, para entregar un resultado que puede ser una imagen.

De hecho, en el día a día su aplicación se está volviendo más perceptible con las grandes mejoras incorporadas a los actuales asistentes virtuales y dispositivos móviles, de donde esta nueva tecnología recopila los datos procedentes de cámaras, micrófonos y diversos sensores; con el objetivo de ofrecer respuestas más acertadas gracias al contexto adicional que provee la multitud de datos recopilados.

Mientras que la presencia combinada de funciones de geolocalización y conectividad amplía aún más esta ventaja contextual.

Otra de las posibilidades prácticas de este tipo de inteligencia artificial es que permite la generación de imágenes a partir de instrucciones textuales y auditivas.

Por ejemplo, hay modelos capaces de producir los subtítulos para videos basándose no solo en el audio, sino también en el contexto visual, sincronizando mejor el texto con la acción en pantalla.

Entre tanto, en la industria, el potencial es amplio, permitiendo pronosticar el mantenimiento de equipos a través del análisis de datos como temperatura, sonido, y aspecto visual, en conjunción con parámetros básicos de antigüedad y durabilidad del componente en cuestión.