La combinación de diferentes modelos es una herramienta muy potente de cara a resolver tareas complejas. El siguiente diagrama es un ejemplo de un asistente virtual avanzado que combina 3 modelos:
De esta manera se pueden pedir cosas complejas que asistentes actuales no permiten como “enciende las luces y pon música a x hora”.
Por otra parte, también existen modelos multimodales. La multimodalidad consiste en el entrenamiento y/o combinación de modelos para procesar y encontrar relaciones entre diferentes tipos de datos (modalidades), normalmente imágenes, vídeo, audio y texto, con el fin de mejorar el rendimiento de un sistema de inteligencia artificial.
El objetivo de la multimodalidad es que los modelos puedan comprender el entorno de forma más universal, ya que determinados aspectos solo existen en determinadas modalidades. Por ejemplo, para reconocer emociones no solo basta con analizar un rostro en un determinado momento (modalidad visual) si no que también el tono y la entonación de la voz (modalidad de audio) codifican enormes cantidades de información sobre su estado emocional.
Otra limitación notable está en la combinación de imagen y texto. La siguiente imagen es un meme sarcástico, sin embargo, modelos unimodales no pueden percibirlo ya que es resultado de imagen y texto y por tanto no se puede identificar analizando cada elemento por separado.
Normalmente estos modelos son entrenados con datasets que combinan diferentes fuentes de datos, por ejemplo