Meta, la compañía de Mark Zuckerberg, ha desarrollado un nuevo modelo de IA llamado I-JEPA, que se dice capaz de razonar como los seres humanos. Según Meta, también nos ofrecerá imágenes más realistas que las habituales.
I-JEPA, la nueva arquitectura predictiva de incrustación conjunta de imágenes, es el nombre del modelo de IA desarrollado por Meta. Como propietaria de Facebook e Instagram, la compañía ha anunciado que ofrecerá los componentes de este modelo a los investigadores para su utilización en sus propios productos.
La inteligencia artificial de Meta, guiada por la filosofía de Yann LeCun, jefe de investigación en IA de la compañía, busca aprender a pensar de manera similar a los seres humanos. Esto implica dotar a la IA de sentido común y comprensión del mundo, lo que permite al modelo generar contenido basado en la percepción más que en datos etiquetados, como imágenes o sonidos.
LeCun explica que con I-JEPA se busca evitar sesgos al predecir la representación de una parte de una entrada, como una imagen o un fragmento de texto, a partir de la representación de otras partes de la misma entrada.
El modelo de Meta, en el caso de imágenes incompletas, tendrá la capacidad de completarlas con mayor precisión que los modelos existentes en el mercado. Al mejorar la precisión al rellenar las partes faltantes, se reducirán las posibilidades de cometer errores en el contenido, evitando inexactitudes que una persona no cometería, como dibujar una mano con demasiados dedos.
Según la compañía, al anticipar representaciones a un nivel abstracto en lugar de predecir los valores de los píxeles directamente, se espera aprender representaciones útiles que eviten las limitaciones de los enfoques generativos utilizados en los modelos lingüísticos de gran escala que han generado mucha atención últimamente.
A diferencia de los modelos de IA existentes para generar imágenes, I-JEPA utiliza objetivos de predicción abstractos que pueden eliminar detalles innecesarios a nivel de píxel, lo que permite al modelo aprender características semánticas más profundas.
Con el fin de generar representaciones semánticas, I-JEPA implementa una estrategia de enmascaramiento multibloque que enfatiza la predicción de bloques grandes con información relevante y utiliza un contexto informativo distribuido espacialmente. Según Meta, esta capacidad permitirá a I-JEPA crear videos a partir de entradas de audio y texto.