talón Una mirada más cercana al DALL-E 3 de OpenAI - Unite.AI
Conécte

Ingeniería rápida

Una mirada más cercana al DALL-E 3 de OpenAI

mm

Publicado

 on

DESDE EL 3

En la IA generativa mundo, mantenerse al día con las últimas novedades es el nombre del juego. Y cuando se trata de generar imágenes, Difusión Estable y a mitad de camino eran la plataforma de la que todo el mundo hablaba... hasta ahora.

Se presenta OpenAI, respaldado por el gigante tecnológico Microsoft DESDE EL 3 en septiembre 20th, 2023.

DALL-E 3 no se trata sólo de crear imágenes; se trata de hacer realidad tus ideas, tal como las imaginaste. ¿Y la mejor parte? Es rápido, realmente rápido. Tienes una idea, la envías a DALL-E 3 y, boom, tu imagen está lista.

Entonces, en este artículo, profundizaremos en de qué se trata DALL-E 3. Hablaremos sobre cómo funciona, qué lo diferencia del resto y por qué podría ser la herramienta que no sabía que necesitaba. Si eres diseñador, artista o simplemente alguien con muchas ideas geniales, querrás quedarte aquí. Empecemos.

Lo nuevo de DALL·E 3 es que obtiene el contexto mucho mejor que DALL·E 2. Es posible que las versiones anteriores hayan omitido algunos detalles o hayan ignorado algunos detalles aquí y allá, pero DALL·E 3 está en el punto. Recoge los detalles exactos de lo que estás pidiendo, brindándote una imagen más cercana a lo que imaginaste.

¿La parte interesante? DALL·E 3 y ChatGPT ahora están integrados juntos. Trabajan juntos para ayudar a refinar sus ideas. Filmas un concepto, ChatGPT te ayuda a afinar el mensaje y DALL·E 3 le da vida. Si no eres fanático de la imagen, puedes pedirle a ChatGPT que modifique el mensaje y que DALL·E 3 lo intente nuevamente. Por un cargo mensual de 20$, obtienes acceso a GPT-4, DALL·E 3 y muchas otras funciones interesantes.

Microsoft Chat de Bing consiguió DALL·E 3 incluso antes que ChatGPT de OpenAI, y ahora no son sólo las grandes empresas sino todos los que pueden jugar con él de forma gratuita. La integración con Bing Chat y Bing Image Creator hace que sea mucho más fácil de usar para cualquier persona.

El auge de los modelos de difusión

En los últimos 3 años, la IA visual ha sido testigo del auge de los modelos de difusión, dando un importante salto adelante, especialmente en la generación de imágenes. Antes de los modelos de difusión, Redes Adversarias Generativas (GAN) fueron la tecnología de referencia para generar imágenes realistas.

GAN

GAN

Sin embargo, tuvieron sus desafíos, incluida la necesidad de grandes cantidades de datos y potencia computacional, lo que a menudo los hacía difíciles de manejar.

Enviar difusión modelos. Surgieron como una alternativa más estable y eficiente a las GAN. A diferencia de las GAN, los modelos de difusión funcionan agregando ruido a los datos, oscureciéndolos hasta que solo queda aleatoriedad. Luego trabajan hacia atrás para revertir este proceso, reconstruyendo datos significativos a partir del ruido. Este proceso ha demostrado ser eficaz y requiere menos recursos, lo que hace que los modelos de difusión sean un tema candente en la comunidad de IA.

El verdadero punto de inflexión se produjo alrededor de 2020, con una serie de artículos innovadores y la introducción de CLIP de OpenAI tecnología, que avanzó significativamente las capacidades de los modelos de difusión. Esto hizo que los modelos de difusión fueran excepcionalmente buenos en la síntesis de texto a imagen, permitiéndoles generar imágenes realistas a partir de descripciones textuales. Estos avances no se produjeron sólo en la generación de imágenes, sino también en campos como composición musical y investigación biomédica.

Hoy en día, los modelos de difusión no son sólo un tema de interés académico, sino que se utilizan en escenarios prácticos del mundo real.

Modelado generativo y capas de autoatención: DALL-E 3

Uno de los avances críticos en este campo ha sido la evolución del modelado generativo, con enfoques basados ​​en muestreo como el modelado generativo autorregresivo y los procesos de difusión a la cabeza. Han transformado los modelos de texto a imagen, lo que ha dado lugar a mejoras drásticas en el rendimiento. Al dividir la generación de imágenes en pasos discretos, estos modelos se han vuelto más manejables y más fáciles de aprender para las redes neuronales.

Paralelamente, el uso de capas de autoatención ha jugado un papel crucial. Estas capas, apiladas juntas, han ayudado a generar imágenes sin la necesidad de sesgos espaciales implícitos, un problema común con las convoluciones. Este cambio ha permitido que los modelos de texto a imagen se escalen y mejoren de manera confiable, debido a las bien conocidas propiedades de escala de los transformadores.

Desafíos y Soluciones en la Generación de Imágenes

A pesar de estos avances, la controlabilidad en la generación de imágenes sigue siendo un desafío. Han prevalecido problemas como el seguimiento de indicaciones, en los que el modelo podría no adherirse estrechamente al texto de entrada. Para abordar esto, se han propuesto nuevos enfoques, como la mejora de los subtítulos, destinados a mejorar la calidad de los pares de texto e imágenes en conjuntos de datos de entrenamiento.

Mejora de los subtítulos: un enfoque novedoso

La mejora de los subtítulos implica generar subtítulos de mejor calidad para las imágenes, lo que a su vez ayuda a entrenar modelos de texto a imagen más precisos. Esto se logra a través de un subtítulo de imágenes robusto que produce descripciones detalladas y precisas de las imágenes. Al entrenar con estos subtítulos mejorados, DALL-E 3 ha podido lograr resultados notables, muy parecidos a fotografías y obras de arte producidas por humanos.

Entrenando en Datos sintéticos

El concepto de formación sobre datos sintéticos no es nuevo. Sin embargo, la contribución única aquí es la creación de un sistema novedoso y descriptivo de subtítulos de imágenes. El impacto del uso de subtítulos sintéticos para entrenar modelos generativos ha sido sustancial, lo que ha llevado a mejoras en la capacidad del modelo para seguir indicaciones con precisión.

Evaluación de DALL-E 3

A través de múltiples evaluaciones y comparaciones con modelos anteriores como DALL-E 2 y Stable Diffusion XL, DALL-E 3 ha demostrado un rendimiento superior, especialmente en tareas relacionadas con el seguimiento rápido.

Comparación de modelos de texto a imagen en varias evaluaciones.

Comparación de modelos de texto a imagen en varias evaluaciones.

El uso de evaluaciones y puntos de referencia automatizados ha proporcionado evidencia clara de sus capacidades, solidificando su posición como generador de texto a imagen de última generación.

Indicaciones y habilidades de DALL-E 3

DALL-E 3 ofrece un enfoque más lógico y refinado para la creación de imágenes. A medida que se desplaza, notará cómo DALL-E crea cada imagen, con una combinación de precisión e imaginación que resuena con el mensaje dado.

A diferencia de su predecesor, esta versión mejorada destaca por organizar los objetos de forma natural dentro de una escena y representar los rasgos humanos con precisión, hasta el número correcto de dedos de una mano. Las mejoras se extienden a detalles más finos y ahora están disponibles en una resolución más alta, lo que garantiza una salida más realista y profesional.

Las capacidades de representación de texto también han experimentado una mejora sustancial. Donde las versiones anteriores de DALL-E producían texto galimatías, DALL-E 3 ahora puede generar letras legibles y de estilo profesional (a veces), e incluso logotipos limpios en ocasiones.

Se ha mejorado significativamente la comprensión del modelo de solicitudes de imágenes complejas y matizadas. DALL-E 3 ahora puede seguir con precisión descripciones detalladas, incluso en escenarios con múltiples elementos e instrucciones específicas, lo que demuestra su capacidad para producir imágenes coherentes y bien compuestas. Exploremos algunas indicaciones y el resultado respectivo que obtuvimos:

Design the packaging for a line of organic teas. Include space for the product name and description.

DALL-E 3 imágenes basadas en indicaciones de texto

DALL-E 3 imágenes basadas en indicaciones de texto (tenga en cuenta que el cartel de la izquierda tiene una ortografía incorrecta)

Create a web banner advertising a summer sale on outdoor furniture. The image feature a beach setting with different pieces of outdoor furniture, and text announcing 'Huge Summer Savings!'

DALL-E 3 imágenes basadas en indicaciones de texto

DALL-E 3 imágenes basadas en indicaciones de texto

A vintage travel poster of Paris with bold and stylized text saying 'Visit Paris' at the bottom.

DALL-E 3 imágenes basadas en indicaciones de texto

DALL-E 3 imágenes basadas en indicaciones de texto (tenga en cuenta que ambos carteles tienen ortografía incorrecta)

A bustling scene of the Diwali festival in India, with families lighting lamps, fireworks in the sky, and traditional sweets and decorations.
DALL-E 3 imágenes basadas en indicaciones de texto

DALL-E 3 imágenes basadas en indicaciones de texto

A detailed marketplace in ancient Rome, with people in period-appropriate clothing, various goods for sale, and architecture of the time.
DALL-E 3 imágenes basadas en indicaciones de texto

DALL-E 3 imágenes basadas en indicaciones de texto

Generate an image of a famous historical figure, like Cleopatra or Leonardo da Vinci, placed in a contemporary setting, using modern technology like smartphones or laptops.
DALL-E 3 imágenes basadas en indicaciones de texto

DALL-E 3 imágenes basadas en indicaciones de texto

Limitaciones y riesgos de DALL-E 3

OpenAI ha tomado medidas importantes para filtrar contenido explícito de los datos de entrenamiento de DALL-E 3, con el objetivo de reducir los sesgos y mejorar el resultado del modelo. Esto incluye la aplicación de filtros específicos para categorías de contenido sensible y una revisión de umbrales para filtros más amplios. La pila de mitigación también incluye varias capas de salvaguardas, como mecanismos de rechazo en ChatGPT para temas sensibles, clasificadores de entrada de mensajes para evitar violaciones de políticas, listas de bloqueo para categorías de contenido específicas y transformaciones para garantizar que los mensajes se alineen con las pautas.

A pesar de sus avances, DALL-E 3 tiene limitaciones para comprender las relaciones espaciales, representar textos largos con precisión y generar imágenes específicas. OpenAI reconoce estos desafíos y está trabajando en mejoras para futuras versiones.

La compañía también está trabajando en formas de diferenciar las imágenes generadas por IA de las creadas por humanos, lo que refleja su compromiso con la transparencia y el uso responsable de la IA.

DALL · E

DESDE EL 3

DALL-E 3, la última versión, estará disponible en fases comenzando con grupos de clientes específicos y luego expandiéndose a laboratorios de investigación y servicios API. Sin embargo, aún no se ha confirmado una fecha de lanzamiento público gratuito.

OpenAI realmente está estableciendo un nuevo estándar en el campo de la IA con DALL-E 3, uniendo a la perfección capacidades técnicas complejas e interfaces fáciles de usar. La integración de DALL-E 3 en plataformas ampliamente utilizadas como Bing refleja un cambio de aplicaciones especializadas a formas de entretenimiento y utilidad más amplias y accesibles.

El verdadero punto de inflexión en los próximos años probablemente será el equilibrio entre innovación y empoderamiento de los usuarios. Las empresas que prosperarán serán aquellas que no sólo superen los límites de lo que la IA puede lograr, sino que también proporcionen a los usuarios la autonomía y el control que desean. OpenAI, con su compromiso con la IA ética, está recorriendo este camino con cautela. El objetivo es claro: crear herramientas de IA que no sólo sean poderosas, sino también confiables e inclusivas, garantizando que los beneficios de la IA sean accesibles para todos.

He pasado los últimos cinco años sumergiéndome en el fascinante mundo del aprendizaje automático y el aprendizaje profundo. Mi pasión y experiencia me han llevado a contribuir en más de 50 proyectos diversos de ingeniería de software, con un enfoque particular en AI/ML. Mi curiosidad constante también me ha atraído hacia el procesamiento del lenguaje natural, un campo que estoy ansioso por explorar más a fondo.