Modelo de texto para imagem

Um modelo de texto para imagem é uma técnica de aprendizado de máquina que gera uma imagem partindo de uma descrição em linguagem natural. Essa técnica surgiu na segunda metade da década de 2010, impulsionada pelo desenvolvimento de redes neurais profundas.

Em 2022, a qualidade das imagens geradas pelos modelos de texto para imagem mais avançados, como o DALL-E 3 da OpenAI, o Imagem do Google Brain, o Stable Diffusion da StabilityAI e o Midjourney, começou a se aproximar da qualidade de fotografias reais e de arte desenhada por humanos.

Os modelos de texto para imagem geralmente combinam um modelo de linguagem, que transforma o texto de entrada em uma representação latente, e um modelo gerador [en] de imagens, que produz uma imagem condicionada a essa representação. Os modelos mais eficazes geralmente foram treinados em enormes quantidades de dados de imagem e texto extraídos da web.^[1]

Avaliação editar

Avaliar e comparar a qualidade dos modelos de texto para imagem é um problema desafiador, que envolve analisar múltiplas propriedades desejáveis. Como em qualquer modelo gerador de imagens, é desejável que as imagens geradas sejam realistas (no sentido de parecerem que poderiam ter vindo do conjunto de treinamento), e diversificadas em seu estilo. Um requisito específico para os modelos de texto para imagem é que as imagens geradas se alinhem semanticamente com os textos usados para gerá-las. Vários métodos foram propostos para avaliar essas qualidades, alguns automatizados e outros baseados em julgamento humano.^[2]

Uma métrica algorítmica comum para avaliar a qualidade e a diversidade das imagens é o Inception Score [en] (IS), que se baseia na distribuição de rótulos previstos por um modelo pré-treinado de classificação de imagens Inceptionv3 quando aplicado a uma amostra de imagens geradas pelo modelo de texto para imagem. O escore é aumentado quando o modelo de classificação de imagens prevê um único rótulo com alta probabilidade, um método destinado a favorecer imagens geradas "distintas". Outra métrica popular é a distância inicial de Fréchet [en], que compara a distribuição de imagens geradas e imagens reais de treinamento, de acordo com características extraídas de uma das últimas camadas de um modelo pré-treinado de classificação de imagens.^[2]

Impacto e aplicações editar

A exposição "Máquinas Pensantes: Arte e Design na Era do Computador, 1959–1989" no MoMA ofereceu uma visão geral das aplicações da IA para a arte, a arquitetura e o design. Exposições que mostraram o uso da IA para produzir arte incluem o benefício e leilão patrocinado pelo Google em 2016 na Gray Area Foundation em São Francisco, onde artistas experimentaram o algoritmo DeepDream, e a exposição "Unhuman: Art in the Age of AI", que ocorreu em Los Angeles e Frankfurt em 2017. Na primavera de 2018, a Associação para Maquinaria da Computação dedicou uma edição de uma revista ao tema dos computadores e da arte. Em junho de 2018, "Duet for Human and Machine", uma obra de arte que permitia aos espectadores interagir com uma inteligência artificial, estreou no Beall Center for Art + Technology. O Ars Electronica da Áustria e o Museu de Artes Aplicadas [en] de Viena abriram exposições sobre IA em 2019. O festival "Out of the box" do Ars Electronica em 2019 explorou o papel da arte em uma transformação social sustentável.

Exemplos de tal aumento podem incluir, por exemplo, possibilitar a expansão de gêneros de nicho não comerciais (exemplos comuns são derivados do cyberpunk [en], como o solarpunk) por amadores, entretenimento inovador, brincadeira infantil imaginativa inovadora, prototipagem muito rápida,^[3] aumentar a acessibilidade da criação artística^[3] e a produção artística por esforço e/ou despesas e/ou tempo^[3] – por exemplo, através da geração de rascunhos, inspirações, redefinições de rascunhos e componentes de imagem (Repintura [en]).

Referências

↑ The Verge (24 de maio de 2022). «All these images were generated by Google's latest text-to-image AI». Vox Media. Consultado em 28 de maio de 2022
↑ ^a ^b «Adversarial text-to-image synthesis: A review"». Neural Networks. Dezembro de 2021
↑ ^a ^b ^c «How 'synthetic media' will transform business forever». Computerworld. 1 de novembro de 2022. Consultado em 9 de novembro de 2022

[1] The Verge (24 de maio de 2022). «All these images were generated by Google's latest text-to-image AI». Vox Media. Consultado em 28 de maio de 2022

[org-2] «Adversarial text-to-image synthesis: A review"». Neural Networks. Dezembro de 2021

[Computerworld-3] «How 'synthetic media' will transform business forever». Computerworld. 1 de novembro de 2022. Consultado em 9 de novembro de 2022

[1]

[2]

[3]