Eu sei o que você fez no verão passado.
LarLar > blog > Eu sei o que você fez no verão passado.

Eu sei o que você fez no verão passado.

Oct 05, 2023

Matt Barrie

Seguir

--

6

Ouvir

Compartilhar

[Esta é uma leitura longa, também fui entrevistado recentemente neste ensaio no excepcional podcast Macrovoices, se você quiser ouvir:

https://www.macrovoices.com/1230-macrovoices-390-matt-barrie-the-awesome-power-and-risk-of-artificial-intelligence

https://podcasts.apple.com/us/podcast/macro-voices/id1079172742?i=1000625553151

Feedback sobre minha entrevista:“Um dos podcasts mais importantes que já ouvi.” @SteveBigpond

“(Macrovoices) Este foi um dos seus melhores podcasts. Na verdade, um forte candidato ao primeiro lugar. Obrigado." @kdogni]

Em 22 de agosto de 2022, a Skynet ficou online e começou a aprender em uma taxa geométrica.

Pelo menos é assim que tenho certeza que foi para os ilustradores gráficos.

Naquele dia, foi lançado o Stable Diffusion, um modelo de aprendizagem profunda de texto para imagem. Como muitos outros, baixei e comecei a brincar com ele.

Você digitaria uma frase como “homem andando de moto, sendo perseguido por um urso”. O que saiu, pelo menos para mim, pareceu mais um pesadelo – imagens artísticas, mas muitas vezes horríveis, de pessoas com partes extras do corpo e rostos distorcidos em cenas de sonho. Uma reminiscência de um Picasso desenhado por Salvador Dali, a fusão de pessoas e objetos era impressionante, mas enervante.

No entanto, havia algo verdadeiramente impressionante na incrível capacidade do software de manifestar qualquer conceito digitado em uma ilustração.

Eu ficava horas mexendo nos parâmetros: palavras-chave positivas e negativas, o número de etapas a serem executadas na geração e a força do prompt. Ocasionalmente, em uma nova rolagem, você obteria algo que o surpreenderia.

Algo mágico estava claramente acontecendo sob o capô.

Navegando na Internet, algumas pessoas tornaram-se especialistas em comunicar os encantamentos corretos para produzir imagens coerentes. Eu recortava e colava modificadores como octane render, 4k, hiperrealista e mexia no número de etapas de geração na tentativa de tirar algo do software, sem muito sucesso.

Ficou claro que o trabalho dos ilustradores era seguro.

O que era particularmente novo no Stable Diffusion era que o código era de código aberto. Durante anos ouvi rumores sobre descobertas secretas nas entranhas das grandes empresas de tecnologia do Vale do Silício e, ocasionalmente, elas exibiam alguma coisa.

Agora que algum código estava disponível, a inovação pública explodiu.

Dois meses e meio depois, Lensa, um aplicativo de edição de fotos de IA desenvolvido pela Stable Diffusion, lançou “avatares mágicos” que conquistaram o mundo. Qualquer um poderia fazer upload de algumas imagens suas e gerar avatares malucos. O aplicativo se tornou viral à medida que os downloads foram limitados.

Então Midjourney lançou a versão 4 e o inferno começou.

O vale misterioso é um termo usado para descrever a relação entre a aparência humana de um objeto robótico, onde semelhanças imperfeitas provocam sentimentos estranhos ou estranhamente familiares de desconforto e repulsa.

Assim como o Lensa, o Midjourney foi treinado no conjunto de dados LAION-5B de 5,85 bilhões de imagens com descrições de texto extraídas da Internet. LAION-5B era 14x maior que LAION-400M, o maior conjunto de dados abertamente acessível anterior.

Algo no aumento da escala permitiu que Midjourney cruzasse bem e verdadeiramente o vale misterioso.

Não são mais imagens de um pesadelo, de repente o software produz imagens fotorrealistas impressionantes de qualquer coisa.

Caralho.

Começou uma corrida armamentista nas ferramentas de ilustração. O meio da jornada estava à frente, mas a diferença estava diminuindo rapidamente. O que fez do Midjourney a ferramenta preferida foi que as imagens produzidas tinham um elemento bonito e de fantasia.

O estilo era muito semelhante ao de um ilustrador polonês chamado Greg Rutkowski. Isso ocorre porque muitos dos aplicativos de design de IA usaram Greg Rutkowski como palavra-chave padrão. Greg era muito popular entre os geeks por criar arte para Dungeons & Dragons e Magic: The Gathering.