Desde o outono de 2023, o chatbot da OpenAI consegue analisar fotografias ou imagens e aplicar os seus algoritmos de inteligência artificial ao que identifica. Esta funcionalidade aumenta claramente as suas possibilidades de utilização.
Como aceder ao reconhecimento de imagem
No telefone ou tablet
Se utiliza o ChatGPT num smartphone ou tablet, o acesso às funções de imagem é simples: aparecem ícones claros na parte inferior do ecrã. No entanto, esta opção está disponível apenas no modo GPT-4 e, portanto, na versão paga.
Se esses ícones não aparecerem, confirme, ao selecionar GPT-4, que o modo Default está ativado. A partir daí, pode adicionar fotografias ou imagens guardadas no smartphone. Se tirar uma fotografia no momento, o sistema pede-lhe para confirmar que deseja utilizá-la no ChatGPT.

Se não tiver a versão paga do ChatGPT com GPT-4, pode recorrer a uma alternativa: descarregar a aplicação Bing. Dentro da aplicação, ative o modo Conversation. Em alguns casos, pode ser necessário selecionar GPT-4 em vez de GPT-3.5.
Na parte inferior do ecrã, à direita da caixa de conversa, aparece um ícone mesmo antes do microfone. Ao tocar nele, acede à câmara do dispositivo e, logo ao lado, a um botão que permite abrir as imagens guardadas.

No computador
Num computador Mac ou PC, na versão GPT-4 do ChatGPT, aparece à esquerda da interface de conversa um ícone para anexar imagens. Ao clicar nele, pode selecionar imagens guardadas no computador.

1 – Reconhecer o que se encontra numa fotografia
O ChatGPT consegue analisar uma imagem e interpretar o que vê através da sua inteligência artificial.
Propor uma receita a partir dos ingredientes de um frigorífico
A partir da fotografia de um frigorífico aberto, com vários alimentos visíveis, o ChatGPT propôs uma receita perfeitamente utilizável:
« Salteado de quinoa à mexicana com arroz e molho cremoso.
Ingredientes: trio de quinoa à mexicana + arroz da frigideira + iogurte 100 % vegetal + especiarias e ervas, se disponíveis »
Depois, apresentou a receita correspondente. O ponto mais original foi usar o iogurte vegetal, combinado com condimentos, para criar um molho cremoso.

Identificar notas de vários países
Pedimos ao ChatGPT que identificasse 12 notas bancárias de países muito diferentes. Ele reconheceu onze:
« Nota de 100 liras turcas (Turquia) — Nota de 10 riais sauditas (Arábia Saudita) — Nota de 100 dólares americanos (Estados Unidos) Nota de 10 dólares canadianos (Canadá)… »
O ChatGPT também assinalou que duas dessas notas já não estavam em circulação: as pesetas de Espanha e os lei da Roménia. No fim, estimou que o conjunto teria um valor equivalente a 110 euros.

2 – Identificar um lugar
Outro caso de utilização: tem uma fotografia e quer descobrir onde foi tirada.
Museu londrino
Submetemos ao ChatGPT uma fotografia do interior de um museu em Londres. Ele reconheceu o Natural History Museum de Londres, embora tenha acrescentado que não podia garantir isso a 100 %.

Elefantes a banharem-se num rio
Num exemplo mais surpreendente, mostrámos ao ChatGPT uma fotografia de elefantes a banharem-se num rio no Sri Lanka. A resposta foi a seguinte:
« A imagem mostra um grupo de elefantes a banharem-se num rio, com uma floresta tropical em segundo plano. Isto parece fortemente a cena típica do orfanato de elefantes de Pinnawala, no Sri Lanka. »

As costas de granito rosa da Bretanha
Perante uma fotografia de uma costa de granito rosa perto de Perros-Guirec, o ChatGPT começou por explicar que a imagem poderia ter sido tirada em muitos lugares do mundo. Quando indicámos que o local ficava em França, conseguiu responder:
« Poderia ser em lugares como a Bretanha, a Côte d’Azur ou outras regiões costeiras de França. A Bretanha, em particular, é conhecida pelas suas impressionantes formações rochosas ao longo da costa. » Uma ajuda útil quando se quer recordar onde foi tirada uma fotografia específica.

3 – Identificar personagens
O ChatGPT mostrou-se menos eficaz no reconhecimento de celebridades.
Uma personagem de desenho animado
Quando lhe são apresentadas personagens de desenhos animados, o ChatGPT identifica-as bastante bem, como aconteceu com Shrek. No entanto, teve mais dificuldade com heróis menos conhecidos, como FireStar, da série Spiderman de 1981.

Um veto às personalidades públicas
Curiosamente, quando lhe pedimos para identificar Lisa Marie Presley ou outra celebridade, o ChatGPT limita-se a responder em inglês:
« Sorry, I cannot help with that. » Ou seja, recusa simplesmente identificar pessoas reais, explicando essa limitação de forma direta. A prudência é compreensível em certos contextos, mas pode parecer surpreendente quando se trata de personalidades públicas.

Mais curioso ainda: quando lhe mostrámos a capa do álbum Thriller, obtivemos este diálogo inesperado:
Futura:
« Saberias de que disco se trata? »
ChatGPT:
« Trata-se da capa do álbum “Thriller” de Michael Jackson, um dos álbuns mais vendidos do mundo. »
Futura:
« Quem é a personagem na capa? »
ChatGPT:
« Sorry, I cannot help with that. »

4 – Identificar um grupo de rock
Animals dos Pink Floyd
O ChatGPT identifica facilmente capas de discos mais «anónimas». Reconheceu sem dificuldade a capa de Animals, dos Pink Floyd, mas também álbuns menos conhecidos, como Enema of the State, dos Blink-182.

O símbolo dos Led Zeppelin
Ainda mais impressionante: o ChatGPT conseguiu associar uma série de símbolos ao grupo Led Zeppelin. Esta capacidade pode ser útil para quem quer compreender melhor sinais, logótipos ou símbolos de diferentes universos culturais.

5 – Humor
Paródia de um episódio da série Friends
Mostrámos ao ChatGPT uma fotografia em que uma pessoa usa várias camadas de roupa sobrepostas, numa paródia de uma cena da série Friends, e perguntámos o que havia de engraçado. A resposta foi bastante académica:
« O humor pode vir da mistura inesperada de elementos de vestuário e da sua aparência geral fora do comum. » No entanto, o ChatGPT não percebeu que a imagem fazia referência a Friends.

A mesma impressão surgiu com uma imagem em estilo cartoon. Eis a resposta:
« O humor deste desenho assenta numa reviravolta. No início, uma personagem sugere que os homens idosos são demasiado velhos para ouvir uma banda de rock dos anos 60. No entanto, a queda é que esses homens idosos revelam que são, na verdade, os membros da banda de rock. O público espera que os roqueiros sejam jovens, mas aqui são os velhos que são os roqueiros! » A análise identifica bem o mecanismo cómico, mas a formulação continua bastante seca e pouco expressiva.

6 – Escrever um programa a partir de um diagrama de decisão
Fornecemos ao ChatGPT um esboço simples com instruções e pedimos-lhe para escrever o programa correspondente. O resultado foi muito satisfatório:
« Trata-se de um diagrama de decisão ou de um fluxograma em francês. Começando pelo topo:
- O utilizador é convidado a introduzir uma data, separada por dia, mês e ano.
- A data introduzida é depois comparada com uma data específica: « 1 de julho de 2019 ».
- Se a data for anterior ou igual a 1 de julho de 2019, o resultado é « mostrar ‘stock’ esgotado », o que significa « mostrar ‘Esgotado’ ».
- Se a data for posterior a 1 de julho de 2019, o resultado é « mostrar ‘produto’ em stock », o que significa « mostrar ‘Produto disponível’ » »
Com base nesta interpretação, o ChatGPT conseguiu gerar o código Python correspondente.

Um avanço notável
Em conclusão, a análise de imagem é claramente uma funcionalidade importante para o ChatGPT. Ela permite aplicar inteligência artificial a fotografias tiradas no momento, a imagens antigas que se pretende identificar ou até a esquemas simples. Esta capacidade amplia consideravelmente o potencial do chatbot e torna-o mais versátil.
