Large Language Models Pass the Turing Test
We evaluated 4 systems (ELIZA, GPT-4o, LLaMa-3.1-405B, and GPT-4.5) in two randomised, controlled, and pre-registered Turing tests on independent populations. Participants had 5 minute conversations simultaneously with another human participant and one of these systems before judging which conversational partner they thought was human. When prompted to adopt a humanlike persona, GPT-4.5 was judged to be the human 73% of the time: significantly more often than interrogators selected the real human participant. LLaMa-3.1, with the same prompt, was judged to be the human 56% of the time -- not significantly more or less often than the humans they were being compared to -- while baseline models (ELIZA and GPT-4o) achieved win rates significantly below chance (23% and 21% respectively). The results constitute the first empirical evidence that any artificial system passes a standard three-party Turing test. The results have implications for debates about what kind of intelligence is exhibited by Large Language Models (LLMs), and the social and economic impacts these systems are likely to have.
Uma tradução:
Modelos de Linguagem Grande Escala Passam no Teste de Turing
Cameron R. Jones, Benjamin K. Bergen
Avaliamos quatro sistemas (ELIZA, GPT-4o, LLaMa-3.1-405B e GPT-4.5) em dois testes de Turing randomizados, controlados e pré-registrados em populações independentes. Os participantes tiveram conversas simultâneas de cinco minutos com outro participante humano e um desses sistemas antes de julgar qual parceiro de conversa achavam que era humano. Quando instruído a adotar uma personalidade semelhante à humana, o GPT-4.5 foi julgado como humano 73% do tempo — significativamente mais vezes do que os interrogadores selecionaram o participante humano real. O LLaMa-3.1, com o mesmo prompt, foi julgado como humano 56% do tempo — não significativamente mais ou menos vezes do que os humanos com quem estavam sendo comparados — enquanto os modelos de linha de base (ELIZA e GPT-4o) alcançaram taxas de vitória significativamente abaixo do acaso (23% e 21%, respectivamente). Os resultados constituem a primeira evidência empírica de que qualquer sistema artificial passa no teste de Turing padrão de três partes. Os resultados têm implicações para debates sobre que tipo de inteligência é exibida por Modelos de Linguagem Grande (LLMs) e os impactos sociais e econômicos que esses sistemas provavelmente terão.
Alan Turing e o Teste de Turing
Alan Turing
Alan Mathison Turing (1912–1954) foi um matemático, lógico e cientista britânico amplamente considerado o pai da ciência da computação e da inteligência artificial. Ele revolucionou diversos campos com suas contribuições teóricas e práticas:
- Contribuições na computação: Turing desenvolveu a ideia da máquina de Turing, um modelo teórico que define os fundamentos da computação moderna. Sua concepção de uma máquina universal foi essencial para o desenvolvimento dos computadores digitais.
- Código Enigma: Durante a Segunda Guerra Mundial, Turing liderou esforços em Bletchley Park para decifrar os códigos alemães gerados pela máquina Enigma. Sua invenção, a Bombe, acelerou o processo de quebra de códigos e ajudou a encurtar a guerra.
- Trabalho pós-guerra: Após a guerra, ele contribuiu para o desenvolvimento dos primeiros computadores programáveis, como o Manchester Mark 1.
- Perseguição e legado: Turing foi condenado por sua homossexualidade em 1952, enfrentando castração química e ostracismo social. Ele morreu em 1954, com sua morte oficialmente declarada como suicídio. Em 2013, recebeu um perdão póstumo do governo britânico, e sua história inspirou a chamada "Lei de Turing", que concede perdões a homens condenados por crimes relacionados à homossexualidade no passado.
O Teste de Turing
O Teste de Turing foi proposto por Alan Turing em 1950 em seu artigo "Computing Machinery and Intelligence". É um método para avaliar se uma máquina pode exibir inteligência semelhante à humana.
Como funciona
- O teste envolve três participantes: um interrogador humano, um humano e uma máquina. O interrogador faz perguntas aos outros dois participantes sem saber qual é humano ou máquina.
- Se o interrogador não conseguir distinguir consistentemente entre as respostas do humano e da máquina, considera-se que a máquina passou no teste.
Critérios
Para passar no teste, a máquina deve:
1. Demonstrar habilidade em Processamento de Linguagem Natural (NLP), respondendo fluentemente em linguagem humana.
2. Manipular conhecimento para respostas contextuais (representação de conhecimento).
3. Exibir raciocínio lógico, mesmo que imperfeito.
4. Aprender com interações anteriores (adaptação).
Importância e Limitações
- O teste foi um marco na filosofia da inteligência artificial, mas enfrenta críticas por não avaliar a compreensão real ou consciência das máquinas. Ele mede apenas a capacidade de imitar comportamentos humanos.
- Apesar disso, continua sendo um símbolo do progresso na IA e inspirou debates sobre inteligência artificial geral.
Legado
Alan Turing não apenas lançou as bases para a computação moderna e inteligência artificial como também deixou um impacto duradouro na ética científica e nos direitos humanos. Sua vida e trabalho são celebrados como exemplos de inovação e resiliência frente à adversidade.
---
Resposta do Perplexity: pplx.ai/share