top of page

Dec 15, 2025

Escala intelectual unificada para IAs, humanos e animais

Um dos maiores desafios para o desenvolvimento de IAs nos últimos anos tem sido o problema de como medir corretamente o desempenho de uma LLM. Desde que o GPT 3 ultrapassou 135 de QI, não existem mais métodos tradicionais para medir corretamente o desempenho das melhores LLMs. Foram feitas tentativas com WAIS, SAT, deconvolução de imagens, compressão de informação e outros, mas nada chegou perto de funcionar.

 

As novas IAs recebem números maiores nas novas versões, como GPT 4, 5, 5.1, 5.2, mas é questionável se existe alguma vantagem real nessas versões mais recentes. Isso acontece porque o progresso das IAs é muito diferente do progresso da indústria automobilística ou da farmacêutica. Em quase todos os campos do conhecimento, existem teorias que explicam os conceitos por trás dos fenômenos e isso permite compreender o que precisa ser feito para aprimorar algo.

 

Para tornar um carro mais veloz, é necessário aumentar a potência do motor sem aumentar o peso e sem aumentar coeficiente aerodinâmico. São 3 parâmetros principais que precisam ser considerados e cada um deles é bem compreendido. Desse modo, sabemos o que é preciso alterar e quanto alterar para alcançar determinado nível de incremento na performance. Muito antes de começar a construção do telescópio James Webb já se sabia quanto ele seria superior ao Hubble, porque para tornar um telescópio mais potente, é necessário construir uma superfície coletora maior, sem reduzir refletividade/transmissividade, sem aumentar o erro RMS da curvatura nas superfícies ópticas (Strehl-ratio), sem aumentar aberração cromática e esférica, sem instabilidades na colimação. Nos casos do Hubble e James Webb, há também a questão dos sensores, que determinam as faixas de comprimentos de onda que eles têm maior sensibilidade. Novamente são apenas 3 a 5 parâmetros principais e menos de 5 parâmetros secundários. Cada um desses parâmetros é bem compreendido e sabemos quanto precisamos modificar cada um para obter um certo resultado.

 

Mas o que é preciso alterar para deixar uma IA mais inteligente? A verdade é que não se sabe. São trilhões de parâmetros (nós) e não se tem a menor ideia da função de cada parâmetro. Não se sabe se aumentar o valor de um desses parâmetros vai melhorar ou piorar o resultado. Não se sabe sequer para que serve cada parâmetro.

 

Se não se sabe o que alterar para torná-la melhor, o que se faz? Nos casos de LLMs, basicamente 5 coisas:

1.      Aumentar o número de nós.

2.      Reduzir o número de nós (destilação).

3.      Alterar a arquitetura da rede, inclusive número de camadas, topologia de conexões entre camadas etc.

4.      Aumentar o banco de dados de treinamento.

5.      Filtrar o banco de dados de treinamento.

6.      Seria também possível mudar funções de ativação, entre outras possibilidades, mas os resultados práticos mostram que essas mudanças não afetam muito a performance.

 

Os itens 1 e 2 se contradizem, assim como os 4 e 5. O item 3 tem uma infinidade de alternativas a serem testadas. São consequência de não se saber o que se está fazendo, mas continuar fazendo na expectativa de que algo funcione melhor, quase por tentativa e erro. É ruim, mas é o que se pode fazer.

 

Mas o problema não termina por aí. O maior problema é que depois de aumentar a rede, ou modificar a rede, não existe uma métrica eficaz e acurada para medir se o resultado ficou melhor do que estava antes. Esse é o problema mais grave. Não existe um método adequado para avaliar se uma nova rede está melhor do que a campeã até o momento, se ela deve ou não substituir a campeã.

 

Medir a performance de um carro é trivial. Geralmente velocidade final e aceleração de 0 a 100 km/h são os dois benchmarks principais, mas medir a performance de uma IA significa medir a inteligência dela. O problema é os métodos tradicionais para medir a inteligência só funcionam bem para QIs até 120-125, e sofrivelmente podem chegar a 130-135. Acima disso, os resultados não refletem a inteligência, de modo que uma IA com 160 ou 180 no WAIS não será necessariamente melhor que outra com 140.

 

Embora esse problema tenha ganhado destaque recentemente, já se faz pesquisas sobre isso há mais de 100 anos, muito antes dos primeiros artigos teóricos sobre computadores de Turing e Shannon.

 

Para compreender a situação, precisamos retroagir pelo menos até Cattell e Galton, que foram pioneiros em tentar medir a inteligência humana, em 1883—1884. Os erros que eles cometeram são semelhantes aos que os “especialistas” em IA estão cometendo agora, usando métodos muito primitivos, que medem habilidades básicas, na esperança de que estas reflitam a inteligência. Galton media tempo de reação, acuidade visual e auditiva, sensibilidade a cores, perímetro da cabeça. Todas essas variáveis estão de fato correlacionadas com inteligência, mas muito fracamente.

 

Os métodos para medir inteligência de IA estão num está semelhante ao que estavam os testes de Galton. MMLU é basicamente interpretação de texto, adequado (desafiador) para os níveis de Siri e Alexa, mas inútil para GPT, Gemini, Grok, Deepseek. A esmagadora maioria de outros testes incorre num erro básico de usar tipos de questões essencialmente iguais à boa parte das que foram usadas no próprio treinamento da IA. Questões de IMO e IPO são muito boas, exceto se a IA foi treinada em milhares de questões de IMO e IPO ou muito semelhantes. O mesmo vale para SAT, GRE e todos os outros testes.

 

A crítica de Chollet e o teste ARC que ele propõe representam uma vantagem importante em comparação aos demais, porém ainda incorre em muitas falhas, conforme o artigo no qual analiso os erros de Chollet.

 

Portanto há uma grave lacuna a ser preenchida: a inexistência de instrumentos, métodos e métricas adequados para medir performance de IAs.

 

O problema a ser resolvido já havia sido percebido antes mesmo dos primeiros artigos teóricos de Turing e Shannon que deram origem aos primeiros computadores. Louis Thurstone foi um dos maiores estatísticos e psicometristas da história, criador da Análise Multifatorial, uma das ferramentas mais usadas em todas as ciências. Desde os anos 1930, Thurstone compreendeu a importância de se medir a inteligência numa escala de proporção, mas ele considerava isso quase impossível, por isso estabeleceu como “Santo Graal da Psicometria” um desafio menos difícil: produzir escores em escala intervalar, e investiu décadas tentando resolver esse problema, assim como muitos dos mais proeminentes de seus contemporâneos e sucessores.

 

Os melhores testes tradicionais, como WAIS, produzem escores em escala ordinal. Isso significa que esses escores podem ser ordenados do maior para o menor, mas não se pode assegurar que uma diferença de 100 para 110 é a mesma que de 110 para 120 ou de 180 para 190. Thurstone compreendia que uma escala de proporção seria muito superior a uma intervalar, mas o desafio da intervalar já era suficientemente difícil para que ele o considerasse o “Santo Graal”.

 

Em 2000, resolvi não apenas o problema da escala de intervalo, mas também da escala de proporção. Em 2003, minha solução foi aplicada aos dados brutos do Sigma Test, Titan Test e Mega Test, corroborando a validade do meu método. Entretanto, esse material esteve fora dos holofotes, numa seção obscura do site de Sigma Society, atualmente acessível via Wayback Machine.

 

Em 2016, o amigo João Antonio começou a me incentivar a traduzir, formatar e publicar o Melao—Index e outras inovações em revistas de alto impacto, ele se ofereceu para traduzir, mas meu foco naquele momento era outro. Em 2021, a Tamara começou a me incentivar a publicar minhas inovações, em 2024 dois amigos (um dos quais ligado ao comitê do Nobel) sugeriu que publicasse em revistas indexadas, especialmente o Melao—Index, que ele afirmou ter probabilidades muito altas de ser laureado com um Nobel. Amigos brasileiros e portugueses se ofereceram para formatar e traduzir meus artigos e iniciar um processo de publicação, primeiramente registrando em Zenodo para garantir os créditos pelas inovações, depois organizando a estrutura em pré-prints como SSRN, PsyArchive, PhilSciArcive.

 

Começamos a colocar em prática no final de 2024 e agora está completando o primeiro ano, com 5 artigos em preprints e dois quase prontos para revistas.

 

Os dois mais relevantes, em minha opinião, são Melao—index I e II, e este sobre medida da inteligência em escala de proporção. Na época em que cada um foi escrito, o Melao—Index provavelmente tinha maior peso, por superar todas as métricas para medida de performance ajustada ao risco, e como o mercado de capitais movimenta dezenas de trilhões de dólares a cada ano, o maior impacto estaria precisamente nisso. Porém com o boom das IAs o cenário muda, e dominar SIAs ultrapassa qualquer valor monetário.

 

O artigo no qual apresento minha nova métrica é esse: https://doi.org/10.2139/ssrn.5909646 e faz parte de um conjunto de outros artigos relacionados ao mesmo tema, pelos motivos que são descritos no primeiro artigo da série: https://doi.org/10.2139/ssrn.5882362


bottom of page