Greg Mankiw publicou no seu blogue este gráfico que temos à esquerda. De seguida, escreve:
This graph is a good example of omitted variable bias, a statistical issue discussed in Chapter 2 of my favorite textbook. The key omitted variable here is parents’ IQ. Smart parents make more money and pass those good genes on to their offspring. 
A explicação parecia-me tão óbvia que não mereceria qualquer comentário.


Todavia, João Pinto e Castro reagiu dizendo que Mankiw, "autor dos manuais de economia mais usados em todo o mundo", considera que “a distribuição dos rendimentos reflecte com grande rigor a capacidade intelectual dos seus detentores”. Acrescenta ainda que "para Mankiw, se alguém é pobre isso explica-se por alguma espécie de deficiência intelectual que inevitavelmente legará à sua prole". Acaba, dizendo que não pode deixar de felicitar Mankiw pela sua franqueza. Não há muita gente à direita capaz de afirmar publicamente com todas as letras a sua preferência por uma sociedade de castas.”

Apesar de alguma evidência em contrário, parece-me que o nível de educação dos pais será mais relevante do que o seu QI, mas não é isso que quero discutir. Gostaria mesmo era de analisar as implicações que João Pinto e Castro retira desta afirmação de Mankiw.

Proponho um exercício. Vamos admitir que a inteligência intrínseca de alguém apenas levemente explica o seu nível de rendimentos. Tão levemente que a variação da inteligência entre várias pessoas apenas explica 10% da variação do rendimento dessas mesmas pessoas. Os restantes 90% são explicados pelo factor sorte (heranças, totolotos, cunhas bem metidas, etc.), ou seja são aleatórios. Dificilmente se pode considerar que neste exemplo a distribuição dos rendimentos reflecte com grande rigor a capacidade intelectual dos seus detentores.

De seguida, vamos admitir que a inteligência dos pais é herdada pelos filhos. Para evitar a acusação de determinismo genético/biológico, vamos admitir que apenas 30% da variação da inteligência da geração mais jovem é explicada pelo património genético dos pais. Os restantes 70% são, mais uma vez, aleatórios. Ou seja, a inevitabilidade descrita por João Pinto e Castro não existe.

Chegados aqui, vamos admitir que as notas que os putos têm nos exames escolares apenas parcialmente são explicadas pela inteligência de cada um (a qual, como vimos, apenas muito parcialmente é herdada dos pais). Vamos admitir que apenas 25% da variação das notas dos putos são explicadas pela sua inteligência. Os restantes 75% são explicados por outros factores, que não nos interessam. Finalmente, vamos admitir que temos dados para 150000 resultados de exames.

Pois bem, com a ajuda do computador, e do seu gerador de números aleatórios, gerei um milhão observações com as características descritas acima.* O resultado foi este:

Como se vê neste exemplo que criei, a relação positiva bastante forte entre rendimento e notas escolares (linha azul) é completamente espúria e resulta precisamente do problema apontado por Mankiw: omissão de variável relevante. Uma vez que se tenha em atenção a variável omitida (a tal inteligência dos pais) a relação entre rendimento e resultados escolares desaparece (linha vermelha). Ou seja, é perfeitamente possível que o ponto levantado por Mankiw seja válido sem que tal implique que ele acredite num “sistema de castas”, que a “distribuição dos rendimentos reflecte com grande rigor a capacidade intelectual dos seus detentores” e muito menos que Mankiw acredite que “se alguém é pobre isso explica-se por alguma espécie de deficiência intelectual que inevitavelmente legará à sua prole”.

* Originalmente tinha feito este exercício com 150 mil observações. Como entretanto verifiquei que os dados originais representam cerca de um milhão e meio de alunos dos quais se recolheram dados para dois terços, refiz o exercício com um milhão de observações, tornando as relações espúrias aparentemente ainda mais impressionantes.