
Greg Mankiw publicou no seu blogue este gráfico que temos à esquerda. De seguida, escreve:
This graph is a good example of omitted variable bias, a statistical issue discussed in Chapter 2 of my favorite textbook. The key omitted variable here is parents’ IQ. Smart parents make more money and pass those good genes on to their offspring.
A explicação parecia-me tão óbvia que não mereceria qualquer comentário.
Apesar de alguma evidência em contrário, parece-me que o nível de educação dos pais será mais relevante do que o seu QI, mas não é isso que quero discutir. Gostaria mesmo era de analisar as implicações que João Pinto e Castro retira desta afirmação de Mankiw.
Proponho um exercício. Vamos admitir que a inteligência intrínseca de alguém apenas levemente explica o seu nível de rendimentos. Tão levemente que a variação da inteligência entre várias pessoas apenas explica 10% da variação do rendimento dessas mesmas pessoas. Os restantes 90% são explicados pelo factor sorte (heranças, totolotos, cunhas bem metidas, etc.), ou seja são aleatórios. Dificilmente se pode considerar que neste exemplo a distribuição dos rendimentos reflecte com grande rigor a capacidade intelectual dos seus detentores.
De seguida, vamos admitir que a inteligência dos pais é herdada pelos filhos. Para evitar a acusação de determinismo genético/biológico, vamos admitir que apenas 30% da variação da inteligência da geração mais jovem é explicada pelo património genético dos pais. Os restantes 70% são, mais uma vez, aleatórios. Ou seja, a inevitabilidade descrita por João Pinto e Castro não existe.
Chegados aqui, vamos admitir que as notas que os putos têm nos exames escolares apenas parcialmente são explicadas pela inteligência de cada um (a qual, como vimos, apenas muito parcialmente é herdada dos pais). Vamos admitir que apenas 25% da variação das notas dos putos são explicadas pela sua inteligência. Os restantes 75% são explicados por outros factores, que não nos interessam. Finalmente, vamos admitir que temos dados para 150000 resultados de exames.
Pois bem, com a ajuda do computador, e do seu gerador de números aleatórios, gerei um milhão observações com as características descritas acima.* O resultado foi este:

Como se vê neste exemplo que criei, a relação positiva bastante forte entre rendimento e notas escolares (linha azul) é completamente espúria e resulta precisamente do problema apontado por Mankiw: omissão de variável relevante. Uma vez que se tenha em atenção a variável omitida (a tal inteligência dos pais) a relação entre rendimento e resultados escolares desaparece (linha vermelha). Ou seja, é perfeitamente possível que o ponto levantado por Mankiw seja válido sem que tal implique que ele acredite num “sistema de castas”, que a “distribuição dos rendimentos reflecte com grande rigor a capacidade intelectual dos seus detentores” e muito menos que Mankiw acredite que “se alguém é pobre isso explica-se por alguma espécie de deficiência intelectual que inevitavelmente legará à sua prole”.
* Originalmente tinha feito este exercício com 150 mil observações. Como entretanto verifiquei que os dados originais representam cerca de um milhão e meio de alunos dos quais se recolheram dados para dois terços, refiz o exercício com um milhão de observações, tornando as relações espúrias aparentemente ainda mais impressionantes.

Algo curioso e’ que mesmo depois dezenas de comentadores terem usado argumentos semelhantes aos teus na discucao a esse artigo, o Joao Pinto e Castro volta a escorregar na mesma casca de banana.
Para ver e pensar.
Comment by Tiago Tavares — September 7, 2009 @ 2:45 am
Sem querer ser muito “chato”, observo que a gama de variações nas notas no exemplo apresentado pelo LAC é bastante menor que as do exemplo do Mankiw (que suponho que sejam dados estatísticos reais). Seria interessante ver quais as percentagens correspondentes à influencia de capacidades intrínsecas no rendimento e quais as percentagens correspondentes à transmissão dessas capacidades e efeitos dessas nos testes seria necessário para obter valores comparáveis.
Comment by João Branco — September 11, 2009 @ 10:54 am
“Sem querer ser muito “chato”, observo que a gama de variações nas notas no exemplo apresentado pelo LAC é bastante menor que as do exemplo do Mankiw ”
Não é nada chato. Bastava eu ter aumentado a variância dos dados que gerei para que a gama de variações fosse maior. Isso não é um ponto relevante. O objectivo deste exercício não era replicar o argumento de Mankiw (que nem sequer diz que depois de contolado o talento dos pais a curva fica flat), nem dizer que o rendimento é uma componente irrelevante, nem nada que possa ser entendido nesses termos.
O meu único objectivo era mostrar que não vale a pena fazer grandes filmes, como João Pinto e Castro fez, a partir de discussões que devem ser e permanecer técnicas.
“Seria interessante ver quais as percentagens correspondentes à influencia de capacidades intrínsecas no rendimento e quais as percentagens correspondentes à transmissão dessas capacidades e efeitos dessas nos testes seria necessário para obter valores comparáveis. ”
Sugiro-lhe a leitura do artigo referido nos últimos dois links que coloquei no texto. Nesse artigo dão-se algumas pistas sobre o assunto. Mas, sincereamente, esse já é um assunto que não me interessa muito. E não me interessa muito por me parecer razoavelmente óbvio que quer a componente genética quer a componente do ambiente familiar são relevantes. Mas também me parece razoavelmente óbvio que a variabilidade individual (a tal que o gráfico com as médias esconde) é tão grande que é impossível olhar para os genes e e o rendimento dos pais e daí concluir que o futuro de alguém está praticamente pré-determinado. (e felizmente que assim é)
Comment by LA-C — September 11, 2009 @ 11:16 am
Um problema recorrente em discussões são as mensagens não afirmadas explicitamente, mas que são implícitas para leitores ou ouvintes não iniciados ou desatentos, (tal é lamentavelmente frequente em política, por exemplo, com títulos bombásticos de artigos de jornal, não confirmados, ou até negados, pela própria notícia, que, os jornalistas sabem, poucos lerão)
No artigo Mankiw, não o afirmando explicitamente, sugere que os escores SAT de crianças dependem fortemente (fundamentalmente?) da transmissão biológica da inteligência:
Segundo Mankiw, “a correlação bruta de escores SAT de crianças e as remunerações dos seus familiares é o resultado da fusão dos verdadeiros efeitos do rendimento familiar e da transmissão biológica de talento” (the raw correlation of kids’ SAT scores and family income conflates the true effects of family income with the biological transmission of talent (to conflate, To bring things together and fuse them into a single entity; fusão no sentido de reunir e fundir numa única entidade?)
O aa. baseia esta conclusão em 3 premissas: 1. O talento inato (medido por, digamos, testes de QI) varia de pessoa para pessoa. People vary in their innate talents, as measured by, say, IQ tests. 2. As pessoas com mais talento (aptidões) tendem a ter rendimentos mais elevados. More talented people tend to earn higher incomes 3. As pessoas com mais talento tendem a ter filhos biológicos com mais talento, também - isto é, o talento é parcialmente hereditário. More talented people tend to have more talented biological children–that is, talent is partially heritable
Em minha opinião o aspecto fundamental da contestação de João Pinto e Castro, está contida na sua frase seguinte “mesmo que se acredite que a distribuição das pessoas pelas classes sociais se faz essencialmente com base no mérito, o mérito não se reduz - muito longe disso - à inteligência. Acresce ser extremamente duvidoso que a inteligência, no sentido vasto e vago em que aqui a expressão é utilizada, se transmita através dos genes.”
Entendi as restantes frases de João Pinto e Castro, como propositadamente exageradas, realçando portanto, as possíveis conclusões absurdas que o artigo poderia sugerir a leitores apressadas ou não iniciados (como eu próprio).
Numa réplica à réplica anterior de João Pinto e Castro, Luis Aguiar Conraria (LAC) afirma que “a relação positiva bastante forte entre rendimento e notas escolares é completamente espúria e resulta precisamente do problema apontado por Mankiw: omissão de variável relevante. Uma vez que se tenha em atenção a variável omitida (a tal inteligência dos pais) a relação entre rendimento e resultados escolares desaparece (linha vermelha)”.
Tirou esta conclusão após um exercício com a ajuda de computador, e do seu gerador de números aleatórios, e baseado em 3 hipóteses teóricas: 1) que a variação da inteligência entre várias pessoas apenas explica 10% da variação do rendimento 2) que apenas 30% da variação da inteligência da geração mais jovem é explicada pelo património genético dos pais; 3) que apenas 25% da variação das notas dos putos são explicadas pela sua inteligência;
AC não afirma explicitamente que a inteligência dos pais é a (a em vez de uma) variável relevante, mas tal parece estar implícito na 2ª frase anterior: “Uma vez que se tenha em atenção a variável omitida (a tal inteligência dos pais) a relação entre rendimento e resultados escolares desaparece (linha vermelha). Dos 25% e 30% anteriores, deduz-se que 7,5% (25%*30%) da variação das notas são explicadas pelo património genético dos pais. Embora 7,5% me pareça demasiado alto, está longe de poder ser a variável relevante.
Penso que LAC terá usado dos mesmos “exageros” de metodologia que criticou em João Pinto e Castro. Por exemplo, em vez das frases anteriores, eu teria preferido do género: a relação positiva, aparentemente bastante forte entre rendimento e notas escolares deixou de ser significativa (em vez de é completamente espúria) e (parece resultar (em vez de resulta) da omissão de (de ou da?) variável relevante. Uma vez que se tenha em atenção a variável omitida (a tal inteligência dos pais) a relação entre rendimento e resultados escolares deixa de ser significativa (em vez de desaparece)
A figura apresenta médias de notas de crianças, antes e após controlada a inteligência dos pais. Em minha opinião, tal não é uma forma correcta de apresentação dos resultados. Nem são apresentados intervalos de confiança, nem médias me parecem ser indicadores correctos de distribuições que penso ser enviesadas com cauda direita (As notas e os QI mais altos devem ser muito raros). Se as notas das crianças tivessem sido apresentados como uma núvem de pontos, penso que as diferenças deixariam de parecer tão relevantes)
Eu sou um leigo e sei que não devo meter-me em “discussões que (segundo LAC) devem ser e permanecer técnicas”. No entanto os artigos citados e o dele próprio, aparecem em blogs destinados ao grande público. Assim, os aa. não deverão então queixar-se que o grande público, leigo, a quem dirigiram os seus artigos, tire deles conclusões indevidas.
Óscar Mota
Comment by oscar mota — September 12, 2009 @ 4:59 pm
“No artigo Mankiw, não o afirmando explicitamente, sugere que os escores SAT de crianças dependem fortemente (fundamentalmente?) da transmissão biológica da inteligência”
O meu exemplo demonstra que isso não é verdade. O argumento do Mankiw pode ser válido sem que “escores SAT de crianças dependam fortemente da transmissão biológica da inteligência”. Se não conseguiu perceber isso então percebeu muito pouco do que escrevi.
“Em minha opinião o aspecto fundamental da contestação de João Pinto e Castro, está contida na sua frase seguinte “mesmo que se acredite que a distribuição das pessoas pelas classes sociais se faz essencialmente com base no mérito, o mérito não se reduz - muito longe disso - à inteligência. Acresce ser extremamente duvidoso que a inteligência, no sentido vasto e vago em que aqui a expressão é utilizada, se transmita através dos genes.””
E foi exactamente isso que fiz. Construí um exemplo que satisfaz tudo o que JPC diz e mesmo assim mostrei que o argumento de Mankiw pode ser válido.
“Embora 7,5% me pareça demasiado alto, está longe de poder ser a variável relevante.”
Está longe de poder ser, mas é. É a única variável relevante. O restante são factores aleatórios. Como expliquei, no exemplo que criei, as notas dependem da inteligência dos filhos e maioritariamente de factores aleatórios. A inteligência dos filhos, depende da inteligência dos pais e, maioritariamente, de factores aleatórios. E isto não está sujeito a discussão nem a opiniões: o exemplo fui eu que o criei e criei-o com base nestes pressupostos, não ha opinião que possa alterar estes factos.
“Penso que LAC terá usado dos mesmos “exageros” de metodologia que criticou em João Pinto e Castro. Por exemplo, em vez das frases anteriores, eu teria preferido do género: a relação positiva, aparentemente bastante forte entre rendimento e notas escolares deixou de ser significativa (em vez de é completamente espúria) e (parece resultar (em vez de resulta) da omissão de (de ou da?) variável relevante. Uma vez que se tenha em atenção a variável omitida (a tal inteligência dos pais) a relação entre rendimento e resultados escolares deixa de ser significativa (em vez de desaparece)”
Lamento, mas como o exemplo é artificial e os dados são gerados por mim, eu conheço a verdade destes dados. Assim as afirmações que faço são exactas, pelo que não preciso de as relativizar.
“A figura apresenta médias de notas de crianças, antes e após controlada a inteligência dos pais. Em minha opinião, tal não é uma forma correcta de apresentação dos resultados. Nem são apresentados intervalos de confiança, nem médias me parecem ser indicadores correctos de distribuições que penso ser enviesadas com cauda direita”
Pois, mas são estes os gráficos que estão em causa. Lamento, novamente. Quanto a isso não posso fazer nada. Sugiro-lhe que mande um email ao New York Times a explicar-lhes isso.
“Assim, os aa. não deverão então queixar-se que o grande público, leigo, a quem dirigiram os seus artigos, tire deles conclusões indevidas.”
Não me queixo, pelo contrário, procuro pedagogicamente esclarecer as suas dúvidas e explicar-lhe os seus erros.
Comment by LA-C — September 12, 2009 @ 5:51 pm
Um artigo/post sobre o assunto:
http://delong.typepad.com/sdj/2009/08/if-you-are-so-rich-why-arent-you-smart.html
Comment by Miguel Madeira — September 13, 2009 @ 2:06 am
“Pais inteligentes enriquecerão e transmitirão estes genes bons aos seus filhos” (Smart parents make more money and pass those good genes on to their offspring), é o argumento de Mankiew que, em minha opinião, é controverso. A frase não afirma explícitamente, mas sugere numa leitura apressada, que a capacidade de enriquecer depende de genes bons, é hereditária.
Comment by oscar mota — September 13, 2009 @ 8:56 am
Miguel, esse também é um bom texto. Brad DeLong argumenta, mais ou menos em linha com o que escrevo no último parágrafo do comentário 3. É também esse o meu feeling, mas também, como já disse, esse assunto não me interessa particularmente, apesar de reconhecer que é interessante, obviamente. Parece-me que DeLong se baseia em informação demasiado imprecisa e em cálculos aproximados, pelo que as conclusões interessantes a que chegou devem ser lidas com a dose certa de cepticismo.
Comment by LA-C — September 13, 2009 @ 9:53 am
Oscar, o próprio João Pinto e Castro, em comentário ao post linkado, escreveu: “Evidentemente que as capacidades intelectuais são parcialmente transmissíveis através dos genes. Qual é a dúvida? A palavra chave é “parcialmente”.”
Como demonstrei no exemplo, o ser parcialmente, e mais parcialmente do que eu fiz quase que não é possível, não invalida o argumento de Mankiw.
O que está em discussão é um problema técnico, estudado em estatística, e que se resume ao enviezamento produzido por omissão de variável relevante. Quem estiver por dentro disto, nem numa leitura apressada, comete os erros que o Oscar está a cometer. Quem quer fazer leituras ideológicas de assuntos técnicos, como JPC quer, arrisca-se a fazer o espalhafato que JPC fez.
Comment by LA-C — September 13, 2009 @ 4:22 pm
LA-C
Agradeço-lhe as suas respostas, franca e apaziguadora.
É óbvio e estou de acordo que Mankiw e LA-C discutiram o problema técnico interessante de enviezamento produzido por omissão de variável/eis relevante/s; não foi, no entanto, este assunto que pretendi discutir, nem o poderia fazer, por falta de preparação. Também acho e parece-me “Evidente que as capacidades intelectuais são parcialmente transmissíveis através dos genes” e que as pessoas inteligentes têm mais possibilidades de acumular riqueza. Mas nada no estudo referido permite afirmar qual seja a variável relevante para acumulação de riqueza.
“The key omitted variable here is parents’ IQ. Smart parents make more money and pass those good genes on to their offspring”, são afirmações controversas, que Mankiw não fundamentou e que, portanto, eu considero um pressuposto, que tem subjacente uma ideologia, a do próprio aa. Penso que, se tivesse sido mais cuidadoso, teria evitado o problema de se “fazerem leituras ideológicas de assuntos técnicos”
Comment by oscar mota — September 13, 2009 @ 6:25 pm
Caro Professor,
Nao irei debater o assunto.
Mas aproveito para lhe dizer que gostei desta sua publicação. Aqui na Carlos III debateu-se isso numa aula de Economia de la Educacion. Por mero acaso encontrei este seu texto.
Um abraço
Comment by José Pedro Cadima — September 17, 2009 @ 1:58 am