domingo, 26 de outubro de 2014

Sobre a Eleição

Bom, ela finalmente acabou. Dilma com quase 52 e Aécio com pouco mais de 48%. Este resultado foi bem próximo do que a pesquisa Ibope divulgou ontem.

Neste turno os institutos de pesquisa não erraram tanto (pelo menos com relação a disputa para presidente).

Aliás, neste assunto, após uma entrevista da diretora do Ibope à Miriam Leitão, ficou claro que a margem de erro listada é na realidade de mentirinha. E isso meio que atrapalha todo aquele belo raciocínio matemático que listei no último post - afinal tudo aquilo foi feito considerando pesquisa probabilística, que não é o caso nem da pesquisa do Ibope, nem do Datafolha.

Mas o post de hoje é mais para colocar alguns pontos sobre o pós-eleição: já tive tanto do lado vitorioso, quanto do lado perdedor (que é o caso aqui). E o importante é entender que um resultado de eleição não pode definir quem você é.

Esse só será o caso se você deixar. Há horas que se ganha, há horas que se perde. Mas o importante é continuar, mesmo ganhando ou perdendo. Sei que há um investimento emocional ao se "adotar um candidato" e também sei que há um custo intrínseco quando as coisas não saem do jeito que a gente quer. Mas a gravidade disto está nas mãos de cada um.

Naturalmente, nem tudo são flores. Nesta eleição tivemos discurso de ódio vindo de apoiadores dos dois candidatos. Da minha parte, decidi que quem espalha discurso de ódio não merece minha atenção - seja torcedor (essa sim uma palavra correta) de Dilma ou de Aécio.

Então, um dos saldos dessa eleição foi que deixei de seguir algumas pessoas no facebook. Discurso de ódio não ajuda e sarcarsmo também não ajuda muito.

Agora que saíu o resultado só posso fazer uma coisa: parabenizar os vitoriosos! Não irei parar de trabalhar, nem deixarei de seguir com minhas tarefas.

E claro, vou torcer loucamente para que as minhas análises sobre mais quatro anos de PT estejam fundamentalmente erradas. Caso isso se verifique então ficarei bastante feliz... mas...caso as análises tenham realmente fundamento, bem... vamos todos ter que aguentar de um jeito ou de outro não?

terça-feira, 21 de outubro de 2014

Sobre resultados

Conforme eu esperava, a diferença apontada no último post é bastante significativa quando olhada em cada uma das capitais.
Na cidade de São Paulo
  • Dilma teve votação 6 pontos abaixo do esperado
  • Marina teve votação 7 pontos abaixo do esperado 
  • Aécio teve votação 13 pontos acima do esperado
Na cidade do Rio de Janeiro
  • Dilma teve votação 9 pontos abaixo do esperado
  • Marina teve a votação esperada 
  • Aécio teve votação 9 pontos acima do esperado
Na cidade de Belo Horizonte
  • Dilma teve votação 9 pontos abaixo do esperado
  • Marina teve votação 1 ponto acima do esperado 
  • Aécio teve votação 8 pontos acima do esperado
Na cidade de Fortaleza
  • Dilma teve votação 6 pontos abaixo do esperado
  • Marina teve votação esperada 
  • Aécio teve votação 7 pontos acima do esperado
Na cidade de Curitiba
  • Dilma teve votação 9 pontos abaixo do esperado
  • Marina teve votação 3 pontos abaixo do esperado 
  • Aécio teve votação 12 pontos acima do esperado
Na cidade de Porto Alegre
  • Dilma teve votação 9 pontos abaixo do esperado
  • Marina teve votação 3 pontos abaixo do esperado 
  • Aécio teve votação 11 pontos acima do esperado
Na cidade de Recife
  • Dilma teve votação 9 pontos abaixo do esperado
  • Marina teve votação 6 pontos acima do esperado 
  • Aécio teve votação 3 pontos acima do esperado
O que isso quer dizer? Bem, um erro de 13 pontos é muito sério e não dá para ser atribuído a incerteza intrínseca a metodologia de pesquisa. Mesmo o erro de 9 pontos não pode ser atribuído a incerteza da metodologia.

O que aconteceu? Eu não sei dizer, mas eu tenho um modelo que possivelmente pode explicar parte do problema.

Considere duas urnas. Uma com X bolinhas e outra com Y bolinhas. A proporção de bolinhas brancas na urna X é p1 e na urna Y é p2.

Se fosse uma urna só e tirássemos N bolinhas, a variância do erro (máxima) é de 1/(4*N). Mas como temos duas urnas, a coisa complica...

Então, no caso de uma urna temos que, dado a média das amostras Ma e a média real M:
E{(Ma-M)^2} menor ou igual 1/(4*N)

No caso, M é calculado usando:
w1=X/1(X+Y) e w2=Y/(X+Y)

Logo:
M=w1*p1+w2*p2

Mas, como temos duas urnas temos que considerar quantas bolinhas tem em cada uma (a proporção).  No final das contas, a variância do erro neste caso é:

w1^2*E{(M1a-p1)^2}+w2^2*E{(M2a-p2)^2}+2*w1*w2*E{(M1a-p1)*(M2a-p2)}

Aonde M1a é a média amostral da urna 1 e M2a é a média amostral, e E{(M1a-p1)*(M2a-p2)} é a correlação entre a urna 1 e a urna 2.

Bem, para simplificar vamos assumir que não há correlação (pode ou não ser verdade, mas vamos simplificar). Neste caso, o valor máximo de cada erro é:
E{(M1a-p1)^2} menor ou igual a 1/(4*N1) - aonde N1 é o número de bolas amostradas da urna 1
E{(M2a-p2)^2} menor ou igual a - aonde N2 é o número de bolas amostradas da urna 2

Então temos, se não houver correlação, que a variância do erro é limitada por:

erro menor ou igual a w1^2/(4*N1)+w2^2/(4*N2)

Bem, sabemos que w1+w2=1. Então qual será o valor para que este seja máximo (ou mínimo)? w1=N1/(N1+N2) e w2=N2/(N1+N2)

Neste caso teremos:
erro menor ou igual a (N1/(N1+N2))^2*/(4*N1)+(N2/(N1+N2))^2/(4*N2)=1/(4*(N1+N2));

Isto quer dizer: se amostramos na proporção da população teremos que o erro será limitado pelo valor que obteríamos se fosse apenas uma urna. Exemplo:

w1=0.25, w2=0.75, N1=250 e N2=750

Pela fórmula:
erro menor ou igual a 1/(4*(250+750) = 1/4000=0.00025

Note que se  w1=0.75, w2=0.25, N1=250 e N2=750,então:

erro menor ou igual a 0.75^2/(4*250)+0.25^2/(4*750) = 0.00058

O que dá mais do que o dobro da variância de erro obtida. Naturalmente este é um exemplo extremo, mas indica que se a amostragem proporcional estiver com os pesos errados, então a coisa não vai funcionar direito.

Mas e quanto a correlação? Esta pode ser positiva ou negativa, mas sempre será limitada pelo produto dos desvios padrões.

E{(M1a-p1)*(M2a-p2)}^2 menor ou igual a E{(M1a-p1)^2}*E{(M2a-p2)^2}

Portanto:

E{(M1a-p1)*(M2a-p2)}^2 menor ou igual a 1/(16*N1*N2), ou de outra forma:

-1/(4*raiz(N1*N2)) menor ou igual a E{(M1a-p1)*(M2a-p2)} menor ou igual a 1/(4*raiz(N1*N2))

Ou seja, existe um termo extra (e não contabilizado) caso haja correlação:

w1^2/(4*N1)+w2^2/(4*N2)-w1*w2/(4*raiz(N1*N2)) menor ou igual a erro menor ou igual a w1^2/(4*N1)+w2^2/(4*N2)+w1*w2/(4*raiz(N1*N2))

Neste caso o peso para erro mínimo passa a ser diferente:

w1=N1*(sqrt(N1*N2)-N2)/(N2*sqrt(N1*N2)+N1*sqrt(N1*N2)-2*N1*N2)

Que é diferente do anterior....

Então talvez também haja uma questão de correlação, pois considerando a mesma o erro salta de 0.0025 para 0.00046. Já com o erro também na proporção o salto é maior: 0.0008!

segunda-feira, 6 de outubro de 2014

Eleições a hora da verdade

Semana passada eu postei:
"Dilma - entre 34% e 42%
Marina - entre 21% e 30%
Aécio - entre 16% e 21%"

Se considerarmos votos válidos teremos:
"Dilma - entre 37% e 42%
Marina - entre 23% e 35%
Aécio - entre 18% e 25%"

E o resultado do pleito? Pois bem, no final das contas o resultado foi:
Dilma - 41.59%
Marina - 21.32%
Aécio - 33.55%

Tanto Dilma quanto Marina foram dentro ou próximos das margens que foram estabelecidas no post. Mas o que deu errado na predição? Foi Aécio!

O erro foi maior que 8.6% - se considerarmos a média esperada temos 12%. Isto é MUITO superior ao que é estatisticamente aceitável.

Eu vou estudar para ver o que deu errado - minha hipótese é que o erro é consistente: deve ter se repetido nos estados aonde a diferença para governador também saiu fora da margem: Rio Grande do Sul, São Paulo, Rio de Janeiro e Bahia

Eu irei estudar isso em detalhe.

Mas antes uma notícia relevante: o governador do DF perdeu a chance de se reeleger.  Ele ficou em terceiro lugar.

A pérola é a seguinte: ele só ficaria em segundo lugar (aonde teria chances de disputar a reeleição) em três zonas eleitorais: Zona 001, Zona 011 e Zona 014.

Suas piores votações foram: Zona 002, Zona 007 e Zona 0013

Adivinhem em quais zonas eleitorais vive a "elite branca do país"?