Conforme eu esperava, a diferença apontada no último post é bastante significativa quando olhada em cada uma das capitais.
Na cidade de São Paulo
- Dilma teve votação 6 pontos abaixo do esperado
- Marina teve votação 7 pontos abaixo do esperado
- Aécio teve votação 13 pontos acima do esperado
Na cidade do Rio de Janeiro
- Dilma teve votação 9 pontos abaixo do esperado
- Marina teve a votação esperada
- Aécio teve votação 9 pontos acima do esperado
Na cidade de Belo Horizonte
- Dilma teve votação 9 pontos abaixo do esperado
- Marina teve votação 1 ponto acima do esperado
- Aécio teve votação 8 pontos acima do esperado
Na cidade de Fortaleza
- Dilma teve votação 6 pontos abaixo do esperado
- Marina teve votação esperada
- Aécio teve votação 7 pontos acima do esperado
Na cidade de Curitiba
- Dilma teve votação 9 pontos abaixo do esperado
- Marina teve votação 3 pontos abaixo do esperado
- Aécio teve votação 12 pontos acima do esperado
Na cidade de Porto Alegre
- Dilma teve votação 9 pontos abaixo do esperado
- Marina teve votação 3 pontos abaixo do esperado
- Aécio teve votação 11 pontos acima do esperado
Na cidade de Recife
- Dilma teve votação 9 pontos abaixo do esperado
- Marina teve votação 6 pontos acima do esperado
- Aécio teve votação 3 pontos acima do esperado
O que isso quer dizer? Bem, um erro de 13 pontos é muito sério e não dá para ser atribuído a incerteza intrínseca a metodologia de pesquisa. Mesmo o erro de 9 pontos não pode ser atribuído a incerteza da metodologia.
O que aconteceu? Eu não sei dizer, mas eu tenho um modelo que possivelmente pode explicar parte do problema.
Considere duas urnas. Uma com X bolinhas e outra com Y bolinhas. A proporção de bolinhas brancas na urna X é p1 e na urna Y é p2.
Se fosse uma urna só e tirássemos N bolinhas, a variância do erro (máxima) é de 1/(4*N). Mas como temos duas urnas, a coisa complica...
Então, no caso de uma urna temos que, dado a média das amostras Ma e a média real M:
E{(Ma-M)^2} menor ou igual 1/(4*N)
No caso, M é calculado usando:
w1=X/1(X+Y) e w2=Y/(X+Y)
Logo:
M=w1*p1+w2*p2
Mas, como temos duas urnas temos que considerar quantas bolinhas tem em cada uma (a proporção). No final das contas, a variância do erro neste caso é:
w1^2*E{(M1a-p1)^2}+w2^2*E{(M2a-p2)^2}+2*w1*w2*E{(M1a-p1)*(M2a-p2)}
Aonde M1a é a média amostral da urna 1 e M2a é a média amostral, e E{(M1a-p1)*(M2a-p2)} é a correlação entre a urna 1 e a urna 2.
Bem, para simplificar vamos assumir que não há correlação (pode ou não ser verdade, mas vamos simplificar). Neste caso, o valor máximo de cada erro é:
E{(M1a-p1)^2} menor ou igual a 1/(4*N1) - aonde N1 é o número de bolas amostradas da urna 1
E{(M2a-p2)^2} menor ou igual a - aonde N2 é o número de bolas amostradas da urna 2
Então temos, se não houver correlação, que a variância do erro é limitada por:
erro menor ou igual a w1^2/(4*N1)+w2^2/(4*N2)
Bem, sabemos que w1+w2=1. Então qual será o valor para que este seja máximo (ou mínimo)? w1=N1/(N1+N2) e w2=N2/(N1+N2)
Neste caso teremos:
erro menor ou igual a (N1/(N1+N2))^2*/(4*N1)+(N2/(N1+N2))^2/(4*N2)=1/(4*(N1+N2));
Isto quer dizer: se amostramos na proporção da população teremos que o erro será limitado pelo valor que obteríamos se fosse apenas uma urna. Exemplo:
w1=0.25, w2=0.75, N1=250 e N2=750
Pela fórmula:
erro menor ou igual a 1/(4*(250+750) = 1/4000=0.00025
Note que se w1=0.75, w2=0.25, N1=250 e N2=750,então:
erro menor ou igual a 0.75^2/(4*250)+0.25^2/(4*750) = 0.00058
O que dá mais do que o dobro da variância de erro obtida. Naturalmente este é um exemplo extremo, mas indica que se a amostragem proporcional estiver com os pesos errados, então a coisa não vai funcionar direito.
Mas e quanto a correlação? Esta pode ser positiva ou negativa, mas sempre será limitada pelo produto dos desvios padrões.
E{(M1a-p1)*(M2a-p2)}^2 menor ou igual a E{(M1a-p1)^2}*E{(M2a-p2)^2}
Portanto:
E{(M1a-p1)*(M2a-p2)}^2 menor ou igual a 1/(16*N1*N2), ou de outra forma:
-1/(4*raiz(N1*N2)) menor ou igual a E{(M1a-p1)*(M2a-p2)} menor ou igual a 1/(4*raiz(N1*N2))
Ou seja, existe um termo extra (e não contabilizado) caso haja correlação:
w1^2/(4*N1)+w2^2/(4*N2)-w1*w2/(4*raiz(N1*N2)) menor ou igual a erro menor ou igual a w1^2/(4*N1)+w2^2/(4*N2)+w1*w2/(4*raiz(N1*N2))
Neste caso o peso para erro mínimo passa a ser diferente:
w1=N1*(sqrt(N1*N2)-N2)/(N2*sqrt(N1*N2)+N1*sqrt(N1*N2)-2*N1*N2)
Que é diferente do anterior....
Então talvez também haja uma questão de correlação, pois considerando a mesma o erro salta de 0.0025 para 0.00046. Já com o erro também na proporção o salto é maior: 0.0008!