domingo, 31 de outubro de 2010

Pesquisas e Equívocos 13

Agnelo é o governador do DF. E desta vez a pesquisa Datafolha acertou direitinho:

  • Votos totais de Agnelo - 59.4%, votos totais da pesquisa Datafolha: 57%
  • Votos totais de Weslian - 30.2%, votos totais da pesquisa Datafolha: 31%

O mesmo pode ser observado com relação aos votos válidos:

  • Votos válidos de Agnelo - 66.2%, votos totais da pesquisa Datafolha: 64%
  • Votos válidos de Weslian - 33.9%, votos totais da pesquisa Datafolha: 36%

Ainda resta ver se as cidades sigma funcionaram como preditores, mas isto pode ser feito ao final da apuração.

sexta-feira, 29 de outubro de 2010

Mais alguns dias e voltarei a postar

Estou bem atarefado por uns tempos. Mas com a chegada do final de semana da eleição acredito que terei novamente tempo para postar.

Em tempo, estou curioso a respeito de dois problemas: a convergência de um processo estocástico - como as eleições - e a questão de proporções de moedas em dois sacos diferentes.

Espero poder fazer um estudo interessante a este respeito

segunda-feira, 25 de outubro de 2010

quarta-feira, 20 de outubro de 2010

A questão da variável aleatória na Transformada da Incerteza - parte 2

Depois de pensar sobre quais variáveis, decidi por duas: IDH e população. Eu sei que é uma escolha arbitrária, mas fazia um certo sentido.

Então ao invés de um problema com uma variável aleatória, eu passava a ter duas.

Utilizando os dados do PNUD consegui compilar uma lista de municípios de Goiás com dados de população e IDH. Tudo de 2000, mas esta é uma questão menor.

Então apliquei a teoria da transformada da incerteza. As cidades que eu selecionei foram:


  • Aloândia
  • Goainópolis
  • Caldas Novas
  • Aguás Lindas de Goiás
  • Anápolis
  • Goiânia

Os pesos foram, respectivamente:
  •     0.2757
  •     0.0345
  •     0.1505
  •     0.1854
  •     0.1346
  •     0.2193
Com isto, temos as informações necessárias para o cálculo da estimativa de presidente e governador. Após o qual, podemos comparar com os resultados reais.
Para presidente tivemos:
  • Dilma - Cidades Sigma:  43.0%, resultado final de votação 42.23%
  • Serra - Cidades Sigma:  39.5%, resultado final de votação 39.48%
  • Marina - Cidades Sigma:  16.3%, resultado final de votação 17.18%
Animado por estes resultados, resolvi fazer para governador:
  • Íris Rezende - Cidades Sigma:  39.3%, resultado final de votação 36.38%
  • Marcone Perillo - Cidades Sigma:  46.9%, resultado final de votação 46.33% 
  • Vanderson - Cidades Sigma:  13.2%, resultado final de votação 16.62%
Os resultados são muito próximos. Temos de lembrar que só fizemos o cálculo da votação para seis cidades.

terça-feira, 19 de outubro de 2010

Mais diferenças entre resultados em votos e pesquisas

Então resolvi fazer a mesma análise para a votação de governadores nas capitais. E o que obtive foi:

  • Bahia (Salvador) - Wagner - eleição 54% e pesquisa 50%, Souto - eleição 13% e pesquisa 17%, Geddel - eleição 9% e pesquisa 13%
  • Minas Gerais (Belo Horizonte) - Anastasia - eleição 62% e pesquisa 54%, Costa - eleição 20% e pesquisa 29%, Aparecido - eleição 4% e pesquisa 1%
  • Pernambuco (Recife) - Campos - eleição 64% e pesquisa 66%, Jarbas - eleição 18% e pesquisa 21%, Xavier - eleição 3% e pesquisa 2%
  • Rio de Janeiro (Rio de Janeiro) - Cabral - eleição 52% e pesquisa 58%, Gabeira - eleição 22% e pesquisa 21%, Peregrino - eleição 5% e pesquisa 5%
  • Rio Grande do Sul (Porto Alegre) - Tarso - eleição 47% e pesquisa 46%, Fogaça - eleição 24% e pesquisa 27%, Yeda - eleição 16% e pesquisa 10%
  • São Paulo (São Paulo) - Alckmin - eleição 44% e pesquisa 45%, Mercadante - eleição 32% e pesquisa 28%, Russomano - eleição 6% e pesquisa 10%

Já no resultado estadual completo temos:

  • Bahia - Wagner - eleição 55% e pesquisa 52%, Souto - eleição 14% e pesquisa 19%, Geddel - eleição 13% e pesquisa 14%
  • Minas Gerais - Anastasia - eleição 53% e pesquisa 47%, Costa - eleição 29% e pesquisa 36%, Aparecido - eleição 2% e pesquisa 1%
  • Pernambuco - Campos - eleição 68% e pesquisa 70%, Jarbas - eleição 12% e pesquisa 17%, Xavier - eleição 2% e pesquisa 1%
  • Rio de Janeiro - Cabral - eleição 55% e pesquisa 59%, Gabeira - eleição 17% e pesquisa 19%, Peregrino - eleição 9% e pesquisa 6%
  • Rio Grande do Sul - Tarso - eleição 49% e pesquisa 48%, Fogaça - eleição 23% e pesquisa 24%, Yeda - eleição 17% e pesquisa 14%
  • São Paulo (São Paulo) - Alckmin - eleição 46% e pesquisa 50%, Mercadante - eleição 32% e pesquisa 26%, Russomano - eleição 5% e pesquisa 9%

E por fim, o resultado em votos válidos da eleição e da pesquisa:

  • Bahia - Wagner - eleição 64% e pesquisa 58%, Souto - eleição 16% e pesquisa 21%, Geddel - eleição 15% e pesquisa 16%
  • Minas Gerais - Anastasia - eleição 63% e pesquisa 55%, Costa - eleição 34% e pesquisa 42%, Aparecido - eleição 2% e pesquisa 1%
  • Pernambuco - Campos - eleição 83% e pesquisa 79%, Jarbas - eleição 14% e pesquisa 19%, Xavier - eleição 2% e pesquisa 1%
  • Rio de Janeiro - Cabral - eleição 66% e pesquisa 67%, Gabeira - eleição 21% e pesquisa 21%, Peregrino - eleição 10% e pesquisa 7%
  • Rio Grande do Sul - Tarso - eleição 54% e pesquisa 55%, Fogaça - eleição 25% e pesquisa 27%, Yeda - eleição 18% e pesquisa 16%
  • São Paulo (São Paulo) - Alckmin - eleição 51% e pesquisa 55%, Mercadante - eleição 35% e pesquisa 28%, Russomano - eleição 5% e pesquisa 9%

Como é possível se verificar, há erros de 4% e até maiores (9%) surgindo na comparação entre pesquisas e resultados. O erro fica pior quando se tenta estimar o número de votos válidos.

Então podemos ver que é uma tendência nestes resultados de pesquisa apresentarem margens de erro bem superiores ao esperado. No caso do resultado nas capitais, o desvio padrão foi de 4.36% e no caso do resultado nos estados, o desvio padrão foi 3.86%

segunda-feira, 18 de outubro de 2010

Algo estranho nas pesquisas e resultados eleitorais

Depois da diferença de mais de 2% no Rio para Cabral, e dada a diferença razoável no resultado final de Dilma e das pesquisas resolvi dar uma olhada nas predições e resultados.

E qual foi a surpresa? A diferença está presente em diversos locais:

  • Bahia - Dilma - Resultado 56% e Pesquisa 57%
  • Ceará - Dilma - Resultado 59% e Pesquisa 64%
  • DF - Marina - Resultado 39% e Pesquisa 34%
  • Minas Gerais - Dilma - Resultado 43% e Pesquisa 47%
  • Paraná - Serra - Resultado 41% e Pesquisa 38%
  • Pernambuco - Dilma - Resultado 55% e Pesquisa 62%
  • Rio de Janeiro - Dilma - Resultado 39% e Pesquisa 44%
  • Rio Grande do Sul - Dilma - Resultado 44% e Pesquisa 44%
  • São Paulo - Dilma - Resultado 35% e Pesquisa 38%

Então dá para ver que os resultados do Ceará (5%), DF (5%), Minas Gerais (4%), Paraná (3%), Pernambuco (7%), Rio de Janeiro (5%) e São Paulo (3%) divergiram além da margem de erro de 2%.

Acho que é o caso de olhar os resultados dos governadores também - com ênfase nestes estados

Precisão das Pesquisas

Realizei o teste para cidade do Rio de Janeiro.

Aos curiosos, as cidades são estas (em ordem de tamanho)


  • RJ CARAPEBUS

  • RJ SAPUCAIA

  • RJ CORDEIRO

  • RJ MIGUEL PEREIRA

  • RJ ITATIAIA

  • RJ ARRAIAL DO CABO

  • RJ CASIMIRO DE ABREU

  • RJ MANGARATIBA

  • RJ BOM JESUS DO ITABAPOANA

  • RJ SAO JOAO DA BARRA

  • RJ GUAPIMIRIM

  • RJ RIO BONITO

  • RJ VALENCA

  • RJ ITAPERUNA

  • RJ ARARUAMA

  • RJ ANGRA DOS REIS

  • RJ TERESOPOLIS

  • RJ CABO FRIO

  • RJ MESQUITA

  • RJ NILOPOLIS

  • RJ BARRA MANSA

  • RJ NOVA FRIBURGO

  • RJ ITABORAI

  • RJ MAGE

  • RJ VOLTA REDONDA

  • RJ PETROPOLIS

  • RJ BELFORD ROXO

  • RJ CAMPOS DOS GOYTACAZES

  • RJ SAO JOAO DE MERITI

  • RJ NITEROI

  • RJ NOVA IGUACU

  • RJ DUQUE DE CAXIAS

  • RJ SAO GONCALO

  • RJ RIO DE JANEIRO


O resultado publicado pelo TSE foi:

  • Cabral com 54.51%, Gabeira com 17.06% e Peregrino com 8.91% (votos totais)

O resultado que calculei com as 34 cidades foi:

  • Cabral com 53.75%, Gabeira com 18.47% e Peregrino com 7.89% (votos totais)

A maior diferença é de 1.4%.

A pesquisa que foi publicada os resultado indicava Cabral com 59%, Gabeira com 19% e Peregrino com 6%.  Note que apesar do resultado nas pesquisas para Gabeira e Peregrino ter sido muito próximo do real, considerando os resultados que calculei para os municípios da pesquisa, há uma discrepância razoável entre o percentual de votos obtido por Cabral tanto nas cidade quanto no cômputo total.

Isto significa duas coisas: o erro de amostragem por limitar o número de cidades existe e uma indicação que o erro parece se restringir à Cabral. Ao olharmos a cidade do Rio de Janeiro, a votação foi de 52.36% para Cabral, 22.19% para Gabeira e 5.33% para Peregrino. Já a pesquisa indicou 58% para Cabral, 21% para Gabeira e 5% para Peregrino.

Mas ao mesmo tempo, parece que a questão está ligada às regiões mais densamente povoadas (como a Capital). Isto pode ser verificado pois a média dos percentuais é 56.64%

Seja o que for, fica uma certeza e uma dúvida:
  • A amostragem do estado por cidades introduz um erro que chegou a 1.4%
  • Há um viés estranho acerca do resultado de Cabral

Forma de verificar precisão das pesquisas

Depois de encontrar os pontos sigma para o caso de pesquisas eleitorais, pensei um pouco em uma forma de determinar a precisão das pesquisas que vemos por aqui.

Bem, eu achei...

O problema é que não tenho acesso aos dados completos.

A idéia é verificar, para as cidades escolhidas em uma pesquisa, como foi o desempenho das mesmas na eleição. E a partir daí comparar o desempenho da pesquisa eleitoral com a cidade.

Há um problema: esta comparação só pode ser realizada com pesquisas bem próximas a data de eleição.

Eu tenho muita curiosidade em descobrir quais foram as cidades escolhidas na pesquisa e quantas pessoas foram entrevistadas em cada cidade. No caso da pesquisa Datafolha, as cidades pesquisadas são mostradas aqui.

Mas a parte chata é que são muitos municípios (por exemplo: na Bahia são 49). Na pesquisa Datafolha, aos estados estudados são Bahia (49), Pernambuco (43), Minas Gerais (90), Rio de Janeiro (34), Rio Grande do Sul (58), São Paulo (66) e Distrito Federal.

No caso do DF não dá para fazer o teste devido a questão das zonas eleitorais. A meu ver restam como opções Rio de Janeiro e Pernambuco.

Vou fazer o teste e publico em outro post

sexta-feira, 15 de outubro de 2010

Uma curiosidade a respeito do DF

Segundo a última pesquisa DATAFOLHA, temos um quadro interessante na nossa mão:
Para Agnelo:

  • 95% das pessoas que votaram em Agnelo no primeiro turno, votam em Agnelo no segundo turno
  • 5% das pessoas que votaram em Roriz no primeiro turno, votam em Agnelo no segundo turno
  • 45% das pessoas que votaram em Toninho no primeiro turno, votam em Agnelo no segundo turno
  • 16% das pessoas que votaram em Branco no primeiro turno, votam em Agnelo no segundo turno

Para Roriz:

  • 3% das pessoas que votaram em Agnelo no primeiro turno, votam em Roriz no segundo turno
  • 90% das pessoas que votaram em Roriz no primeiro turno, votam em Roriz no segundo turno
  • 19% das pessoas que votaram em Toninho no primeiro turno, votam em Roriz no segundo turno
  • 12% das pessoas que votaram em Branco no primeiro turno, votam em Roriz no segundo turno
Em Branco/Nulo:

  • 0% das pessoas que votaram em Agnelo no primeiro turno, votam em Branco no segundo turno
  • 1% das pessoas que votaram em Roriz no primeiro turno, votam em Branco no segundo turno
  • 24% das pessoas que votaram em Toninho no primeiro turno, votam em Branco no segundo turno
  • 54% das pessoas que votaram em Branco no primeiro turno, votam em Branco no segundo turno
O que isto quer dizer?

Em termos reais, Agnelo teve 43.62% dos votos, Roriz teve 28.38% dos votos, Toninho teve 12.84% dos votos e Brancos teve 9.89% dos votos

Isto quer dizer que o percentual esperado de votos no segundo turno é:

  • Agnelo: 43.62*0.95+28.38*0.05+12.84*0.45+9.89*0.16 = 50.22%
  • Roriz: 43.62*0.03+28.38*0.90+12.84*0.19+9.89*0.12 = 30.48%
  • Brancos: 43.62*0.0+28.38*0.01+12.84*0.24+9.89*0.54 = 8.71%
Se contarmos isto dá 89.40% do total - isto quer dizer que há ainda 10.6% não considerados (que podem ir para qualquer lado).

A questão da variável aleatória na Transformada da Incerteza

Como mencionei antes na aplicação da transformada da incerteza para definir cidades e zonas sigma, o problema que não consegui equacionar é a escolha da variável aleatória.

No fundo a questão é: o que define uma tendência na escolha do candidato?

No caso da escolha pelo número da zona isto foi puramente simplicidade. Mas este tipo de simplicidade acaba virando super-simplificação.

A escolha da variável aleatória pela população faz mais sentido, mas só a população não é razão suficiente para definir qual o candidato de preferência. Na realidade, pode ser que até aumente o erro.

Uma possibilidade é o IDH ou renda da região. Uma escolha destas talvez fosse mais significativa do ponto de vista da escolha.

A questão dos pesos é facilmente resolvida: eles são exatamente o percentual de eleitores em relação ao eleitorado total.

Já a questão da escolha da variável aleatória é algo bem mais complexo. Talvez seja o caso de partir de algo menos complicado como a própria definição em uma pesquisa. Assim, algo como perfil de renda ou coisa similar.

Esta é uma questão que precisa ser equacionada

quinta-feira, 14 de outubro de 2010

Algumas mentiras sobre a privatização da telefonia no Brasil

Devo lembrar ainda o problema do anacronismo. Em poucas palavras neste caso é olhar o passado com os olhos de hoje.

Isto é uma falácia lógica primariamente pelo problema da cronologia: a análise feita hoje se beneficia do desenlace do processo. Isto é bem diferente da tomada de decisão enquanto o processo ocorre.

Este tipo de falácia é muito comum. Um exemplo: há os que acreditam que o processo de privatização estava fadado ao sucesso devido a venda ter sido a preço de banana. Ah, mas foi a preço de banana? 18 meses depois e a Telebrás não valeria metade do seu valor de venda (o que aconteceu 18 meses depois? Eu não vou falar, afinal como se pode ser profeta do passado se nem o passado se conhece direito?).

Outra falácia lógica é da evolução tecnológica. Essa é particularmente divertida pois assume uma direcionalidade que na realidade não aconteceu de modo algum. Um exemplo? Em 2001, a tecnologia TDMA ficou em um beco sem saída. Com a decisão da At&T wireless de não prosseguir o caminho evolutivo do TDMA para o 3G, então isto praticamente encerrou o caminho evolutivo do TDMA.

Portanto, nada mais de evolução para 3G a partir do TDMA. Opa, e as operadoras que apostaram no TDMA?

Ora, tiveram que se virar. E torrar uma grana preta para arranjar um caminho evolutivo (que acabou sendo o GSM).

Nada linear como pode ser visto.

Agora vamos fazer o exercício teórico de imaginar que ao invés de operadoras privadas, tivéssemos ainda um sistema estatal.

E aí? Quem é que iria pagar a conta, levar a culpa e ser crucificado em praça pública pela decisão de torrar BILHÕES em um sistema como o TDMA na telefonia celular brasileira.

Ou seja, fácil fazer conjecturas quando se sabe o desenlace e não se sabe todos os percalços que levaram a este desenlace.

Pesquisas e Equívocos 12

A transformada da incerteza pode ser estendida para tratarmos de zonas eleitorais. Aí ao invés de utilizar os dados de todas as zonas eleitorais, poderíamos utilizar "zonas sigma".

Resolvi fazer o teste para o caso de Brasília. Aqui temos 21 zonas com número variado de eleitores. Como peso utilizei o percentual de eleitores comparado ao total. Já como variável aleatória eu tive duas escolhas: na primeira utilizei o número da zona (bastante arbitrário, eu reconheço). Já na segunda eu utilizei o número de eleitores.

Então vamos aos resultados.

No caso de número de eleitores, eu fiz a análise de determinação das zonas importantes com 4 zonas, 5 zonas e 6 zonas. Verifiquei os pesos considerando também os pontos sigma originais.
  • No caso de 4 pontos, as zonas escolhidas foram 7, 16, 13 e 9 (pesos: 0.0431, 0.1786, 0.5164, 0.2619)
  • No caso de 5 pontos, as zonas escolhidas foram 7, 12, 21, 5 e 4 (pesos: 0.0260, 0.1737, 0.4340, 0.2000, 0.1663)
  • No caso de 6 pontos, as zonas escolhidas foram 7, 11, 16, 13, 14 e 4 (pesos: 0.0251, 0.0562, 0.2917, 0.2740, 0.2169, 0.1361)
Os resultados para presidente foram os seguintes:
  • Computo completo:  Marina 41.96%, Serra 24.30%, Dilma 31.74%
  • 4 zonas:  Marina 43.20%, Serra 25.28%, Dilma 29.62%
  • 5 zonas:  Marina 42.32%, Serra 24.82%, Dilma 30.96%
  • 6 zonas:  Marina 43.21%, Serra 24.34%, Dilma 31.72%
Portanto, é possível verificar que o uso das zonas sigma realmente fornece resultados compatíveis com o cômputo completo. Para Brasília, este tipo de informação pode ser bastante útil na definição de pesquisas de boca-de-urna ou mesmo de pesquisas de candidatos.

Uma coisa que está faltando é verificar se este desempenho funciona para o caso da disputa para governador. Como creio que isto é interessante, vou ver o que acontece com 4 pontos.
  • Computo completo: Agnelo 48.41%, Roriz 31.50%, Toninho 14.25%
  • Resultados da 7a zona: Agnelo 56.46%, Roriz 30.39%, Toninho 8.68%
  • Resultados da 9a zona: Agnelo 50.08%, Roriz 26.46%, Toninho 17.23%
  • Resultados da 13a zona: Agnelo 50.51%, Roriz 35.42%, Toninho 9.69%
  • Resultados da 16a zona: Agnelo 50.61%, Roriz 33.00%, Toninho 11.59%
  • Desempenho com zonas sigma: Agnelo 50.67%, Roriz 32.42%, Toninho 11.96%
Nada mal mesmo.

terça-feira, 12 de outubro de 2010

Pesquisas e Equívocos 11

Acho que alguns devem se lembrar de um dos posts em que apliquei a transformada da incerteza para encontrar as cidades sigma em Roraima.

Bem, eu fiz aquilo para a eleição de 2006. E refiz agora para eleição de 2010. E adivinhem:
Chegamos aos seguintes resultados:

  • Resultado final em Roraima (totalizado): Dilma 28.72%, Serra 51.03% e Marina 18.77%
  • Resultado fazendo o cálculo Boa Vista com três cidades (Rorainópolis, Alto Alegre e Normandia) : Dilma 28.21%, Serra 50.44% e Marina 19.90%
  • Resultado fazendo o cálculo Boa Vista com quatro cidades (Rorainópolis, Alto Alegre, Uiramutã e São Luiz): Dilma 27.92%, Serra 50.97% e Marina 19.60%
  • Resultado fazendo o cálculo Boa Vista com cinco cidades (Rorainópolis, Caracaraí, Mucajaí, Pacaraima e São Luiz): Dilma 27.09%, Serra 51.58% e Marina 19.74%
Impressionante, não?
*** POST SCRIPTUM


Para mostrar que não é coincidência, mas uma relação bem definida, eu também aproveito e coloco os resultados do segundo turno de 2006 aqui utilizando a transformada da incerteza e resultados finais. 

Segundo turno de 2006:
  • Resultado final em Roraima: Alckmin 61.494% e Lula 38.506%
  • Resultado fazendo o cálculo Boa Vista com três cidades: Alckmin 62.563% e Lula 37.434%
  • Resultado fazendo o cálculo Boa Vista com quatro cidades: Alckmin 60.871% e Lula 39.129%
  • Resultado fazendo o cálculo Boa Vista com cinco cidades: Alckmin 61.934% e Lula 38.061%
Só para lembrar: estes resultados indicam que ao invés de se fazer pesquisas em todo o estado de Roraima, um resultado razoável pode ser obtido utilizando Boa Vista e mais três, quatro ou cinco cidades.

Naturalmente, esta técnica também pode ser usada em outros estados. Mas francamente dá muito trabalho fazer isto.

sábado, 9 de outubro de 2010

Os números do governo - parte 5

Agora vamos ao salário mínimo real.

O que vemos é que a taxa de aumento do salário no governo Lula foi maior que a taxa de aumento no governo FHC.

Os números do governo - parte 4

Agora vamos para evolução do PIB:
Como se vê, há uma evolução constante, tendo a inclinação de 2001-2003 muito parecida com a 2003-2005

Os números do governo - parte 3

E seguindo com a postagem dos diversos números dos últimos 16 anos, vamos à balança de pagamentos.

Como podemos ver, o balanço de pagamentos foi primariamente positivo ao longo do governo Lula. Isto pode ser visto integrando os dois períodos no tempo.

Os números do governo - parte 2

Agora vamos a questão do desemprego. Os dados são do IPEADATA.
Este gráfico mostra que o desemprego realmente aumentou durante o período FHC, tendo diminuído durante o período Lula. A diminuição não é monotônica e é sujeita a muitas oscilações

Nova pesquisa Datafolha

Segundo a mais recente pesquisa Datafolha a situação para o segundo turno está:

Dilma - 48%
Serra - 41%
Brancos/Nulos - 4%
Indecisos - 7%
Há uma margem de 2% de erro (que duvido que seja precisamente isto). O fato é que com o número de indecisos, a eleição não está totalmente definida. Se os indecisos forem todos para Dilma teremos 57% para Dilma e 43% para Serra. Se forem todos para Serra teremos 50% para Dilma e 50% para Serra.

Como acho improvável que todos os eleitores indecisos decidam ir para Serra então eu diria que muito provavelmente vai dar Dilma com uma vantagem entre 0% (apenas alguns votos a mais) e 14%.

Vamos ver

Os números do governo - parte 1

Cansado de ver "spin" para todos os lados decidi postar os números do governo vindo de fontes confiáveis. Para efeito de comparação, peguei os dados dos governos FHC e Lula. O início do governo Lula é marcado por uma linha vertical vermelha (apropriado? talvez...).

Dívida pública interna:
O que vemos é que a dívida cresceu durante todo o período FHC e Lula. Naturalmente, devido ao crescimento do PIB durante o governo Lula, a relação dívida por PIB diminuiu.

Dívida Pública Externa:
Neste gráfico vemos que a dívida externa vêm diminuindo desde o início do governo Lula,tendo tido alguns saltos de crescimento durante o período FHC e Lula.

sexta-feira, 8 de outubro de 2010

Então o que aconteceu com os votos de Dilma?

Se olharmos os números crus vemos uma queda nos votos esperados de Dilma. Por que isto aconteceu?

Vamos aos números crus (contando brancos e nulos):
  • Dilma - pesquisa 47%, votação 42.85%
  • Serra - pesquisa 29%, votação 29.79%
  • Marina - pesquisa 16%, votação 17.66%
  • Brancos/Nulos - pesquisa 2%, votação 8.64%
  • Indecisos - pesquisa 4%, votação 0%
Se somarmos tudo veremos que teremos 98% nas pesquisas (não estão mostrados os demais candidatos) e 98.94% na votação (não estão mostrados os demais candidatos).

Então temos discrepâncias em três dos seis números. Destes, a discrepância no número de indecisos é fácil de explicar pois eles poderiam ir para qualquer lugar, mas certamente teriam de escolher algo.

A segunda discrepância é no número de brancos/nulos. Mas se somarmos o número de indecisos ao número de brancos/nulos então ficaremos claramente dentro da margem.

Então resta a discrepância de 4.15% na votação de Dilma. Este valor está claramente acima da margem de erro. Enquanto os votos de Serra e Marina estão claramente dentro da faixa de erro.

Então a pesquisa errou? Bem, não necessariamente. Mas certamente a pesquisa de boca-de-urna errou. A mesma predisse para os votos válidos o seguinte cenário:
  • Dilma - de 49% a 53% (teve 46.9%)
  • Serra - de 28% a 32% (teve 32.6%)
  • Marina - de 16% a 20% (teve 19.3%)
O curioso é que a pesquisa de boca-de-urna é feita no dia da eleição (e em geral com eleitores). Não dá para dizer que os resultados de Serra e Marina estejam fora da margem de erro devido ao arredondamento realizado no cálculo dos votos válidos (o erro em estimar o número de votos brancos/nulos pode muito bem atrapalhar os resultados nestes casos).

Mas o caso de Dilma é emblemático: efetivamente a sua votação foi abaixo da esperada pela pesquisa.

O que aconteceu?

Como mostrado no post anterior, este desempenho não dá para ser justificado pelo nível de abstenção.

Então há duas explicações possíveis: Dilma não tinha realmente 47% dos votos OU parte de seus eleitores não decidiram votar nela. A primeira hipótese tem o problema de não explicar porque uma parcela fixa do eleitorado preferia dizer que iria votar em Dilma, mas na realidade não votaria.

A segunda hipótese não explica porque uma parcela das pessoas que votaria em Dilma mudou de idéia na hora H.

Pessoalmente tenho suspeitas que a segunda hipótese faz mais sentido.

quinta-feira, 7 de outubro de 2010

Abstenção

Saiu na folha de São Paulo:


Só abstenção no Nordeste não explica segundo turno



Hipótese aventada por petistas, a abstenção de eleitores na região Nordeste não foi decisiva para a realização de segundo turno.
Ainda que o índice de não comparecimento às urnas na região fosse igual ao de 2006, o mais baixo desde a série histórica iniciada em 1994, Dilma Rousseff (PT) não seria eleita no primeiro turno.
O percentual de eleitores nordestinos que deixou de votar no último domingo foi de 20,4%, o que representa 7,5 milhões de eleitores.
Há quatro anos, quando Lula foi reeleito, a abstenção na região foi de 18,5%.
Se a abstenção neste ano tivesse sido semelhante, o quadro sofreria pouca alteração. Por essa hipótese, mais 726 mil votos seriam contados como válidos.
Se todos eles migrassem apenas para Dilma, hipótese praticamente impossível, ela passaria a ter 47,28% dos votos válidos, insuficiente para derrotar José Serra (PSDB) no primeiro turno.
O Nordeste é considerado de vital importância na definição das eleições e, a exemplo da reeleição de Lula, foi a região onde Dilma teve seu melhor desempenho.
Das 100 cidades onde Dilma teve suas votações mais expressivas proporcionalmente, 92 ficam no Nordeste. Os outros oito são municípios do Amazonas.
Apesar de ter pouca influência no resultado final das eleições de domingo, o índice de abstenção aumentou em todas as cinco regiões, em relação a 2006.
Historicamente, a abstenção no segundo turno é maior do que no primeiro.
Novamente pegando o exemplo das eleições de 2006, a abstenção entre o primeiro e o segundo turno no Nordeste aumentou em 920 mil eleitores.
NULOS E BRANCOS
Os Estados do Nordeste registraram o maior percentual de votos nulos ou brancos para à Presidência neste ano. A média na região foi de 11,19%, ante 10,50% no primeiro turno de 2006.
Todos os Estados da região tiveram média acima de 10%. Dos demais Estados do país, apenas o Rio de Janeiro teve índice similar --10,73%.
A Paraíba foi a campeã no quesito: 13,18% dos eleitores não escolheram nenhum candidatos.


Ou seja: mesmo que a abstenção fosse normal, então a votação de Dilma não seria muito diferente.

Isto quer dizer que a discrepância entre as pesquisas e os resultados tem de ter outra razão.

quarta-feira, 6 de outubro de 2010

Pesquisas versus Votos 5

Bem sabemos que houve discrepância entre as pesquisas e os votos das urnas

Mas quanto foi e aonde foi esta discrepância. Infelizmente, apesar de termos todos os dados das urnas, não temos o mesmo nas pesquisas. Então, vou usar os dados da DATAFOLHA para comparar os resultados.

A primeira informação que devemos ter é que não é possível comparar os votos válidos das urnas com os votos válidos das pesquisas. Por que? A razão é que o cálculo dos votos válidos nas pesquisas assume a retirada do universo amostral dos votos nulos, brancos e não sabe. O problema é que cada um destes elementos possui sua própria margem de erro (que deve ser de 2 pontos percentuais). E esta margem de erro altera tanto o resultado médio quanto a margem de erro do resultado médio.

Em outras palavras: valor esperado da divisão é diferente da divisão dos valores esperados.

Assim temos de transformar os resultados das urnas em dados crus, ou seja, em percentual real sem considerar votos inválidos. Isto é bem simples de fazer (basta multiplicar pelo percentual de votos válidos).

A segunda informação é que a pesquisa contém um número limitado de estados: São Paulo, Rio de Janeiro, Paraná, Rio Grande do Sul, Minas Gerais, Distrito Federal, Pernambuco, Bahia e Ceará. Então a comparação só é possível nestes estados.

Então vamos ao que interessa.

São Paulo

  • Pesquisa - Serra 36%, Dilma, 38%, Marina 18%
  • Votos - Serra 37.64%, Dilma 34.53%, Marina 19.23%

Rio de Janeiro

  • Pesquisa - Serra 22%, Dilma, 44%, Marina 24%
  • Votos - Serra 20.11%, Dilma 39.07%, Marina 28.14%

Rio Grande do Sul
  • Pesquisa - Serra 36%, Dilma, 44%, Marina 10%
  • Votos - Serra 37.67%, Dilma 43.57%, Marina 10.51%

Paraná
  • Pesquisa - Serra 38%, Dilma, 38%, Marina 14%
  • Votos - Serra 41.08%, Dilma 36.41%, Marina 14.88%

Pernambuco
  • Pesquisa - Serra 17%, Dilma, 62%, Marina 14%
  • Votos - Serra 17.93%, Dilma 54.52%, Marina 15.34%

Minas Gerais
  • Pesquisa - Serra 26%, Dilma, 47%, Marina 17%
  • Votos - Serra 28.03%, Dilma 42.80%, Marina 19.36%
Distrito Federal
  • Pesquisa - Serra 23%, Dilma, 32%, Marina 34%
  • Votos - Serra 22.83%, Dilma 29.82%, Marina 39.43%

Bahia
  • Pesquisa - Serra 20%, Dilma, 57%, Marina 14%
  • Votos - Serra 18.74%, Dilma 55.94%, Marina 14.06%

Ceará
  • Pesquisa - Serra 16%, Dilma, 62%, Marina 14%
  • Votos - Serra 14.61%, Dilma 59.23%, Marina 14.61%
Então, o que isto mostra? Bem, há certamente casos em que o erro foi maior que 2%. Mas há casos aonde ele foi bem menor. O melhor modo de quantificar isto é fazer um cálculo do erro por candidato. Para Serra isto deu um desvio de 1.64%, para Dilma de 3.55% e para Marina 2.38%.

O desvio global foi de 2.64%

O que isto significa? O esperado é que este desvio fosse pelo menos a metade. O que significa que na realidade tivemos uma margem real de mais de 5.2% para 95% de confiança (ou 4.3% para 90% de confiança).

Naturalmente muitas discrepâncias podem ser causadas pela margem de erro introduzida pelo voto dos indecisos (o caso do DF é um destes - os valores das pesquisas para Dilma e Serra estão dentro da margem de erro, mas não é o caso de Marina - o que dado o número de indecisos ser de 6% pode muito bem justificar uma alteração no quadro).


Mas o problema com o voto dos indecisos é que ele é postivo, ou seja somente serve para justificar um aumento. Mas o que dizer de uma diminuição?

Este é o caso de Dilma em São Paulo, Rio de Janeiro, Pernambuco e Minas Gerais. Nestes estados, a candidata EFETIVAMENTE perdeu votos. 

segunda-feira, 4 de outubro de 2010

Pesquisas versus Votos 4

Então chegou a hora de ver as diferenças da votação para presidente. O que os institutos disseram:
  • Dilma tem 47% pelo DATAFOLHA (2/10), 47% pelo IBOPE (27/09), 47,5% pelo SENSUS (28/09) e 51% pelo Vox Populi (21/09)
  • Serra tem 29% pelo DATAFOLHA (2/10), 29% pelo IBOPE (27/09), 25,6% pelo SENSUS (28/09) e 24% pelo Vox Populi (21/09)
  • Marina  tem 16% pelo DATAFOLHA (2/10), 16% pelo IBOPE (27/09), 11,6% pelo SENSUS (28/09) e 10% pelo Vox Populi (21/09)
  • Não sabe tem 4% pelo DATAFOLHA (2/10), 4% pelo IBOPE (27/09), 9,5% pelo SENSUS (28/09) e 9% pelo Vox Populi (21/09)
  • Branco/Nulo tem 2% pelo DATAFOLHA (2/10), 3% pelo IBOPE (27/09), 3,6% pelo SENSUS (28/09) e 5% pelo Vox Populi (21/09)
Bem, agora temos o valores obtidos, e mais uma vez tratamos dos votos totais
  • Dilma - 42.85%
  • Serra - 29.79%
  • Marina - 17.66%
  • Plínio - 0.80%
  • Brancos - 3.13%
  • Nulos - 5.51%
Como podemos ver temos discrepâncias além da margem de 2% nas votações de Dilma e Brancos e Nulos. Já na votação de Serra e de Marina, os resultados foram próximos dentro da margem de erro para o Datafolha e o Ibope.
** Em tempo: a abstenção nacional foi muito alta (18.12%). Será que isto teve algum efeito?

Pesquisas versus Votos 3

Agora temos os resultados das eleições em diversos locais. Mais uma vez, é importante verificar a totalização dos votos e não apenas os votos válidos

Nisto temos quanto a eleição para presidente em Brasília:
  • Dilma - pesquisa 32% - votação 31.74% (válidos) e 29.82% (totais)
  • Serra - pesquisa 23% - votação 24,30% (válidos) e 22.83% (totais)
  • Marina - pesquisa 29% - votação 41,96% (válidos) e 39.42% (totais)
  • Plínio - pesquisa 2% - votação 1,65% (válidos)
  • Branco/Nulo - pesquisa 5% - votação 2,17%
  • Não sabe - pesquisa 9% - votação: 3.87%
Conclusão: como a margem é de 3%, os resultados de Dilma, Serra, Plínio e Branco/Nulo estão dentro do esperado. No entanto, os resultados de Marina e Não sabe estão bem distantes (cerca de 10% no de Marina e 5% no de Não sabe).

Já no caso da eleição para governador
  • Agnelo - pesquisa 46% e 43.62% votos totais
  • Roriz - pesquisa 21% e 28.38% votos totais
  • Toninho - pesquisa 13% e 12.84% votos totais
  • Eduardo Brandão - pesquis 3% e 5.08% votos totais
O valor de Roriz foi substancialmente maior que a margem de erro de 3%.

domingo, 3 de outubro de 2010

Pesquisas versus Votos 2

Dentro de mais ou menos uma hora teremos os primeiros resultados (espero eu).

Mas no mesmo espírito anterior, quero registrar a situação da pesquisa para presidente no DF:

  • Dilma - 32%
  • Serra - 23%
  • Marina - 29%
  • Plínio - 2%
  • Branco/Nulo - 5%
  • Não sabe - 9%

Foram entrevistados 1087 pessoas, o que dá uma margem de erro de cerca de 3% - ou seja Dilma e Marina estão tecnicamente empatadas no DF e a soma de Serra+Marina+Plínio é maior que o percentual de Dilma.

Se dependesse do DF haveria segundo turno para presidente.

Pesquisas versus Votos

Chegamos a 3 de outubro de 2010. Mas o que me interessa é como as pesquisas (e os institutos) funcionaram como instrumentos de predição.

Então vamos primeiro ao caso dos presidentes:
  • Dilma tem 47% pelo DATAFOLHA (2/10), 47% pelo IBOPE (27/09), 47,5% pelo SENSUS (28/09) e 51% pelo Vox Populi (21/09)
  • Serra tem 29% pelo DATAFOLHA (2/10), 29% pelo IBOPE (27/09), 25,6% pelo SENSUS (28/09) e 24% pelo Vox Populi (21/09)
  • Marina  tem 16% pelo DATAFOLHA (2/10), 16% pelo IBOPE (27/09), 11,6% pelo SENSUS (28/09) e 10% pelo Vox Populi (21/09)
  • Não sabe tem 4% pelo DATAFOLHA (2/10), 4% pelo IBOPE (27/09), 9,5% pelo SENSUS (28/09) e 9% pelo Vox Populi (21/09)
  • Branco/Nulo tem 2% pelo DATAFOLHA (2/10), 3% pelo IBOPE (27/09), 3,6% pelo SENSUS (28/09) e 5% pelo Vox Populi (21/09)
Agora, vamos aos governadores que estão supostamente eleitos pelas indicações das pesquisas
  • Amazonas - Omar Aziz tem 54% pelo Perspectiva (22/09), 56% pelo Action (15/09) e 53% pelo Ibope (12/09)
  • Espírito Santo - Casagrande tem 64,5% pelo Visão (22/09) e  61% pelo Ibope (09/09)
  • Pará - Simão Jatene tem 53% pelo Ibope (01/10)
  • Pernambuco - Eduardo Campos tem 70% pelo Datafolha (02/10)
  • Rio de Janeiro - Sérgio Cabral tem 59% pelo Datafolha (02/10)
  • Sergipe - Marcelo Déda tem 54% pelo Ibope (01/10)
Além disto, há previsão que eleição termine no primeiro turno para:
  • Acre - Tião Viana com 52% pelo Ibope (01/10)
  • Bahia - Jaques Wagner com 52% pelo Datafolha (02/10)
  • Ceará - Cid Gomes com 52% pelo Datafolha (02/10)
  • DF - Agnelo Queiroz com 46% pelo Datafolha (02/10)
  • Minas Gerais - José Anastasia com 47% pelo Datafolha (02/10)
  • Mato Grosso do Sul - Pucinelli com 51% pelo Ibope (01/10)
  • Rio Grande do Norte - Rosalba Ciarlini com 49% pelo Ibope (01/10)
  • Rio Grande do Sul - Tarso Genro com 48% pelo Datafolha (02/10)
  • São Paulo - Geraldo Alckmin com 50% pelo Datafolha (02/10)
  • Tocantins - Siqueira Campos com 52% pelo Ibope (01/10)
Eu reluto a colocar estes como vencedores no primeiro turno pois há chances que isto não se concretize. O que não deve acontecer no caso anterior.

Bem, vamos ver não?