quarta-feira, 29 de setembro de 2010

E mais uma vez o mundo dá voltas

Leio na internet sobre o julgamento no STF sobre a exigência dos dois documentos na hora da votação.

Como já votei antes e não me lembrava disso, fiquei um pouco curioso. Então cheguei na lei 12.034/2009 que fez a seguinte modificação:


Art. 91-A.  No momento da votação, além da exibição do respectivo título, o eleitor deverá apresentar documento de identificação com fotografia. (Incluído pela Lei nº 12.034, de 2009)
        Parágrafo único.  Fica vedado portar aparelho de telefonia celular, máquinas fotográficas e filmadoras, dentro da cabina de votação. (Incluído pela Lei nº 12.034, de 2009)


Então temos uma lei assinada pelo atual presidente da república que demandou a exigência. Naturalmente, o atual presidente e boa parte do governo é do PT.

Ora, e quem foi que pediu a ADIN? O PT!

Não é muito engraçado?

Pesquisas e Equívocos 10

Um ponto que ficou faltando mostrar é como o programa se comporta com relação ao erro de amostragem.

Segundo a teoria, este erro irá diminuir com o inverso da raiz quadrada de amostras. E este erro só pode ser visto realizando a mesma pesquisa diversas vezes.

Então foi isto que fiz. A primeira coisa verificada é que realmente o desvio padrão caí com o inverso da raiz quadrada do número de amostras.

Então o desvio padrão foi caindo com o inverso do quadrado com o aumento do número de amostras.

Já o erro também caiu com o inverso do quadrado do número de amostras.

Isto mostra o fato conhecido que o erro segue precisamente a relação teórica determinada. E como brinde, foi possível verificar que o erro era realmente uma variável aleatória com distribuição gaussiana e desvio padrão dado pela curva anterior.

Resta ainda saber como a situação se altera se ao invés de um único saco contendo nossa variável aleatória (pensei em bolas de gude de cores diferentes - azul e verde, por exemplo) for trocado por um problema com mais de um saquinho com distribuições distintas.

Mas isto fica para um próximo post

terça-feira, 28 de setembro de 2010

Pesquisas e Equívocos 9

Resolvi fazer a prova dos nove sobre a amostragem de uma pesquisa. Então fiz um programa em MATLAB para representar o processo de amostragem.

O programa faz o seguinte: a partir de uma fração p de votantes determinado ele coloca N*p elementos de valor 1 em um vetor composto de zeros. A colocação destes valores é feita de modo aleatório. Assim, se tivermos um vetor de tamanho 1000, e uma fração de 0.23, o vetor terá 230 elementos em posições aleatórias de valor 1 e o restante zero.

Em seguida, o programa amostra este vetor de modo aleatório. E com isto crio um novo vetor de tamanho N1 que é menor que o vetor original. Por exemplo, digamos que o vetor original tem 10000 amostras, e amostro 100.

Então ao final, eu conto o número de elementos não nulos do vetor original e do vetor amostrado. Dividindo este valor pelos respectivos tamanhos dos vetores, eu tenho a estimativa da proporção de números não nulos.

Um exemplo: N=1.000.000, N1= 1.000. Se tivermos Np=367169 (p=0.367169) teremos na nossa amostragem (0.362).

O código fonte é mostrado a seguir:


% Exemplo de amostragem em uma população
clear
% N tamanho da população
N=1000000;
% N1 é o número de amostras retiradas aleatoriamente da população
N1=1000;
% p é o percentual que vota no candidato X (não sei e é aleatório)
p=rand;
% Número de votantes do percentual
Np=round(N*p);
% a é a população de votantes
a=zeros(N,1);
% Preenchimento aleatório dos não nulos
g1=randperm(N);
for k=1:Np
    a(g1(k))=1;
end;
% vetor com índices da amostra - aleatória
g=randperm(N);
% s é o vetor de amostras
s=zeros(N1,1);
for k=1:N1;
        % Processo de amostragem
    s(k)=a(g(k));
end;
% mostra o tamanho da amostra, o percentual na amostra completa e o percentual da estimativa
100*[p mean(a) mean(s)]

E funciona muito bem mesmo

domingo, 26 de setembro de 2010

Resultado de eleições nas Capitais x Resultado de eleições nos Estados

Fiquei muito curioso sobre a questão da definição dos saquinhos no exemplo matemático utilizado como analogia a pesquisa eleitoral. A minha curiosidade é saber se a capital de um estado é um bom estimador para o estado em si.

Então neste espírito vou fazer uma análise dos primeiros colocados por capital e estado.

Vamos ao que interessa:

Acre
  • Rio Branco - Lula - 42,9%, Alckmin - 49,7% e HH - 6,2%
  • Estado - Lula - 42,6%, Alckmin - 51,8% e HH - 4,2%
Alagoas
  • Maceió - Lula - 30,5%, Alckmin - 42,3% e HH - 24,5%
  • Estado - Lula - 46,6%, Alckmin - 37,8% e HH - 13,3%
Amapá
  • Macapá - Lula - 49,0%, Alckmin - 34,5% e HH - 12,9%
  • Estado - Lula - 54,4%, Alckmin - 32,2% e HH - 10,1%
Amazonas
  • Manaus - Lula - 76,3%, Alckmin - 10,5% e HH - 9,3%
  • Estado - Lula - 78,1%, Alckmin - 12,5% e HH - 6,6%
Bahia
  • Salvador - Lula - 68,4%, Alckmin - 17,8% e HH - 9,8%
  • Estado - Lula - 66,7%, Alckmin - 26,0% e HH - 4,3%
Ceará
  • Fortaleza - Lula - 67,5%, Alckmin - 21,1% e HH - 7,4%
  • Estado - Lula - 71,2%, Alckmin - 22,8% e HH - 3,7%
Espírito Santo
  • Vitória - Lula - 43,8%, Alckmin - 39,3% e HH - 10,2%
  • Estado - Lula - 53,0%, Alckmin - 37,1% e HH - 6,0%
Goiás
  • Goiânia - Lula - 34,2%, Alckmin - 52,2% e HH - 10,0%
  • Estado - Lula - 40,2%, Alckmin - 51,5% e HH - 6,3%
Maranhão
  • São Luís - Lula - 67,6%, Alckmin - 20,3% e HH - 8,7%
  • Estado - Lula - 75,5%, Alckmin - 18,8% e HH - 2,9%
Mato Grosso
  • Cuiabá - Lula - 39,6%, Alckmin - 48,2% e HH - 7,7%
  • Estado - Lula - 38,6%, Alckmin - 54,8% e HH - 4,1%
Mato Grosso do Sul
  • Campo Grande - Lula - 30,5%, Alckmin - 59,0% e HH - 7,9%
  • Estado - Lula - 36,0%, Alckmin - 56,3% e HH - 5,6%
Minas Gerais
  • Belo Horizonte - Lula - 44,5%, Alckmin - 39,4% e HH - 10,7%
  • Estado - Lula - 50,8%, Alckmin - 40,6% e HH - 5,7%
Pará
  • Belém - Lula - 45,0%, Alckmin - 41,0% e HH - 10,8%
  • Estado - Lula - 51,8%, Alckmin - 41,6% e HH - 4,7%
Paraíba
  • João Pessoa - Lula - 59,2%, Alckmin - 27,1% e HH - 9,6%
  • Estado - Lula - 65,3%, Alckmin - 27,9% e HH - 4,2%
Paraná
  • Curitiba - Lula - 33,8%, Alckmin - 51,7% e HH - 8,4%
  • Estado - Lula - 37,9%, Alckmin - 53,0% e HH - 5,4%
Pernambuco
  • Recife - Lula - 61,5%, Alckmin - 27,0% e HH - 7,0%
  • Estado - Lula - 70,9%, Alckmin - 22,9% e HH - 3,7%
Piauí
  • Teresina - Lula - 64,0%, Alckmin - 27,7% e HH - 5,3%
  • Estado - Lula - 67,3%, Alckmin - 28,1% e HH - 2,5%
Rio de Janeiro
  • Rio de Janeiro - Lula - 43,4%, Alckmin - 30,2% e HH - 20,4%
  • Estado - Lula - 49,2%, Alckmin - 28,9% e HH - 17,1%
Rio Grande do Norte
  • Natal - Lula - 47,0%, Alckmin - 37,9% e HH - 9,6%
  • Estado - Lula - 60,2%, Alckmin - 31,6% e HH - 5,1%
Rio Grande do Sul
  • Porto Alegre - Lula - 29,6%, Alckmin - 50,5% e HH - 13,9%
  • Estado - Lula - 33,1%, Alckmin - 55,8% e HH - 7,1%
Rondônia
  • Porto Velho - Lula - 55,9%, Alckmin - 30,8% e HH - 10,0%
  • Estado - Lula - 45,1%, Alckmin - 47,1% e HH - 5,6%
Roraima
  • Boa Vista - Lula - 21,3%, Alckmin - 61,4% e HH - 14,3%
  • Estado - Lula - 26,2%, Alckmin - 59,7% e HH - 11,7%
Santa Catarina
  • Florianópolis - Lula - 26,8%, Alckmin - 48,1% e HH - 16,9%
  • Estado - Lula - 33,2%, Alckmin - 56,6% e HH - 6,6%
São Paulo
  • São Paulo - Lula - 35,7%, Alckmin - 53,9% e HH - 8,4%
  • Estado - Lula - 36,8%, Alckmin - 54,2% e HH - 7,1%
Sergipe
  • Aracaju - Lula - 40,2%, Alckmin - 44,8% e HH - 11,4%
  • Estado - Lula - 47,3%, Alckmin - 44,4% e HH - 6,2%
Tocantins
  • Palmas - Lula - 60,8%, Alckmin - 32,1% e HH - 3,3%
  • Estado - Lula - 58,6%, Alckmin - 27,3% e HH - 2,4%
Portanto é claramente visível que pesquisas apenas nas capitais dos Estados não são suficientes para identificar a situação no Estado inteiro.

Resta ainda saber se pesquisas em capitais podem servir para identificar o comportamento das regiões. Mas isto vemos em outro post. ADENDO: Verifiquei para região Sul e realmente não funcionou mesmo.

sexta-feira, 24 de setembro de 2010

O século XXI não tem problemas com o tédio

Deu no UOL:

"Ameaçado pela Ficha Limpa, Roriz desiste e lança sua mulher como candidata no DF

A nove dias das eleições e com o risco de ser barrado pela Lei da Ficha Limpa, o candidato ao governo do Distrito Federal Joaquim Roriz (PSC) decidiu retirar sua candidatura para lançar sua mulher, Weslian, na disputa.
A informação foi divulgada no site da filha de Roriz, Liliane, que é candidata a deputada distrital, mas retirada logo depois. "Depois de passar a manhã em reunião, o ex-governador Joaquim Roriz decide lançar a esposa Weslian Roriz como candidata a governadora do Distrito Federal", escreveu a filha de Roriz.

..."

Bem, isto eu não esperava (acho que a maioria também não). Com isso, Roriz tira a validade das 15 horas de julgamento que terminaram em impasse a respeito do ficha limpa, e de quebra embola o meio de campo com relação a eleição de Agnelo.

Como bom interessado em estatística, minha curiosidade é saber qual será o efeito disto na eleição. E nisto precisamos de algum material prévio. Se olhamos as pesquisas para o DF veremos que Roriz tem 30% e Agnelo tem 43%. As pesquisas tem uma margem de erro de 2% (na realidade é um pouco maior, mas isto fica para outro post).

Bem, além disto temos 10% de Brancos/Nulos e 12% de indecisos.

A votação da esposa de Roriz será composta dos seguintes segmentos:

  • os que votariam e Roriz e continuam votando na esposa dele - este segmento é uma fração dos 30% de Roriz, que em toda probabilidade será substancialmente menor que 100%. 
  • os que foram atraídos pela candidatura da esposa de Roriz. - este segmento é o de pessoas que iriam votar em outro candidato e mudaram pelo fato de ser a esposa de Roriz ou de pessoas indecisas que mudaram de opinião ao ver a candidatura da esposa de Roriz

Bem, aqui é que a coisa fica interessante:

No início, Roriz tinha 38% - e hoje tem 30%. Portanto teve uma perda de 8% (bem, pode ser na realidade uma perda de apenas 4% devido a margem de erro). Já Agnelo começou com 27% e cresceu até 43% (16 pontos percentuais).

Se olharmos os indecisos e brancos, veremos que no início tinhamos 14% de Branco/Nulo (variação de 4 pontos em comparação com os dados de hoje - 10%) e 19% de Indecisos (variação de 7% em comparação com hoje - 12%).

Portanto, Roriz teve uma variação de -8%, Agnelo de +16%, Brancos/Nulos de -4% e Indecisos de -7%. A soma total é de -3%. A variação positiva do restante dos candidatos leva em conta este valor.

Não é possível ter certeza, mas pode-se dizer que em um cenário 8% de Agnelo vem de Roriz e o restante vem de Indecisos e Brancos/Nulos. Claro que pode-se dizer que na realidade também pode-se chegar que ao invés destes 8%, o valor real é mais próximo de é de 5%.

Mas de qualquer maneira, entre 5% e 8% de Roriz foram transferidos para o Agnelo. E parte da tarefa da esposa de Roriz é reconquistar este percentual.

Além disso vemos que há cerca de 22% de votos estacionados em Indecisos (12%) e Brancos/Nulos (10%).

Bem, dificilmente ela iria reverter os votos Brancos/Nulos em seu favor. Portanto poderíamos dizer que o tamanho máximo da amostra que ela pode atuar é de 20% (12% + 8%).

Mas a questão é quanto destes 20% ela irá conseguir?: Dificilmente a totalidade.

Aí entra uma questão de futurologia e especulação, ou seja qual o percentual de transferência de Roriz para esposa e qual o percentual que irá se decidir pela esposa já que Roriz não é mais candidato.

Meu chute? Bem menos do que 20%, talvez estourando 10%

Ou seja, se isto se confirmar, então o partido de Roriz será derrotado.

Vamos ver

terça-feira, 21 de setembro de 2010

Imaginário pelo Real

De no blog do Noblat:

"Presidente disse que liberdade de imprensa é 'sagrado para fortalecer a democracia, mas não significa que se deve inventar'
Jocyelma Santana, O Estado de S.Paulo
Durante a inauguração ontem (21) de um pátio multimodal em Porto Nacional, no Tocantins, o presidente Luiz Inácio Lula da Silva voltou a criticar a imprensa, dizendo que "não tem uma revista internacional que não tenha a capa elogiando a economia e o governo brasileiros". E atacou dizendo que liberdade de imprensa é "sagrado para fortalecer a democracia, mas não significa que se deve inventar"."

Bem, qual é o problema? Tecnicamente isto não é criticar a imprensa

segunda-feira, 20 de setembro de 2010

Pesquisas e Equívocos 8

Então, já que estamos tratando de uma integração de uma função bem complicada, que tal dar uma olhada nesta função?
Podemos ver no caso de Roraima como foi a distribuição da votação de Lula e Alckmin em relação ao tamanho da cidade.
Este mapa mostra que há uma relação complicada (e não bijetora) entre o tamanho da cidade e o voto (em Roraima). Esta função não é conhecida a priori.

Mas isto não atrapalha o cálculo por amostragem. O importante é termos pontos o suficiente para realizarmos a amostragem de modo adequado.

Naturalmente, o cálculo pela Transformada da Incerteza tem alguns problemas. O maior deles é que dificilmente um ponto sigma irá coincidir exatamente com a população de uma cidade.

Mas existe uma saída: como a UT garante que os momentos serão adequadamente mapeados, então podemos utilizar os mesmos para determinar pesos adequados às cidades pré escolhidas.

E fiz isto mesmo para 4 cidades e 5 cidades. As quatro cidades são: Rorainópolis,  Alto Alegre, Uiramutã e São Luís. E para as cinco cidades escolhi: Rorainópolis, Caracaraí, Mucajaí, Pacaraima e São Luís. Os resultados de todas as cidades são os seguintes:


  1. Rorainópolis - 26546 - Alckmin - 43.437 & Lula 50.893
  2. Caracaraí - 19235 -  - Alckmin - 55.991 & Lula 37.458
  3. Alto Alegre - 14205  - Alckmin - 57.125 & Lula 31.154
  4. Mucajaí - 13188      - Alckmin - 56.542 & Lula 35.464
  5. Cantá - 11942       - Alckmin - 65.744 & Lula 23.187
  6. Bonfim - 10726     - Alckmin - 70.007 & Lula 21.715
  7. Pacaraima - 9220     - Alckmin - 65.978 & Lula 24.005
  8. Amajari - 8249     - Alckmin - 65.877 & Lula 27.054
  9. Uiramutã - 7934     - Alckmin - 48.117 & Lula 49.703
  10. Caroebe - 7569     - Alckmin - 55.160 & Lula 40.134
  11. Normandia - 7527     - Alckmin - 59.688 & Lula 34.579
  12. Iracema - 6250     - Alckmin - 55.233 & Lula 37.203
  13. S.J. da Baliza - 5028- Alckmin - 50.429 & Lula 40.631
  14. São Luís - 5979      - Alckmin - 45.585 & Lula 44.343


Uma vez que definimos as cidades e sabemos os momentos, podemos encontrar os pesos. Para o caso de 4 cidades os pesos são: 0.1891, 0.4443, 0.1934 e 0.1732. E o caso das 5 cidades, os pesos são: 0.1708, 0.1349, 0.2222,  0.3147 e 0.1574.

Chegamos aos seguintes resultados:

  • Resultado final em Roraima: Alckmin 59.733% e Lula 26.152%
  • Resultado fazendo o cálculo Boa Vista com as cidades completas (é diferente pois o primeiro resultado só considera os eleitores que votaram e o segundo toda população): Alckmin 58.710% e Lula 25.541%
  • Resultado fazendo o cálculo Boa Vista com três cidades: Alckmin 59.745% e Lula 25.345%
  • Resultado fazendo o cálculo Boa Vista com quatro cidades: Alckmin 57.334% e Lula 26.507%
  • Resultado fazendo o cálculo Boa Vista com cinco cidades: Alckmin 58.590% e Lula 25.273%

Nada mal mesmo

domingo, 19 de setembro de 2010

Pesquisas e Equívocos 7

Uma coisa importante a ser pensada sobre a eleição é que a mesma pode ser vista como uma integração unidimensional (ou bidimensional se considerarmos o espaço) de uma função muito complicada

basicamente: sum w(x)*p(x). No caso w(x) é conhecido - pois corresponde a proporção da população da cidade em relação ao país e p(x) é desconhecido pois corresponde a proporção do candidato em questão naquela cidade. No fundo queremos estimar qual será o valor total da soma:

P=w1*p1+w2*p2+....

A abordagem da amostragem é realizar esta integração desta função muito complicada p(x) utilizando apenas alguns pontos. Isto não é nada extraordinário, pois o método de Monte-Carlo faz precisamente isto. Já a eleição é a contagem incluindo todos as cidades.

Enfim uma pesquisa pode ser vista como a aplicação do método de Monte Carlo para estimar o valor da integral, já que não se conhece a priori a distribuição de p(x). Mas existe outro caminho:

Ao contrário de p(x), sabemos qual é a distribuição de w(x), ela é empiricamente conhecida por ser essencialmente o peso da cidade na população geral. Isto a torna uma candidata ao uso da transformada da incerteza . Esta transformada pode ser vista em maiores detalhes aqui.

Neste caso, fazendo a função w(x) suave (através de ordenação) e se p(x) for suave dentro desta ordenação podemos calcular o valor de P com um número muito pequeno de pontos. Ao dividirmos o país em regiões, estamos em última análise fazendo uma suposição de suavidade (que pode ser confundida com homogeneidade) na solução.

Como fazer isto? Eu vejo de algumas formas - a primeira é dividir o país em estados e supor suavidade nestes estados. A prova disto é difícil de ser formalizada - e talvez nem seja possível de ser provada.

Vamos pegar um exemplo: naturalmente um estado com poucos municípios - Roraima.

Roraima tem 15 municípios - sendo o maior deles Boa Vista
Como podemos ver, há uma cidade grande (Boa Vista e uma série de cidades pequenas). Temos uma função não muito suave. Mas ao retirarmos Boa Vista, terminamos com uma função bem mais suave.

Então temos uma função muito mais suave - que poderia ser modelada por uma distribuição mais conhecida (como a exponencial). Agora calculamos os momentos.

Há é claro o problema de se determinar qual é a variável aleatória a ser usada. No caso temos de 1 a 14. Mas estas variáveis não tem informação correta sobre o espaçamento. Então uma alternativa é utilizar a população da cidade como variável aleatória. Assim...

A Média é 13 mil e 91 pessoas. O desvio padrão é 6 mil e 931 pessoas, a distorção normalizada é de -0.7663 e a curtosis normalizada é de 2.2739. Os momentos puros são 1.3901e+004 (primeiro momento), 2.4128e+008 (segundo momento), 4.9448e+012 (terceiro momento), 1.1247e+017 (quarto momento) e 2.7180e+021 (quinto momento) Isto permite que calculemos algo que por falta de uma designação melhor chamaremos de populações sigma.

Para dois pontos temos:
  • População 1: 9 mil e 134 pessoas com um peso de 0.3212
  • População 2: 23 mil e 978 pessoas com um peso de 0.6788
Para três pontos temos:
  • População 1: 7 mil e 537 pessoas com um peso de 0.4387
  • População 2: 14 mil e 890 pessoas com um peso de 0.3634
  • População 3: 26 mil e 197 pessoas com um peso de 0.1979
E como podemos aproveitar destes números? Vamos dar uma olhada na população:
  • 26546 pessoas
  • 19235 pessoas
  • 14205 pessoas
  • 13188 pessoas
  • 11942 pessoas
  • 10726 pessoas
  • 9220 pessoas
  • 8249 pessoas
  • 7934 pessoas
  • 7569 pessoas
  • 7527 pessoas
  • 6250 pessoas
  • 6028 pessoas
  • 5979 pessoas
Temos para o caso com dois pontos dois municípios: Caracaraí (19235 pessoas) e Pacaraima (9220 pessoas). E para o caso com três pontos temos os municípios: Rorainópolis (26546 pessoas), Alto Alegre (14205) e Normandia (7527).

Infelizmente, estes municípios não tem exatamente a população requerida pelos pontos sigma. Então vamos recalcular os pesos de forma que os momentos da distribuição estejam corretos. No caso teremos de satisfazer para 2 pontos - soma dos pesos igual a 1 e média

Assim os pesos são:
  • 0.4674 para Caracaraí (compare com o valor inicial de 0.3212)
  • 0.5326 para Pacaraima (compare com o valor inicial de 0.6788)
No caso de três pontos teremos de satisfazer a soma, média e variância. Assim os pesos são:
  • 0.1964 para Rorainópolis (compare com o valor inicial de 0.1979)
  • 0.3950 para Alto Alegre (compare com o valor inicial de 0.3634)
  • 0.4085 para Normandia (compare com o valor inicial de 0.4387)
Claro que o resultado de Boa Vista deve ser somado de modo ponderado ao valor encontrado (0.7316 para Boa Vista e 0.2684 para o valor encontrado). Bom e será que isto é um bom indicador?

Para verificar não vou calcular o resultado total, mas vou utilizar os dados da eleição de 2006 para chegar a um valor.

Nesta eleição tivemos os seguintes resultados:
  • Caracaraí - Alckmin 55.991% e Lula 37.458%
  • Pacaraima - Alckmin 65.978% e Lula 24.006%
  • Rorainópolis - Alckmin 43.437% e Lula 50.893%
  • Alto Alegre - Alckmin 57.125% e Lula 31.154%
  • Normandia - Alckmin 59.688% e Lula 34.579%
Os dois pontos resultam em:
  • Alckmin 61.3101% e Lula 30.2935%
E os três pontos resultam em:
  • Alckmin 55.4779% e Lula 36.4267%
E o resultado em Boa Vista foi Alckmin 61.440% e 21.279% Lula.

O resultado no Acre foi: Alckmin 59.733% e Lula 26.152%.
  1. Se usarmos a conta com dois pontos chegamos ao resultado: Alckmin 61.3101% e Lula 23.6985%
  2. Se usarmos a conta com três pontos chegamos ao resultado: Alckmin 59.7447% e Lula 25.3446%
Até que é impressionante, não?

* Post Scriptum: Depois eu vi que era melhor usar Rorainópolis (26546 pessoas) e Pacaraima (9220 pessoas). Neste caso os pesos são:
  • 0.2702 para Rorainópolis (compare com o valor inicial de 0.3212)
  • 0.7298 para Pacaraima (compare com o valor inicial de 0.6788)
Neste caso os dois pontos resultam em: Alckmin 62.548% e Lula 22.142%
Mesmo assim ainda impressiona...

sexta-feira, 17 de setembro de 2010

Pesquisas e Equívocos 6

A questão dos diversos saquinhos é em última análise um problema de conjuntos. Mas como utilizar teoria de conjuntos neste caso?

Primeiro temos de definir as variáveis aleatórias:

- Moeda 1: vale 1
- Moeda 2: vale 0

As proporções são as probabilidades na definição frequentista. Então

- Moeda 1: vale 1, probabilidade p
- Moeda 2: vale 0, probabilidade 1-p

Desta forma temos:

Valor esperado:
E{X}=p*1+(1-p)*0 = p

Variância:
E{(X-p)^2}p*(1-p)^2+(1-p)*(0-p)^2 = p*(1-p)

Ok! E no caso de dois saquinhos? Como definir o relacionamento?

Saquinho 1:
Valor esperado: p1
Variância: p1*(1-p1)

Saquinho 2:
Valor esperado: p2
Variância: p2*(1-p2)

O nosso problema final é

Z=X+Y

E então verificar exatamente o efeito em Z:


N1/N1t*1 (1-N1/N1t)*0

N2/N2t*1 (1-N2/N2t)*0

(N1+N2)/(N1t+N2t)*1 (1-(N1+N2)/(N1t+N2t))*0

N1t/(N1t+N2t)=w1 ->1/(N2t+N1t)=w1/N1t
N2t/(N1t+N2t)=w2 ->1/(N2t+N1t)=w2/N2t

(N1+N2)/(N1t+N2t)=N1*w1/N1t+N2*w2/N2t=p1*w1+p2*w2

Esta é a distribuição resultante

(p1*w1+p2*w2)*1 (1-(p1*w1+p2*w2))*0

No fundo é

px*1 (1-px)*0


De qualquer modo temos que o valor final corresponde a uma distribuição do tipo

Soma wi*pi aonde i=1 até o número de saquinhos. Sabemos também que o desvio padrão final será ponderado por cada peso (conforme visto em post anterior). Ou seja

P=w1*p1+w2*p2+...
D=w1*d1+w2*d2+...

Existem alguns pontos interessantes nesta soma. Se olharmos os posts anteriores vemos que para um erro de 2,5% - um intervalo de 68% de confiança precisa de 400 amostras, um intervalo de 90% de confiança necessita de 1088 amostras, um intervalo com 95% de confiança necessita de 1537 amostras, um intervalo de 99% de confiança dá 2621 amostras e assim por diante.

Mas...

O que nós queremos é que D seja de 2,5%. Para tanto, o necessário é:

a) Todos os saquinhos são amostrados de forma igual com relação ao erro. Ou seja (w1+w2+...)*0.025
b) Ou amostramos mais os saquinhos com maior peso e menos os saquinhos com menor peso

A segunda opção é mais interessante. Vamos supor que tenhamos 2 saquinhos - um com um peso de 0.8 e outro 0.2

O primeiro saco amostramos com 95% de confiança a 2% - ou seja 2401 amostras
O segundo saquinho amostramos com 95% de confiança a 4,5% - ou seja 475 amostras

Ao final temos 0.8*2+0.2*4.5 = 2,5% e com 2876 amostras

Compare isto com o necessário para 2,5% no caso (a): 3074.

No caso do Brasil, cerca de 273 municípios correspondem a 54% da população (estes possuem população acima de 100 mil cada). Destes, cerca de 30 possuem 27% da população. Desta forma podemos começar a ter um quadro melhorado de quantos municípios serão necessários na nossa amostra.

Analisando as tabelas do IBGE, vemos o seguinte:

  • 1487 municípios (+ de 20 mil habitantes) possuem 80,2% da população.
  • 4074 municípios (- de 20 mil habitantes) possuem 19,8% da população.
  • 31 municípios (+ de 500 mil habitantes) dos 1487 possuem 27,6% da população.
  • 194 municípios (entre 100 e 500 mil habitantes) dos 1487 possuem 23,4% da população. 
  • 299 municípios (entre 50 e 100 mil habitantes) dos 1487 possuem 12,2% da população. 
  • 963 municípios (entre 20 e 50 mil habitantes) dos 1487 possuem 17,0% da população.


Isto é uma relação não linear entre população e número de cidades. Como o Brasil possui  5561 municípios (estes dados são de 2000), então é necessário uma amostragem para se fazer uma pesquisa.

Em um próximo post vamos ver exatamente como fazer isto...

quarta-feira, 15 de setembro de 2010

Pesquisas e Equívocos 5

Vamos ver então o desempenho geral das pesquisas em 2006?

Primeiro o resultado do primeiro turno:

1.
Lula - PT 
46.662.36548,61
2.
Geraldo Alckmin - PSDB 
39.968.36941,64
3.
Heloísa Helena - PSOL
6.575.39306,85
4.
Cristovam Buarque - PDT
2.538.84402,64
5.
Ana Maria Rangel - PRP
126.40400,13
6.
José Maria Eymael - PSDC
63.29400,07
7.
Luciano Bivar - PSL
62.06400,06
8.
Rui Costa Pimenta - PCO
000,00
Agora vamos as pesquisas (votos válidos):
CNI/Ibope
  • Lula - 56%
  • Alckmin - 32%
  • Heloísa Helena - 10%
  • Cristovam Buarque - 2%
Globo/Ibope
  • Lula - 51%
  • Alckmin - 38%
  • Heloísa Helena - 9%
  • Cristovam Buarque - 2%
Vox-Populi
  • Lula - 58%
  • Alckmin - 29%
  • Heloísa Helena - 11%
  • Cristovam Buarque - 2%
Datafolha
  • Lula - 51%
  • Alckmin - 39%
  • Heloísa Helena - 9%
  • Cristovam Buarque - 2%
CNT/Sensus
  • Lula - 60%
  • Alckmin - 32%
  • Heloísa Helena - 7%
  • Cristovam Buarque - 2%
Agora vamos ao resultado do segundo turno
  • Lula - 60,83%
  • Alckmin - 39,17%
Agora vamos as pesquisas:
  • Globo/Ibope
  • Lula - 62%
  • Alckmin - 38%
Datafolha
  • Lula - 61%
  • Alckmin - 39%
Portanto, o que vemos é uma discrepância no primeiro turno que pode ser atribuída a problemas na metodologia (não contar todos os saquinhos).

Mas em um post futuro eu vou mostrar uma forma de compensar o fato de nem todos os saquinhos estarem sendo contados. Isso através de um aumento na margem de erro, considerando uma amostragem de saquinhos.

terça-feira, 14 de setembro de 2010

Pesquisas e Equívocos 4

Realmente parece que o fator de esquecer o número de saquinhos tem preponderância.

Na última eleição de 2006, temos os resultados de pesquisa e apuração para o primeiro turno:

Lula:
  • Pesquisa Sul - 35% e Apuração Sul - 34,88% - diferença -0,22%
  • Pesquisa Sudeste - 44% e Apuração Sudeste - 43,28% - diferença -0,72%
  • Pesquisa Nordeste - 72% e Apuração Nordeste - 66,78% - diferença -5,22%
Alckmin:
  • Pesquisa Sul - 54% e Apuração Sul - 54,93% - diferença +0,93%
  • Pesquisa Sudeste - 41% e Apuração Sudeste - 45,22% - diferença +4,22%
  • Pesquisa Nordeste - 23% e Apuração Nordeste - 26,15% - diferença +3,15%
Heloísa Helena:
  • Pesquisa Sul - 8% e Apuração Sul - 6,36% - diferença -1,64%
  • Pesquisa Sudeste - 12% e Apuração Sudeste - 8,67% - diferença -3,33%
  • Pesquisa Nordeste - 5% e Apuração Nordeste - 4,44% - diferença -0,56%
Cristovam Buarque
  • Pesquisa Sul - 3% e Apuração Sul - 3,57% - diferença +0,57%
  • Pesquisa Sudeste - 3% e Apuração Sudeste - 2,59% - diferença -0,41%
  • Pesquisa Nordeste - 1% e Apuração Nordeste - 2,33% - diferença +1,33%
Então temos situações aonde o erro é bem maior do que 2,2% como esperado pela pesquisa.

Pesquisas e Equívocos 3

Muitas pessoas acham que uma pesquisa é um "retrato" da vontade eleitoral do país.

Bem, isto não é inteiramente verdade. A analogia do saco com moedas é muito boa para representar uma cidade ou um agrupamento de pessoas. Mas na medida que há diversos destes agrupamentos, então algumas diferenças com o modelo de um saco de moedas começam a aparecer.

Neste caso, o melhor é um modelo com múltiplos sacos de moedas. Ainda assim, a coisa é complicada. Há cidades, vilas e estados a serem levados em considerações. Aí, o melhor modelo é o de múltiplos sacos de moedas.

O que se está interessado neste caso é estimar a proporção entre moedas de dois tipos no total de sacos. Como os sacos terão tamanhos diferentes, e portanto número de moedas diferentes, esta particularidade pode ser levada em conta considerando pesos diferentes para cada um dos sacos. Assim, os sacos maiores ficam com maior peso e os menores com menor peso.

Cada um dos sacos tem uma proporção diferente. No final o que desejamos é a proporção total - ou seja do conjunto total de moedas em todos os sacos.

Para simplificar, vamos considerar 2 sacos apenas. O primeiro tem uma proporção pa (para moedas do tipo 1) e o segundo tem uma proporção pb (para moedas do tipo 1). Ao mesmo tempo, o saco A tem Na moedas no total e o saco B tem Nb moedas no total. O número total de moedas é Na+Nb.

Assim, o número total de moedas do tipo 1 será:
N1=pa*Na+pb*Nb

E o número total de moedas do tipo 2 será:
N2=(1-pa)*Na+(1-pb)*Nb = Na+Nb-(pa*Na+pb*Nb)= Na+Nb - N1

Se dividirmos estes valores pelo número total de moedas teremos:
p1=N1/(Na+Nb)=pa*Na/(Na+Nb)+pb*Nb/(Na+Nb)

p2= 1-N1/(Na+Nb) = 1-p1

Esta tudo muito legal, mas e quando temos apenas uma estimativa dos valores de pa e pb?

Neste caso teremos:
pa'-da

Assim teremos:
(pa'-da)*Na<(pa'+da)*Na

(pb'-db)*Nb<(pb'+db)*Nb

Podemos somar os dois (todos são positivos) e teremos:


(pa'-da)*Na+(pb'-db)*Nb<(pa'+da)*Na+(pb'+db)*Nb

Podemos chamar de N1' =pa'*Na+pb'*Nb e N1/(Na+Nb) = p1'

Então teríamos:

N1'-(da*Na+db*Nb)

Dividindo pelo número total de moedas teríamos:

p1'-(da*Na+db*Nb)/(Na+Nb)

Assim, a incerteza é: (da*Na+db*Nb)/(Na+Nb).

Chamando: Na/(Na+Nb) = psa e Nb/(Na+Nb) = psb = 1-psa

Temos que a incerteza é:

d=psa*da+(1-psa)*db = psa*da+psb*db = psa*(da-db) +db

Repare que se da for igual a db, então a incerteza é db. Isto na realidade não é estranho. Mas soa esquisito...

Porque?

Vamos supor que tivéssemos juntado os dois sacos em um só e tirado de lá. Certamente, se eu tiro Nx do saco eu tenho uma incerteza dx. Mas para termos a mesma incerteza em cada saco eu deveria tirar Nx do saco 1 e Nx do saco 2. Ora, eu tirei então um total de 2* Nx moedas. Então certamente se tudo estivesse em apenas 1 saco, eu precisaria de menos moedas retiradas para ter o mesmo grau de confiança.

Mas seguimos em frente. No caso de uma eleição em um país como Brasil a coisa fica mais complicada ainda. A razão é que temos uma dispersão populacional. Em outras palavras, ao realizarmos nossas amostras somente nas cidades, estamos cometendo um erro.

Que erro? O erro é que não estamos considerando todos os saquinhos de moedas, apenas os maiores. Isto pode ser uma aproximação boa ou má, dependendo das proporções envolvidas. Um exemplo de onde isto pode dar errado é o caso da região centro oeste.

As 10 maiores cidades constituem cerca de 50% da população. O restante está pulverizado entre cidades substancialmente menores. O equivalente a isto é ao invés de realizar a amostragem nos dois saquinhos, realizar apenas em 1.

Qual será o erro? Agora não temos nenhuma informação sobre o saco b, então:


(pa'-da)*Na<(pa'+da)*Na
0

Ou seja tudo que podemos dizer é que <0<1

Somando temos
(pa'-da)*Na<(pa'+da)*Na+Nb

ou:
(pa'-da)*psa<(pa'+da)*psa+psb

Note que o tamanho do que foi deixado de fora (psb) irá determinar em última análise o erro. E este erro é difícil de consertar...

Uma conseqüência lógica desta teoria é em regiões mais homogêneas, a pesquisa deve funcionar melhor.

Mas vamos entrar neste detalhes em um futuro post

quarta-feira, 8 de setembro de 2010

Anatomia de um Spin

Hoje tivemos o privilégio de ter um daqueles momentos que definem a forma como as pessoas vêem o mundo.

Vamos primeiro aos fatos: em uma coluna do Atlantic Monthly, o jornalista Jeffrey Goldberg descreveu um dos seus encontros e conseqüentes entrevistas com Fidel Castro:

"But during the generally lighthearted conversation (we had just spent three hours talking about Iran and the Middle East), I asked him if he believed the Cuban model was still something worth exporting.

"The Cuban model doesn't even work for us anymore," he said.

This struck me as the mother of all Emily Litella moments. Did the leader of the Revolution just say, in essence, "Never mind"?

I asked Julia to interpret this stunning statement for me. She said, "He wasn't rejecting the ideas of the Revolution. I took it to be an acknowledgment that under 'the Cuban model' the state has much too big a role in the economic life of the country."
Julia pointed out that one effect of such a sentiment might be to create space for his brother, Raul, who is now president, to enact the necessary reforms in the face of what will surely be push-back from orthodox communists within the Party and the bureaucracy.  Raul Castro is already loosening the state's hold on the economy."

Traduzindo, Fidel falou que o modelo de Cuba precisava ser revisto. E isto foi interpretado como uma concordância com as mudanças que estão sendo realizadas pelo seu irmão.

Ah... Mas aí começa o SPIN....

O site da CNN publicou:

"(CNN) -- Fidel Castro told a visiting American journalist that the "Cuban model" no longer works, an apparent admission of failings in the communist economic model introduced by his revolution more than 50 years ago.


"The Cuban model doesn't even work for us anymore," Castro told Jeffrey Goldberg of The Atlantic in an interview last week. Goldberg published parts of the exchange on a blog Tuesday and Wednesday.
Castro's younger brother and successor, President Raul Castro, has said as much in numerous speeches since taking the reins of power in 2006."

Já o UOL foi mais um pouco mais fiel ao texto original:

"Fidel Castro disse que o modelo econômico de Cuba não funciona mais, escreveu um jornalista dos EUA na quarta-feira, após realizar entrevistas com o ex-presidente cubano na semana passada.


Jeffrey Goldberg, articulista da revista Atlantic Monthly, contou num blog que perguntou a Fidel, de 84 anos, se ainda vale apenas tentar exportar o modelo comunista cubano para outros países. "O modelo cubano não funciona mais nem para nós", teria respondido Fidel.
O comentário parece refletir a concordância de Fidel - já manifestada numa coluna em abril na imprensa estatal cubana - com as modestas reformas econômicas que vêm sendo promovidas por seu irmão caçula Raúl, atual presidente de Cuba.
Goldberg disse que Julia Sweig, especialista em Cuba na entidade norte-americana Conselho de Relações Exteriores, que o acompanhou a Havana, acredita que as palavras de Fidel reflitam uma admissão de que "o Estado tem um papel grande demais na vida econômica do país"."

Mas o campeão do Spin foi o site Opera Mundi:

"Em entrevista, Fidel aprova medidas de Raúl para reduzir o papel do Estado na economia cubana
A revista norte-americana The Atlantic publicou nesta quarta-feira (8/9) uma entrevista com o ex-presidente cubano, Fidel Castro. Questionado sobre temas polêmicos, o cubano falou sobre o programa nuclear do Irã, os conflitos no Oriente Médio e a relação com os Estados Unidos.


Sobre a ilha, Fidel disse que “o modelo cubano já não funciona mais nem para os próprios cubanos”. Sem rejeitar as ideias da Revolução, o ex-presidente afirmou que a economia cubana precisa ser estimulada, bem como vem feito seu irmão e atual presidente da ilha, Raúl Castro.
O jornalista Jeffrey Goldberg, que conduziu a entrevista com Fidel, consultou Julia Sweig, especialista do Conselho de Relações Exteriores, em Washington, que considerou as afirmações do cubano como o reconhecimento do líder de que o Estado cubano tem um grande papel na vida econômica do país. "

Isto, meus caros é Spin desavergonhado mesmo... Da CNN e do Ópera Mundi!

terça-feira, 7 de setembro de 2010

Pesquisas e Equívocos 2

Ao invés de candidatos vamos pensar em moedas em uma caixa. Como descobrir a proporção entre duas moedas diferentes em uma caixa?

Vamos supor que tenhamos 2 tipos de moedas dentro de uma caixa. Qual é a proporção entre as duas moedas? Há 40% de um tipo e 60% de outro? Ou é diferente?

Normalmente a forma de ter 100% de certeza é contar cada uma das moedas de dentro da caixa.

Mas e se nos satisfizermos com menos de 100% de certeza (digamos 90%), então quantas moedas teríamos de contar? A primeira vista 90% do total - mas isto é verdade?

Consideremos outro caso: cada moeda que tiramos temos de repor na caixa! Então como estimar a proporção?

Este problema é equivalente ao de estimar a proporção entre dois tipos de moedas em uma caixa com um número infinito de moedas. Repare que mesmo que não possamos contar todas as moedas, pois o número é infinito, a proporção entre os dois tipos é claramente definida.

Então como resolver o problema?

Pode argumentar: para que resolver o problema então? "Ele não parece muito realista!". Mas ao contrário disto ele tem raízes bem reais. Este problema é o equivalente ao de descobrir a proporção de votantes entre dois candidatos em uma população.

Muito bem, e como resolve-lo? Como o número de moedas é infinito e estou interessado na proporção entre as moedas, proponho a seguinte situação:

Retiro M moedas, destas M moedas N serão de um tipo de moeda e M-N serão de outro tipo. Assim fazendo a proporção

Moeda do tipo 1: N/M = pa
Moeda do tipo 2: (M-N)/M=1-N/M=1-pa

Então a questão é quantas moedas devo tirar para que a proporção pa esteja razoavelmente próxima da proporção real?

Bem, primeiro temos de definir o que é razoavelmente próxima. Uma forma de fazer isto é estudando a probabilidade de se tirar uma moeda do tipo 1 ou do tipo 2. Isto pode ser feito através das repetições de Bernoulli.

Temos que o processo de retirar moedas para ver se são do tipo 1 ou 2 possui distribuição binomial
 f(k;n,p) = \Pr(K = k) = {n\choose k}p^k(1-p)^{n-k}
O valor esperado da distribuição é dado por:

    \operatorname{E}[X] = np
Enquanto a variância é dada por:

    \operatorname{Var}[X] = np(1 - p).
Isto quer dizer que o em n retiradas, a proporção terá desvio:
s_p = \sqrt{ \frac {p \, (1-p) } {n} }
Bem, o que isto quer dizer?

Temos aqui a seguinte situação, ao tomarmos as repetições associamos as variáveis 1 para moeda 1 e 0 para moeda 2. O valor esperado das repetições é igual ao número de vezes que a moeda 1 aparece. Dividindo este número pelo número total de repetições teremos a proporção pa.

Bem, a coisa é um pouco mais complicada porque temos um processo aleatório. Então teremos um erro associado a ele. Quanto é este erro? Ele depende do valor de p, mas podemos ver que ele é máximo quando p=1/2. Portanto podemos partir deste erro máximo para estimarmos a proporção real.

No caso temos de fazer a aproximação baseada na normal. Vamos supor que 1000 moedas tenham sido retiradas e destas 1000 moedas, cerca de 867 tenham sido moedas do tipo 1.

Então teremos pa=0.867

Agora vamos ver o erro para diferentes intervalos de confiança:

  • Para 90% de confiança teremos:  0.867-0.0260 < p < 0.867+0.0260, ou seja 0.841 < p < 0.893
  • Para 95% de confiança teremos:  0.836 < p < 0.898
  • Para 99% de confiança teremos: 0.826 < p < 0.908
  • Para 99.9% de confiança teremos: 0.815 < p < 0.919

Vamos aos casos dos candidatos?

Na última pesquisa que tive acesso, tivemos 10948 amostras. Destas 5165 votariam em Dilma, 3218 em Serra, 1098 em Marina, 52 em Plínio, 48 em Zé Maria e 499 em Branco Nulo e Nenhum

Então como ficamos.

Vamos para os 90% primeiro

  • Dilma: 46.39% < p < 47.97%
  • Serra: 28.61% < p < 30.18%
  • Marina: 9.24% < p < 10.82%
  • Plínio: 0 < p < 1.26%
  • Zé Maria: 0 < p < 1.22%
  • Brancos, Nulos e Nenhum: 3.77% < p < 5.35%

Agora vamos para 95%

  • Dilma: 46.24%< p <48.11%
  • Serra: 28.46%< p <30.33%
  • Marina: 9.09%< p <10.97%
  • Plínio: 0< p <1.41%
  • Zé Maria: 0< p <1.38%
  • Brancos, Nulos e Nenhum: 3.62%< p <5.49%

Agora 99%:
  • Dilma: 45.95%< p <48.41%
  • Serra: 28.16%< p <30.62%
  • Marina: 8.80%< p <11.26%
  • Plínio: 0< p <1.71%
  • Zé Maria: 0< p <1.67%
  • Brancos, Nulos e Nenhum: 3.33%< p <5.79%

E finalmente para 99.9%
  • Dilma: 45.61%< p <48.75%
  • Serra: 27.82%< p <30.97%
  • Marina: 8.46%< p <11.60%
  • Plínio: 0< p <2.05%
  • Zé Maria: 0< p <2.01%
  • Brancos, Nulos e Nenhum: 2.99%< p <6.13%

Então temos aí como estamos hoje a luz da teoria de Bernoulli

Pesquisas e Equívocos 1

Depois de uma breve leitura ao longo da Comunidade da UnB no Orkut, vi que ainda existem muitas dúvidas sobre a eficácia de pesquisas.

Então vamos a alguns exemplos de como uma pesquisa pode dar boas aproximações em grandes populações.

Inicialmente considere um chapéu. Nele estão papéis dobrados com nomes de candidatos 1 e 2. Como podemos estimar a proporção entre os papéis com os nomes dos candidatos?

Podemos pegar alguns papéis e a partir destes estimar a proporção....

Mas para simplificar vamos dizer que o candidato 1 tem uma proporção de p papéis e o 2 de 1-p papéis.

Se eu tirasse 1 vez poderia ter:

1 papel do candidato 1 ou 1 papel do candidato 2

Para simplificar vamos dizer: [C1,C2]

Se eu tirasse 2 vezes poderia ter:

[C1C1,C1C2,C2C1,C2C2]

Se tirasse 3 vezes poderia ter:

[C1C1C1, C1C1C2, C1C2C1, C1C2C2, C2C1C1,C2C1C2,C2C2C1,C2C2C2]

Ou seja, no fim teríamos um binômio do tipo (p+(1-p))^n  = 1

Como temos esta representação, teríamos em termos de probabilidades:

1 vez [p,1-p]
2 vezes [p^2,2p*(1-p),(1-p)^2]
3 vezes [p^3,3*p^2*(1-p),3*p*(1-p)^2,(1-p)^3]

Vamos botar números dizendo que 90% dos papéis tem o candidato 1 e 10%, o candidato 2. Assim a nossa conta fica:
1 vez [0.9,0.1]
2 vezes [0.81, 0.18, 0.01]
3 vezes [0.729, 0.243,0.027,0.001]

Note que de 3 jogadas, isto quer dizer que a chance de aparecer o candidato 1 2 ou mais vezes é de 0.729+0.243=0.972

Mas vamos para 10 vezes
- a chance de aparecer o candidato 1 8 ou mais vezes é de 0.93

Vamos para 20 então:

- a chance de aparecer o candidato 1 16 ou mais vezes é de 0.96

Vamos para 30 então:
- a chance de aparecer o candidato 1 25 ou mais vezes é de 0.93

Ao dividirmos o número de vezes que o candidato aparece temos o seguinte quadro

  • Para 10 vezes, o candidato 1 aparecerá 80% das vezes com uma confiança de 93%
  • Para 20 vezes, o candidato 1 aparecerá 80% das vezes com confiança de 96%
  • Para 30 vezes, o candidato 1 aparecerá 83% das vezes com confiança de 93%
O fato é que a medida que formos aumentando o número de testes, o percentual medido irá se aproximar do valor real p.

Para os que não acredito, eu incluo este programa em MATLAB
% Exemplo de amostragem em uma população
clear
% N tamanho da população
N=1000000;
% N1 é o número de amostras retiradas aleatoriamente da população
N1=1000;
% p é o percentual que vota no candidato X (não sei e é aleatório)
p=100*rand;
% a é a população de votantes
a=round(2*p*(rand(N,1)));
% vetor da amostra
g=round(999*rand(N1,1)+1);
% s é o vetor de amostras
s=zeros(N1,1);
for k=1:N1;
        % Processo de amostragem
    s(k)=a(g(k));
end;
% mostra o tamanho da amostra, o percentual na amostra completa e o percentual da estimativa
[mean(a) mean(s)]

Ele funciona razoavelmente bem.

Evolução dos Candidatos - Comparativo

Observando os dois resultados vemos que a evolução de Dilma e Serra passam por pontos de inflexão entre a segunda e quarta pesquisas. Daí para frente temos Serra em queda e Dilma em ascensão.

A minha explicação é que a identificação de Lula com Dilma passou a vigorar com maior intensidade nesta região. Mas é bem claro que Dilma vinha de uma trajetória ascendente

Evolução dos Candidatos - Dilma

Já no caso de Dilma surge uma tendência aparentemente constante de crescimento, mesmo no início das pesquisas.

segunda-feira, 6 de setembro de 2010

Evolução dos Candidatos - José Serra

Resolvi utilizar a "técnica muito interessante" para analisar o desempenho dos dois candidatos. Uma das vantagens desta técnica é que mostra mais ou menos quando as coisas se acertaram ou desandaram.

Como dá para ver, a coisa desandou entre a pesquisa 3 e 4 (9-12 de agosto e 20 de agosto

Alimentos Orgânicos - Moda?

Saiu no blog Nutritips:
            Desde a década de 50 começaram a surgir vários estudos abordando a questão dos alimentos orgânicos. Recente artigo publicado em uma importante revista científica apresentou uma revisão de tudo que havia sido publicado até o momento abordando este assunto. Impressionantemente mais 95.000 artigos foram levantados na literatura científica de 1958 até março de 2010, em relação aos orgânicos e seus aspectos nutricionais. Quando se fala em alimentos orgânicos, diversas questões aparecem como: Eles são mais nutritivos? São mais saudáveis do que os alimentos comuns? São melhores para o meio ambiente? Os pesticidas utilizados dentro das quantidades permitidas fazem mal à saúde?

Muitos estudos, realizados com animais e em humanos, têm sido conduzidos com o objetivo de responder algumas destas questões e, no entanto, pouco se concluiu até hoje. Umas das razões para isto é que muito estudos são conduzidos com fraco desenho experimental, por exemplo, em alguns casos não é possível afirmar que o produto analisado era realmente orgânico, pois apesar do cultivo ser adequado, o solo da região encontrava-se já muito contaminado. Outra questão importante diz respeito aos estudos conduzidos em animais que em alguns casos são irreprodutíveis em humanos.
Muitas pessoas compram produtos orgânicos porque entendem que estes produtos são mais saudáveis, no entanto, o que a literatura tem demonstrado é que não há relação entre o consumo de orgânicos e melhora da condição de saúde. De fato, poucos são os artigos que mostraram aumento de algum nutriente, principalmente antioxidantes, nos produtos orgânicos quando comparados com o cultivo normal. Alguns trabalhos encontram aumento de vitamina C, ferro e magnésio em produtos de origem orgânica comparados aos mesmos produtos cultivados de forma tradicional. No entanto, quando indivíduos consumiam estes alimentos nenhum benefício extra foi encontrado. Muitos autores acreditam que uma quantidade um pouco maior de antioxidante em alguns alimentos não é suficiente para trazer benefícios ao ser humano. Mesmo porque a variedade de frutas e vegetais que são consumidos normalmente é suficiente para promover a ingestão adequada de antioxidantes.
Outro aspecto que vem sendo estudado é se o consumo de alimentos de cultivo tradicional poderia trazer algum malefício devido ao uso de pesticidas e outros produtos químicos. O que a literatura mostra é que boa parte destes resíduos são eliminados na preparação dos alimentos. A cocção e higienização, por exemplo, podem levar a uma redução significativa nos níveis de resíduos de pesticidas em alimentos. Procedimentos comerciais de beneficiamento de grãos, como arroz, café e trigo, podem levar a uma redução de até 95% de alguns pesticidas. Em outros casos como no mamão papaia a maior parte dos resíduos encontra-se na casca, que não é consumida in natura. No caso do tomate por exemplo a discussão é ainda maior, pois boa parte dos resíduos encontra-se na casca, onde também está a maior parte do licopeno, importante substância encontrada no tomate. Neste caso, não há consenso se o melhor seria retirar, ou consumir a casca, segundo alguns autores a quantidade de resíduos a serem consumidos ao ingerir a casca seria muito baixa, enquanto a retirada da mesma levaria a uma redução significativa do consumo de licopeno, o que seria mais prejudicial do que o pouco resíduo a ser consumido.
O que se tem comprovadamente até o momento não justifica o consumo de orgânicos pensando em melhorar a saúde. Este consumo pode ser feito por opção, ou filosofia, mas manter o consumo de frutas e vegetais produzidos tradicionalmente até o momento não é prejudicial à saúde.
Este talvez seja mais um daqueles casos aonde um movimento criado por suposições ou mesmo ilusões de superioridade leva a toda uma modificação na vida das pessoas.


Não é o primeiro e nem será o último caso. Na minha área de atuação temos o "grande temor" dos telefones celulares, da radiação eletromagnética e até do controle da mente por ondas eletromagnéticas (sério - tem gente que acredita).


Portanto, muito cuidado ao entrar "na moda"

domingo, 5 de setembro de 2010

Avaliação de Lula - Onde você se encontra

Há poucos dias atrás foi divulgada a avaliação do presidente Lula. Esta avaliação traz muito mais informações do que o simples, bom, regular & péssimo.

Ela também traz o equivalente a uma distribuição. E com isto podemos fazer algumas brincadeiras interessantes.

Nota %l Número %l Média Variância Distorção Curtosis
0 2 218,96 0,02 0,00 1,26 -10,05 79,89
1 1 109,48 0,01 0,01 0,48 -5,01 23,33
2 1 109,48 0,01 0,02 0,35 -4,99 12,53
3 1 109,48 0,01 0,03 0,25 -4,97 6,00
4 2 218,96 0,02 0,08 0,31 -9,75 4,87
5 6 656,88 0,06 0,30 0,52 -26,86 4,54
6 6 656,88 0,06 0,36 0,23 -26,23 0,87
7 13 1423,24 0,13 0,91 0,12 -45,36 0,11
8 21 2299,08 0,21 1,68 0,00 -51,76 0,00
9 14 1532,72 0,14 1,26 0,15 -41,92 0,17
10 33 3612,84 0,33 3,30 1,39 -33,18 5,83
100 10948 1,00 7,95 5,07 -260,08 138,14
2,25 -22,80 5,38

Eu não sei se a formatação irá aparecer, mas o caso é o seguinte:

Nota média de Lula: 7.95
Desvio Padrão: 2.25
Distorção: -22.80 (quão torta está a curva - no caso para o lado positivo da avaliação)
Excesso de Curtosis: 2.38 (mede a quantidade de gente nos locais mais distantes da média)

Com estes dados, você pode a priori se colocar dentro da distribuição. Por exemplo
  • Se minha avaliação de Lula é 7.95 então minha dispersão normalizada é zero, minha distorção relativa é zero & minha curtosis relativa é zero
  • Se minha avaliação de Lula é 5.00 então minha dispersão normalizada é 1.72, minha distorção relativa é -2.25 & minha curtosis relativa é -0.05
  • Se minha avaliação de Lula é 10.00 então minha dispersão normalizada é 0.83, minha distorção relativa é 0.76 & minha curtosis relativa é -2.31
  • Se minha avaliação de Lula é 2.00 então minha dispersão normalizada é 6.99, minha distorção relativa é -18.47 & minha curtosis relativa é 45.81
O que significa isto?

Quanto maior a dispersão, mais longe minha avaliação está do valor médio. Quando a minha distorção é positiva minha avaliação tende a ser mais positiva que a média. E a curtosis indica se tem muita gente que pensa como eu... (basicamente quanto maior a curtosis, mais longe eu estou da distribuição normal)

E você? Que nota dá para Lula? Vale a pena ver a tabela

Nota Erro Desvio Distorção Curtosis
0 -7,95 12,47 -44,02 152,40
1 -6,95 9,53 -29,41 87,77
2 -5,95 6,98 -18,45 45,76
3 -4,95 4,83 -10,62 20,36
4 -3,95 3,08 -5,40 6,47
5 -2,95 1,72 -2,25 -0,05
6 -1,95 0,75 -0,65 -2,44
7 -0,95 0,18 -0,08 -2,97
8 0,05 0,00 0,00 -3,00
9 1,05 0,22 0,10 -2,95
10 2,05 0,83 0,76 -2,31

sábado, 4 de setembro de 2010

Um problema Interessante - Explicando

A questão que levantei no último post pode ser sumarizada da seguinte forma:
  • Ao termos um conjunto de dados numéricos, do qual desejamos verificar a tendência dos mesmos usamos geralmente técnicas de regressão  linear. No fundo, a forma mais utilizada é assumir uma aproximação linear, ou seja uma reta.
O problema de aproximar um conjunto de dados por uma reta é que a mesma apresenta uma inclinação constante ao longo do conjunto. E claro, inclinação constante implica em não inclusão de mudanças visíveis no conjunto.

O que pode ser feito é utilizar uma curva mais sofisticada para representar os dados. Nesta situação, o uso de aproximações polinomiais pode eventualmente levar a instabilidades ou resultados espúrios. Assim, busca-se o uso de curvas "naturais" ao processo (tais como a família de curvas logísticas).

Mas aqui eu proponho uma abordagem diferente:
  • Vamos usar um conjunto de 2 ou mais retas para fazer a aproximação. A escolha da inclinação e constante destas retas pode ser realizada de forma a minimizar a variância do resíduo (diferença entre os pontos medidos e os pontos obtidos na reta).
Um exemplo: Vejamos a evolução da população brasileira (em milhões)

y=[178.741 181.106 183.383 185.564 187.642 189.613]

Se usarmos uma reta única temos:

y=2.1757*X +  178.9023 (para todos os pontos - dispersão de 302 mil pessoas)

Mas podemos utilizar não apenas 1, mas duas retas. As retas que minimizam o erro são:

y=2.3210*X +  178.7557 (para os primeiros 4 pontos)
y=2.0245*X +  179.5083 (para os últimos 4 pontos)

O erro global das duas retas é de 55.6 mil pessoas.

O erro  é de 0.0556 (em milhões de pessoas), bem melhor do que o do caso linear com uma única reta (erro de 0.302 - também em milhões de pessoas).

Além disto notamos uma mudança na derivada entre o terceiro e quarto pontos ( entre 183.383 milhões e 185.564 milhões).

Isto foi usado para uma estimativa populacional, mas pode muito bem ser usado para outros conjuntos de dados