sábado, 30 de março de 2013

Estatísticas do Trânsito Revisitadas

Em vista das absurdas variações das estatísticas do trânsito e do natural aproveitamento de grupos a respeito destas variações, eu resolvi colocar as coisas em pratos limpos fazendo uma estatística mensal e anual da situação de mortes no trânsito.

Ao contrário do que se imagina, houve sim uma diminuição no número de mortes (de 1996 até 1998) que foram resultados não apenas de fatores aleatórios e de lá para cá, o número permaneceu praticamente constante (com média em torno de 405 e desvio de 28). Naturalmente de 1998 para cá, tanto o número de carros, quanto o número de habitantes aumentou, e isto quer dizer que, dado que o número de acidentes por ano pouco variou, que o número de acidentes por habitantes e o número de acidentes por veículos diminuiu - talvez menos por mérito do órgão de trânsito do que pela natureza da demografia.

Então vamos aos dados. Primeiro algumas distinções, o número de acidentes é diferente do número de vítimas - vida de regra isto é bem natural (o número de vítimas por acidente é cerca de 1.1). Vamos aos dados:
  • Janeiro: a média de acidentes no trânsito com morte é de 28.9, com desvio padrão de 6.1 e distorção de -0.2
  • Fevereiro: a média de acidentes no trânsito com morte é de 28.7, com desvio padrão de 5 e distorção de 0.2
  • Março: a média de acidentes no trânsito com morte é de 33.5, com desvio padrão de 6.1 e distorção de -1.0
  • Abril: a média de acidentes no trânsito com morte é de 34.5, com desvio padrão de 7 e distorção de 0.2
  • Maio: a média de acidentes no trânsito com morte é de 36.5, com desvio padrão de 3.9 e distorção de 0.3
  • Junho: a média de acidentes no trânsito com morte é de 36.3, com desvio padrão de 6.1 e distorção de -0.5
  • Julho: a média de acidentes no trânsito com morte é de 34.5, com desvio padrão de 5.5 e distorção de 0.9
  • Agosto: a média de acidentes no trânsito com morte é de 37.7, com desvio padrão de 9.3 e distorção de -0.7
  • Setembro: a média de acidentes no trânsito com morte é de 34.3, com desvio padrão de 7.1 e distorção de 0.9
  • Outubro: a média de acidentes no trânsito com morte é de 34.3, com desvio padrão de 4 e distorção de 0
  • Novembro: a média de acidentes no trânsito com morte é de 31.4, com desvio padrão de 4.5 e distorção de 0.1
  • Dezembro: a média de acidentes no trânsito com morte é de 34.7, com desvio padrão de 9.4 e distorção de 2.2
Os resultados considerando todos os meses como partes da amostra: a média foi de 33.8, com desvio padrão de 6.8 e distorção de 0.5.
Todas as médias estão em um desvio padrão do resultado da amostra. Os resultados da distribuição da UT com dois pontos são:
  • x1=28.5, p1=0.621
  • x2=42.5, p2=0.379
O que isto nos díz? Bom, agora podemos fazer o cálculo para distribuição de 12 meses. O resultado é:
  • Probabilidade: 0.33% Valor 341.9
  • Probabilidade: 2.41% valor 355,9
  • Probabilidade: 8.08% valor 369,9
  • Probabilidade: 16.45% valor 383.9
  • Probabilidade: 22.59% valor 397
  • Probabilidade: 22.06% valor 412
  • Probabilidade: 15.71% valor 426
  • Probabilidade: 8.21% valor 440
  • Probabilidade: 3.13% valor 454
  • Probabilidade: 0.85% valor 468
O restante é muito pequeno (menor de 0.5%). A média resulta em 405.6 (muito próximo da média anual calculada de 405.3). O desvio é de 23.6, que é substancialmente próximo ao desvio de 27.7 calculado considerando as médias anuais. Agora podemos fazer algumas considerações mais razoáveis:
  1. Há uma chance de 96% do número de acidentes com morte ficar entre 370 e 454 (Ou seja, com uma frequência de 1 vez a cada 5 anos).
  2. Há uma chance de 50% que o número de acidentes com morte fique abaixo de 405. (Ou seja, com uma frequência de 1 vez a cada 2 anos)
  3. Há uma chance de 10% que o número de acidentes com morte fique abaixo de 369. (Ou seja, com uma frequência de 1 vez a cada 10 anos)
  4. Há uma chance de 5% que o número de acidentes com morte fique acima de 440 (mas abaixo de 510). Ou seja, com uma frequência de 1 vez a cada 20 anos.
  5. Há uma chance de 27% que o número de acidentes com morte fique abaixo de 384 (ou seja uma frequência de 1 vez a cada 3 anos).
Como isso se compara com os 15 anos de dados que temos?
  1. 3 anos tivemos número de acidentes com morte abaixo de 370 ou acima de 454
  2. 7 anos tivemos número de acidentes com morte abaixo de 405
  3. 1 ano tivemos número de acidentes com morte abaixo de 369
  4. 1 ano tivemos número de acidentes maior que 440
  5. 3 anos tivemos número de acidentes menor que 384 (mas 5 abaixo de 390)
Então este é um modelo razoavelmente bom para predição anual. E com ele podemos dizer:
"Tenho 99% de certeza que o número de acidentes com mortes em 2013 será abaixo de 468".
"A diminuição do número de acidentes de 418 em 2011 para 392 em 2012 (variação de 6.2%) pode ser atribuída exclusivamente a chance".

sexta-feira, 29 de março de 2013

Prevendo a Inflação?


Com os dados que já obtivemos do IPCA passado (certos ou não), podemos "brincar" de prever a inflação. Agora temos a inflação de janeiro (0.86%) e fevereiro (0.6%). Com isso podemos estimar as probabilidades da inflação para o ano.

Sem nenhuma informação, temos as seguintes prováveis inflações com respectivas probabilidades:

  •     4.2818   12.8804
  •     5.1651   28.7862
  •     6.0559   29.4862
  •     6.9542   18.3050
  •     7.8602    7.6705
  •     8.7738    2.2857
  •     9.6951    0.4966
  •    10.6243    0.0793
  •    11.5613    0.0092
  •    12.5063    0.0008
  •    13.4592    0.0000
  •    14.4203    0.0000
  •    15.3895    0.0000

O Valor médio disto é exatamente 5.96% (já bem acima da média esperada para o final do ano de 5.7%). Mas com os dados de janeiro, a coisa muda mais ainda de figura. Com estes dados temos:

  •     5.0104   18.1249
  •     5.8999   33.7558
  •     6.7969   28.2900
  •     7.7015   14.0499
  •     8.6138    4.5791
  •     9.5338    1.0234
  •    10.4615    0.1588
  •    11.3972    0.0169
  •    12.3408    0.0012
  •    13.2923    0.0000
  •    14.2520    0.0000

E o valor médio passa a ser de 6.42% ao ano. O que isso quer dizer? Bom, há indícios que a inflação está aumentando. Enquanto no caso anterior havia 89.46% de chance qua a inflação anual fosse menor ou igual a 6.95%, no novo caso temos 80.17% de chance que a inflação anual seja menor ou igual a 6.8%.

quinta-feira, 28 de março de 2013

A PEC da domésticas pode ser mais um Inferno de Boas Intenções?


Foi aprovada recentemente a proposta de emenda à Constituição (PEC) que trata de incluir os empregados domésticos no conjunto dos direitos dos demais trabalhadores regidos pela Consolidação das Leis do Trabalho (CLT).

Esta inclusão é, sem dúvida, um marco na melhoria das condições de trabalhos de todos os trabalhadores domésticos.

E também criará um novo ponto de equilíbrio no emprego doméstico.

Mas há um porém.

Ninguém sabe ao certo a extensão das alterações que este novo ponto de equilíbrio irá desencadear no mercado de trabalho dos empregados domésticos. Haverá certamente um aumento de custos, e isso implicará ou numa retração do mercado, ou em novas formas de realização de tarefas domésticas (possivelmente híbridas com diaristas e os antigos empregadores fazendo o trabalho que antes era dos empregados domésticos).

É certo que em países aonde o emprego doméstico é mais caro, a contratação de empregados domésticos é restrita a uma parcela menor da população, com mais recursos que os demais. Grande parte das tarefas domésticas recai em cada um (cuidar da limpeza, cuidar da alimentação, cuidar de crianças). É apenas a lógica do sistema.

E há, nestes casos, pouco espaço para empregados domésticos. O emprego de limpeza pode ser contratado em serviços mais especializados, tendo pouco espaço para trabalhadores sem especialização.

O universo dos empregados domésticos - predominantemente feminino - consiste de cerca de 6.2 milhões de pessoas. Na estratificação atual do sistema não há muito espaço para todos os empregadores arcarem com um custo que pode chegar a dobrar.

Então há um risco não desprezível que a regulamentação feita para melhorar as condições de trabalho de uma classe leve ao encilhamento da mesma.

Mas isso tudo ainda é especulação - não no sentido de algo positivo ou negativo, mas no sentido do que poderá acontecer. O resultado da lei tanto pode ser uma benção para os trabalhadores domésticos, como um inferno gerado por boas intenção, ou

mais uma "lei que não pegou"...

Cada um pode fazer suas apostas. Da minha parte, na falta de uma certeza maior, vou supor 1/3 de probabilidade para cada um dos eventos possíveis (nada muda - mesma empregabilidade, muda mas para melhor - mesma empregabilidade, muda mas para pior - desemprego total). Nestas condições os 6.2 milhões de empregos passam a ser 4.1 milhões.

Aí fica fácil de ver: caso a empregabilidade se mantenha em 66% (os 4.1 milhões) teremos este resultado médio, caso seja menor teremos que o pior cenário tinha maior probabilidade, caso seja maior teremos que os outros cenários tinham maior probabilidade.

Vamos ver o que vai sair desta caixinha de surpresas...

quarta-feira, 27 de março de 2013

Feliciano e a Democracia

Tristes tempos: todos que se alvoroçam com um pastor na comissão de direitos humanos no congresso e nem se importam com dois réus condenados na comissão de constituição e justiça.
O deputado sob o fogo cerrado em questão.
Não é mentira, mas hipocrisia (gostaria de acreditar que é ignorância, mas já passou desse ponto).
Problema? Qual é o problema?
Enquanto o pastor vem sendo taxado de racista (sendo tecnicamente pardo - pois é filho de pardos), e homofóbico (sendo, bem... deixa para lá), os réus mensaleiros sequer merecem uma linha de texto na imprensa ou nos "blogs progressistas".
Padrasto, o filho e a mãe.
Talvez eu esteja vendo coisas demais...
Sintomático, não? É a democracia seletiva na atualidade: se você não está comigo, então...
Olha a Falácia aí minha gente!

terça-feira, 26 de março de 2013

Bombas Hidráulicas e Equivalentes Elétricos


Nas minhas aventuras na perda de peso, tive de fazer na semana passada um ecocardiograma. Foi uma experiência interessante, bastante tranquila (não invasiva) e informativa. Pelo que pude notar a ecografia se valeu também do efeito doopler para verificar as velocidades do fluxo de sangue através das artérias e veias.
Batendo Palmas - foi como foi descrito e realmente parece mesmo!
Tudo muito interessante e me fez pensar se não haveria um modelo matemático para o funcionamento do coração, afinal já está em uso há muito tempo o coração artificial (que é uma bomba - muito sofisticada, por sinal). E nas minhas porcuras na internet, encontrei o modelo de Windkessel.
Windkessel nas versões mais simples;
E melhor de tudo: com a analogia elétrica pronta.
Behold! O sistema circulatório!
O modelo me fez pensar em como poderíamos usar outra analogia hidráulica - elétrica para modelar um coração (mesmo que de modo simplificado). Primeiro o básico: a carga equivale ao volume, o potencial (tensão) equivale a pressão, a corrente equivale ao fluxo (volumétrico) e a densidade de corrente equivale a velocidade. Um tubo equivale a uma resistência, as câmaras (átrios e ventrículos) correspondem a capacitâncias para terra e a indutância está ligado a inércia do fluido. As válvulas podem ser modeladas como chaves (mais especificamente transistores). E aí temos todos os componente para montar o modelo.

A sequência a ser seguida é:

  1. Corpo -> veia cava -> Átrio direito -> Válvula tricúspide -> Ventrículo direito -> válvula pulmonar -> artéria pulmonar - > pulmões
  2. Pulmões -> veia pulmonar -> Átrio esquedo -> válvula mitral -> ventrículo esquerdo -> válvula aórtica -> aorta -> corpo

A sequência de bombeamento é: válvulas tricúspide e mitral (átrios para ventrículos) e depois válvulas pulmonar e aórtica (ventrículos para artérias). Estou pensando em modelar com os transistores no lugar de diodos e ver como pode funcionar.

domingo, 24 de março de 2013

Plausabilidade e Probabilidade

Um "defeito" muito comum entre todos é a confusão entre plausabilidade e probabilidade.

Só por que algo é plausível, não quer dizer que seja muito provável. Uma forma de se resolver este problema é associar uma probabilidade a cada evento (seja ele plausível ou não). Naturalmente, o truque é acertar as probabilidades de eventos.

Mas certas vezes, mesmo errando a probabilidade há vantagens em se realizar esta associação. A maior das vantagens é que ao se levar o argumento à sua conclusão natural, pode-se ter uma idéia de que se acertou ou não na associação das probabilidades.

Outra forma é quando se estima o número de ocorrências baseado na probabilidade: N*p (onde N é o total de possíveis ocorrências e a p é a probabilidade de uma ocorrência determinada acontecer). Se este número for muito distinto de valores conhecidos, então há um problema na associação de probabilidade.

Um exemplo? Vamos ao telefone celular. Qual é a chance de uma pessoa ter mais de um telefone celular? Pelas estatísticas, temos 263 milhões de celulares no Brasil, o que dá uma média de 1.33 celulares por habitante. Ora, como existem 197 milhões de brasileiros (mais ou menos), então existem duas categorias básicas:
Pessoas que tem celular (Npc)
Pessoas que não tem celular (Nnpc)
Na categoria de pessoas que tem celular, temos pessoas que tem apenas um celular (NCel1)e pessoas que tem mais de um celular (NCel2).

Naturalmente temos as seguintes relações:
Npc+Nnpc=197
Npc=NCel1+NCel2

Não temos a priori como descobrir estes números por si só, mas podemos estimar. Para tanto vamos fazer uma estimativa simplificada considerando que existem 200 milhões de brasileiros e que ele vivem até os 100 anos. Eu diria que crianças até os 5 anos não teriam celulares (é uma suposição, mas é educada). Isto reduz o número total de brasileiros que poderiam ter celulares a 190 milhões. E aí vem um chute maior: eu suponho que 10% desse total não quer, não precisa ou mesmo não tem interesse em ter celular. E aí sobram 171 milhões. No final temos 86% dos brasileiros com celulares (o que dá 14% sem celular).

Nas nossas contas originais temos então 170 milhões como Npc. Agora para determinar os números NCel1 e NCel2.

NCel+NCel2=170

Falta uma equação nessa história. E aí temos de novo que fazer suposição. O total de pessoas com mais de um celular é composto por pessoas que possuem 2 celulares, pessoas que possuem 3 celulares, 4, 5 e assim por diante. O que vou supor é que o Número de pessoas que possui mais de um celular vai diminuindo a metade quanto maior o número de celulares:

  • Pessoas que possuem 2 celulares - N
  • Pessoas que possuem 3 celulares - N/2
  • Pessoas que possuem 4 celulares - N/4
  • Pessoas que possuem 5 celulares - N/8
  • Pessoas que possuem mais de 5 celulares -  N/16

Então podemos dizer que:

NCel2=N+N/2+N/4+N/8+N/16

Isto permite escrever a primeira equação como:

NCel+31/16*N=170

E a segunda equação? A equação do número total de telefones celulares:

NCel+2*N+3*N/2+4*N/4+5*N/8+6*N/16=NCel+11/2*N=263

O resultado?
NCel=120 milhões
NCel2=26 milhões
N=14 milhões

Por fim temos como calcular a chance da pessoa ter mais de dos telefones celulares = 26/197 = 0.132 (ou 13%)

Isto esta certo? Bom qual a percentagem de amigos seus com mais de 1 telefone celular?

sábado, 23 de março de 2013

Substituição

Continuo lendo o livro Thinking Fast and Slow, e venho aprendendo bastante sobre como nós funcionamos.

Um ponto muito interessante levantado no livro é o da substituição. Essencialmente é quando substituímos uma "pergunta difícil" por uma "pergunta fácil", ou uma "pergunta fácil" por uma "pergunta difícil".

Essencialmente, na substituição trocamos uma pergunta por outra sem percebermos. Somos contra o aborto, ou contra uma situação específica sobre o aborto? Somos a favor do aborto, ou a a favor de uma situação específica do aborto?

A questão é justamente substituir esta situação específica dentro do contexto da generalidade. Desta forma nós pensamos que estamos respondendo uma questão quando na realidade estamos respondendo outra.

Vamos a exemplos?

Pergunta original: Você acha que o programa de governo do candidato X é bom?
Pergunta que você responde: Você gosta do candidato X?

Pergunta original: Você é socialista?
Pergunta que você responde: Você gosta de ajudar as pessoas?

Pergunta original: Você é libertário?
Pergunta que você responde: Você gosta que cada um leve sua vida como quer?

Note que a pergunta respondida não é necessariamente a pergunta original, e a resposta original poderia ser até completamente diferente da pergunta "mais simples". Estas são até bem tranquilas, mas dependendo da pessoa a questão respondida pode ser bem menos simpática.

Pergunta original: Você é a favor do aborto?
Pergunta que você responde: Surgiu uma gravidez não planejada, você concorda em abortar o feto?

Pergunta original: Você é a favor das drogas?
Pergunta que você responde: Você quer usar suas drogas sem que ninguém o incomode?

Claro que aqui estou me valendo de esterótipos, ou seja, não é todo mundo que é assim. Mas, há quem seja precisamente dessa forma...

sexta-feira, 22 de março de 2013

Realizabilidade

Agradeço ao leitor do blog que me mandou esta notícia que aparenta ser fantástica.

"Afinados com as tendências da construção verde, cinco designers franceses criaram um projeto ambicioso, o “Soundscraper”, uma torre gigante capaz de captar os ruídos da cidade e transformá-los em eletricidade.
A ideia foi inscrita num concurso de edifícios do futuro promovido pela revista norte-americana eVolo Magazine. Segundo seus criadores, a torre de 100 metros de altura foi projetada para ser instalada próxima a rodovias e estradas com grande fluxo de veículos e onde a poluição sonora atinge seu máximo.
Meio ambiente Tecnologias limpas Energia
A fachada do arranha-céu é evolutiva, ela vibra dependendo da intensidade e direção dos ruídos urbanos. Recoberta por “cílios” com sensores de som, ela pode captar um amplo espectro de frequência, do tráfego de veículos, de obras em andamento e até mesmo de aviões que atravessam o céu.
“O ruído é parte do ambiente urbano da nossa vida diária e é uma das formas de poluição mais prevalentes nas cidades, mas também é uma importante fonte de energia não valorizada ainda”, dizem seus criadores.
Com base em pesquisas,eles afirmam estimam que uma única torre Soundscraper poderia produzir até 150 MW / h, representando 10% do consumo de iluminação urbana de Los Angeles. Ao mesmo tempo, esta energia renovável poderia ajudar a reduzir as emissões de CO2. A criação é assinada pelos designers Julien Bourgeois, Olivier Colliez, Savinien de Pizzol, Cédric Dounval e Romain Grouselle."

Parece bom demais para ser verdade? Bem, provavelmente é bom demais para ser verdade.
Recoberto de Cílios!
Tenho sérias dúvidas sobre o funcionamento deste conceito. E o primeiro problema trata da potência de som. Como a luz, a potência de som decresce com o inverso do quadrado da distância e para gerar algo na faixa de MW precisamos de um motor de foguete.
Sério mesmo: Cílios!
Portanto, para gerar várias centenas de MW, como o conceito propõe, então estamos falando de um local extremamente barulhento.
Um lugar aonde todos os veículos fossem assim.
Perceba, caro leitor, não duvido da idéia de converter som em eletricidade (o telefone faz isso, o microfone também). Eu duvido é da idéia que isso seja "sustentável". Há gente interessada em converter som em eletricidade (por outros motivos) e gente interessada em converter vibrações em eletricidade (com maior campo de aplicação e "sustentabilidade")).

quinta-feira, 21 de março de 2013

A Falácia do Atirador de Elite do Texas


Este é uma daqueles argumentos falaciosos que é base em toda propaganda política. Na realidade ficou até famosa uma frase de um ex-ministro que sumariza a falácia: Eu não tenho escrúpulos. Eu acho que é isso mesmo: o que é bom a gente fatura, o que é ruim a gente esconde".

Todos os governantes tem como tendência exaltar os seus atos positivos e apontar os atos negativos de seus oponentes. Isso é até esperado, creio eu...

A falácia do atirador de elite texano é justamente a chave para se montar o argumento de um bom administrador ou de um mal administrador. A falácia em si é baseada em se tirar conclusões de agrupamentos seletivos de aleatoriedades.

A idéia é simplesmente agrupar os resultados que interessam, minimizando os demais que não se encaixam no padrão desejado. Como deixamos de lado as evidências contrárias ao ponto que desejamos passar, forma-se a impressão que os dados corroboram fundamentalmente com o que falamos. Ou seja, o ponto não é uma mentira completa, apenas uma meia mentira.

Vários políticos, partidos, comentaristas, e especialistas se valem desta falácia - por vezes propositalmente, por vezes por ignorância. Um exemplo clássico é o das pequenas amostras (como mostrado em um post anterior), dependendo de onde se olha as pequenas cidades tanto tem as menores e as maiores taxas de violência. E pode não ter absolutamente mérito nenhum do governante em questão.

Este argumento falacioso é especialmente sedutor, pois tecnicamente não é uma mentira (não chega a ser uma verdade também), pode apelar as polarizações dos indivíduos que se quer convencer e é particularmente difícil de detectar (mesmo para quem tem prática).

segunda-feira, 18 de março de 2013

O Efeito de Pequenas Amostras


Um ponto muito interessante a respeito de como nós entendemos as estatísticas é lembrado no livro "Thinking Fast and Slow" que estou lendo.

Vamos considerar um problema interessante: a criminalidade. No Brasil esta taxa está por volta de 1 a cada 2777 habitantes. Vamos arredondar para 1 para cada 2500 só para efeito de cálculo. Esta taxa é anual.

Isso quer dizer que em uma cidade de 5000 habitantes teremos um número esperado de homicídios de 2, e em uma de 50 mil habitantes este número será de 20.

Mas há mais nisso do nossos olhos vêem. Usar o binômino de Newton: (p+q)^n=1 fazendo: q=1/2500 e p=2499/2500

A expansão de série de Taylor resulta em:

p^n*(1+n/p*q+1/2*n/p^2*(n-1)*q^2+1/6*n/p^3*(n-1)*(n-2)*q^3+1/24*n/p^4*(n-1)*(n-2)*(n-3)*q^4+1/120*n/p^5*(n-1)*(n-2)*(n-3)*(n-4)*q^5+1/720*n/p^6*(n-1)*(n-2)*(n-3)*(n-4)*(n-5)*q^6+...)

Idealmente, esta resultaria em 1 pois (p+q)^n=1. Mas como truncamos a série o valor corresponde a 0.9954758041 - o que está bom o suficiente para nossas computações.

Cada um desses termos corresponde a uma probabilidade:
  • p^n - probabilidade de 0 homicídios em 1 ano
  • n*q*p^(n-1) - probabilidade de 1 homicídios em 1 ano
  • 1/2*n*(n-1)*q^2*p^(n-2) - probabilidade de 2 homicídios em 1 ano
  • 1/6*n*(n-1)*(n-2)*q^3*p^(n-3) - probabilidade de 3 homicídios em 1 ano
  • 1/24*n*(n-1)*(n-2)*(n-3)*q^4*p^(n-4) - probabilidade de 4 homicídios em 1 ano
  • 1/120*n*(n-1)*(n-2)*(n-3)*(n-4)*q^5*p^(n-5) - probabilidade de 5 homicídios em 1 ano
  • 1/720*n*(n-1)*(n-2)*(n-3)*(n-4)*(n-5)*q^6*p^(n-6) - probabilidade de 6 homicídios em 1 ano
E vamos considerar o caso de 5 mil habitantes e 50 mil habitantes. Primeiro o caso de 5 mil habitantes:
  • Probabilidade de 0 homicídios em 1 ano - .1352811455
  • Probabilidade de 1 homicídios em 1 ano - .2707788708
  • Probabilidade de 2 homicídios em 1 ano - .2707247150
  • Probabilidade de 3 homicídios em 1 ano - .1804831434
  • Probabilidade de 4 homicídios em 1 ano - .9022351617e-1
  • Probabilidade de 5 homicídios em 1 ano - .3607496491e-1
  • Probabilidade de 6 homicídios em 1 ano - .1201777043e-1
Há algumas lições importantes aqui, e todas estão ligadas ao fato de que uma cidade com 50 mil habitantes tem muito mais gente (e corresponde a uma amostra mais homogênea) do que 5 mil habitantes. Vamos, para efeito de comparação considerar que no nosso país imaginário existam 100 cidades com 5 mil habitantes de 100 com 50 mil habitantes. No caso das cidades com 5 mil habitantes temos:
  • 13 dessas cidades não registraram nenhum homicídio neste ano (taxa de 0)
  • 27 dessas cidades registraram apenas um homicídio neste ano (taxa de 1 em 5000)
  • 27 dessas cidades registraram dois homicídios neste ano (taxa de 2 em 5000)
  • 18 dessas cidades registraram três homicídios neste ano (taxa de 3 em 5000)
  • 9 dessas cidades registraram quatro homicídios neste ano (taxa de 4 em 5000)
  • 4 dessas cidades registraram cinco homicídios neste ano (taxa de 5 em 5000)
  • 1 dessas cidades registrou seis homicídios neste ano (taxa de 6 em 5000)
A média dessas cidades é de 1.97 homicídios por 5000 habitantes (próximo ao valor de 2 por 5000 habitantes original). Mas as variações são mais extremas: temos desde zero (muito seguro) até 6 por 5000 habitantes ( o triplo da média). Agora vamos ao caso das 100 cidades imaginárias de 50 mil habitantes (todos os valores antes de 11 e depois de 29  homicídios por ano são menores que 1%):
  • 1 dessas cidades registraram 11 homicídios neste ano (taxa de 1.1 em 5000)
  • 2 dessas cidades registraram 12 homicídios neste ano (taxa de 1.2 em 5000)
  • 3 dessas cidades registraram 13 homicídios neste ano (taxa de 1.3 em 5000)
  • 4 dessas cidades registraram 14 homicídios neste ano (taxa de 1.4 em 5000)
  • 5 dessas cidades registraram 15 homicídios neste ano (taxa de 1.5 em 5000)
  • 6 dessas cidades registraram 16 homicídios neste ano (taxa de 1.6 em 5000)
  • 8 dessas cidades registraram 17 homicídios neste ano (taxa de 1.7 em 5000)
  • 8 dessas cidades registraram 18 homicídios neste ano (taxa de 1.8 em 5000)
  • 9 dessas cidades registraram 19 homicídios neste ano (taxa de 1.9 em 5000)
  • 9 dessas cidades registraram 20 homicídios neste ano (taxa de 2.0 em 5000)
  • 8 dessas cidades registraram 21 homicídios neste ano (taxa de 2.1 em 5000)
  • 8 dessas cidades registraram 22 homicídios neste ano (taxa de 2.2 em 5000)
  • 7 dessas cidades registraram 23 homicídios neste ano (taxa de 2.3 em 5000)
  • 6 dessas cidades registraram 24 homicídios neste ano (taxa de 2.4 em 5000)
  • 5 dessas cidades registraram 25 homicídios neste ano (taxa de 2.5 em 5000)
  • 4 dessas cidades registraram 26 homicídios neste ano (taxa de 2.6 em 5000)
  • 3 dessas cidades registraram 27 homicídios neste ano (taxa de 2.7 em 5000)
  • 2 dessas cidades registraram 28 homicídios neste ano (taxa de 2.8 em 5000)
  • 2 dessas cidades registraram 29 homicídios neste ano (taxa de 2.9 em 5000)
A taxa média é de 2.05 homicídios por 5000 habitantes (que é bem próxima da taxa original). Note que a variação é muito menor que no caso anterior: houve uma variação entre 1.1 e 2.9 neste caso, enquanto no anterior houve uma variação de 0 até 6.

Qual a lição?
Os extremos de qualquer índice serão provavelmente os locais com menos amostras - isto é um efeito da estatística e não de alguma força misteriosa que causa isto. Em outras palavras, caro leitor, cheque os locais de maiores e menores índices e veja por si mesmo se não são justamente as pequenas cidades. Se forem, então é apenas o comportamento estatístico esperado - nenhuma mágica nisso.

sábado, 16 de março de 2013

Comprei uma bicicleta


"And I´m loving it!"
Na realidade estou seguindo a sugestão de meu irmão e do meu cunhado que deveria incluir esta modalidade de exercício na minha programação de atividades físicas.
Eu comprei uma Calói dobrável Urbe. A idéia é poder transporta-la com facilidade no carro para uso em diversos locais. Eu andei pela primeira vez nesta última sexta-feira no parque da cidade. Gostei, apesar de já fazer um bom tempo que andei de bicicleta pela última vez.

Ainda quero tentar me locomover usando a bicicleta, mas isso virá com o tempo.

No entanto há alguns pontos na questão da bicicleta que me deixam um pouco curioso. O primeiro é que bicicleta é essencialmente um veículo para tempo bom - ou seja: chuva, neve ou climas extremos não são uma boa para quem anda de bicicleta. Outro ponto é que bicicleta é primariamente um veículo individual. Assim, como forma de transporte a bicicleta é pessoal (20 pessoas usam 20 bicicletas).

E por que isto desperta minha curiosidade? Bom, porque existe um certo "ativismo" ligado ao uso de bicicletas como meio de transporte. E isso á algo que é meio difícil de entender, se formos pensar em profundidade.
Um bicicleta ocupa uma área que, arrisco a dizer, deve ser de cerca de 2 metros quadrados. Isto quer dizer que temos um veículo com um "footprint" de 0.5 pessoas/metro quadrado. Um ônibus tem um footprint de quse 0.8 pessoas/metro quadrado (50 pessoas em um veículo de 15 por 4) e um carro tem algo na vizinhança de 0.6 (5 pessoas em um veículo de 4 por 2). Em termos de eficiência de transporte, a bicicleta não é muito melhor do que o uso de carros e ônibus de modo eficiente.

As melhores qualidades me parecem ser a segurança (acidente de bicicleta costumam ser em velocidade bem inferior a de carros), o benefício ao meio ambinte, e o benefício físico ao condutor.

Como cresci andando de bicicleta, o seu uso sempre foi prazeiroso. Mas era mais um brinquedo do que um meio de transporte para o dia a dia.
Será que estão querendo reviver a nostalgia da bicicleta na infância, ou mesmo mudar o jeito que se anda na cidade? Talvez um pouco dos dois.

Mas independente destas idéias, bicicleta é muito bom e eu recomendo!

terça-feira, 12 de março de 2013

Mais Maravilhas da Estatística

Como o leitor viu no post anterior, a estatística permite inferir informações que poderíamos considerar inacessíveis.

Vamos ver outro exemplo de contagem que permite estimar quantas espécies existem em um determinado nicho ecológico. O processo é conhecido como marcar e recapturar.

Funciona assim: primeiro o pesquisador vai ao nicho ecológico, captura M espécimes e depois os solta na população geral. Em uma segunda visita, ele captura C espécimes e verifica quantos destes foram originalmente marcados. Digamos que este número seja K.

Como o percentual de animais marcados em comparação com a população N é M/N, e se a segunda captura for completamente aleatória então o percentual de animais marcados na amostra C deve permanecer mais ou menos o mesmo. Isto quer dizer que:

M/N deve ser aproximadamente igual a K/C. Assumindo a igualdade, temos M/N = K/C então N = M*C/K

Um exemplo numérico pode esclarecer muito: Vamos dizer que na primeira visita marcamos M=10 espécimes, na segunda visita capturamos C=100 espécimes, dos quais K=2 eram marcados. Isto quer dizer que a população deve ser aproximadamente:

N = 10*100/2 = 500

Podem testar no MATLAB que funciona bonitinho. Naturalmente isto é uma aproximação (afinal supõe que nenhum dos animais marcados morreu ou sumiu no período), mas pode ser usado para estimar populações dos mais diversos tipos (pessoas com doenças na população geral, estimar mercados, etc...). Caso se mantenha um histórico de marcar e recapturar é possível montar uma história com taxa de desaparecimento, taxa de natalidade, entre outras informações.

Dica para Reuniões

Esta é retirada direto do livro Thinking Fast and Slow de Daniel Kahneman:

Ao começar uma reunião, peça para cada um dos participantes colocar por escrito seus pontos de vista sobre o ponto de pauta em questão. Dessa forma se evita que haja correlação adicional na hora da discussão. Ou em termos práticos: as pessoas tenderam a pensar um pouco sobre o assunto ao invés de seguir cegamente os primeiros ou os mais articulados a falarem...

O que quer dizer que temos uma tendência a correlacionar nossas opiniões uma vez que ouvimos (ou lemos) discursos bem articulados, ao invés de revermos nossos pontos de vista antes.

domingo, 10 de março de 2013

Maravilhas da Estatística


A Estatística permite tomar decisões e estimar dados em situações que parecem impossíveis de se conhecer algo sobre o problema.

Caso em questão? Considere um saco com bolas numeradas de 1 até N. Agora você retira K bolas do saco. Sabendo o número de cada bola será que temos condições de estimar o número total de bolas originamente no saco (N)?

Bem, parece impossível, não? Mas há algumas informações que já temos disponíveis. A primeira é que a densidade de probabilidade é uniforme, ou seja a probabilidade de tirar qualquer bola é 1/N.

O valor médio desta distribuição é:

E{x} = 1/N*(1+2+3+..N) = 1/N*(N*(N+1)/2) = (N+1)/2

Então, na realidade, o que queremos é estimar a média, pois:

N=2*E{x}-1

Então podemos utilizar um estimador simples de média:

M=1/K*(B1+B2+...+BK)

Portanto N=2*M-1

Vamos ao teste? Vou considerar um saco com 100 bolas (numeradas de 1 a 100) e extrair 10 bolas aleatoriamente (óbvio que usei o MATLAB). Os números extraídos são:
55    24    62    63    53    59    52    93    20    66

A média deles é: 54.7

Portanto a nossa estimativa de N é 108.4

E se fossem apenas 5 bolas? O valor estimado de N seria de 101.8

A estimativa pode ser melhorada se incluirmos o desvio padrão. Mas para os fins de cálculo simples, este valor está de bom tamanho.

Mas para que serve isso, o caro leitor pode se perguntar? Bom, este tipo de problema é conhecido como Problema do Tanque Alemão. E como o nome indica, a estatística foi utilizada para descobrir quantos tanques alemães estavam sendo fabricados.

A idéia pode ser aplicada para um número de casos (por exemplo: quantas torradeiras de determinada marca são fabricadas, ou quantos IPhones, ou afins).

Realmente extraordinário.

sábado, 9 de março de 2013

Cuidado com a Curtose

Eu já mencionei aqui antes sobre a minha leitura do livro Black Swan de Nassim Taleb. A teoria é baseada na questão do quarto momento de distribuições de probabilidade. No caso da distribuição normal de probabilidade, podemos ilustrar este efeito de modo bem informativo.

Considere primeiro uma distribuição de probabilidade normal: 1/sqrt(2*Pi)*exp(-1/2*x^2). Nesta distribuição, o momento de ordem zero é 1 (a probabilidade), o de ordem 1 é zero (média), o de ordem 2 é 1 (variância), o de ordem 3 é zero (distorção) e o de ordem 4 é 3 (curtosis).

Mas é mais interessante dar uma olhada na probabilidade em si.

  • A probabilidade de um evento estar mais distante que um desvio padrão da média é aproximadamente 31.7%.
  • A probabilidade de um evento estar mais distante que dois desvios padrão da média é aproximadamente 4.6%.
  • A probabilidade de um evento estar mais distante que três desvios padrão da média é aproximadamente 0.3%.

Com isso podemos afirmar que a chance de um evento do tipo três sigmas é de 3 em 1000.

Mas considere a seguinte distribuição de probabilidade: 1/6*1/sqrt(2*Pi)*exp(-1/2*x^2)*(x^4-6*x^2+9). Nesta distribuição, o momento de ordem zero é 1 (a probabilidade), o de ordem 1 é zero (média), o de ordem 2 é 1 (variância), o de ordem 3 é zero (distorção) e o de ordem 4 é 7 (curtosis).
As duas distribuições: normal e a a modificada.
Os primeiros momentos são idênticos a de uma normal, apenas o quarto momento é diferente. Então vamos a probabilidade em si.


  • A probabilidade de um evento estar mais distante que um desvio padrão da média é aproximadamente 15.6%.
  • A probabilidade de um evento estar mais distante que dois desvios padrão da média é aproximadamente 8.2%.
  • A probabilidade de um evento estar mais distante que três desvios padrão da média é aproximadamente 2.9%.

Com isso podemos afirmar que a chance de um evento do tipo três sigmas é de 3 em 100. Esta probabilidade é 10 vezes maior que no caso anterior. A coisa piora ainda mais se considerarmos 4 sigmas: a distribuição normal indica que a chance deste evento é 1 em 15787 e a da distribuição com curtosis grande é de 1 em 420. E claro a convergência de curtosis é extremamente lenta nos casos gerais.

Isso quer dizer que somente com os momentos é complicado afirmar que a distribuição seja uma normal, mesmo que haja indicadores disto.

Os Cuidados com a Prova à Prova de Cola

Apesar no nome, mesmo o esquema da prova com múltiplas questões tem procedimentos que precisam ser observados.
Um deles trata da dificuldade das questões. Se temos uma questão Q1, as questões derivadas Q11, Q12, Q13, etc devem ter o mesmo nível de dificuldade. Isso pode ser feito de várias formas, mas há duas particularmente simples: usar questões de lista de exercícios previamente disponibilizadas, ou montar as questões Q11, Q12 e similares como variações de uma questão básica Q1.

As duas formas tem suas vantagens e desvantagens. A primeira forma tem a vantagem de estar "calibrada" previamente e permitir maior diversificação nas questões derivadas. No entanto, os alunos podem utilizar recursos como calculadores, tablets e mesmo celulares para armazenar a lista de exercício para consulta (indevida) durante a prova. Mesmo variações das questões da lista podem não ser suficientes para evitar que a consulta traga vantagens desleais para o aluno que utiliza deste recurso.

Já a segunda forma minimiza a chance de consultas indevidas a tablets, celulares e afins. Mas ao mesmo tempo é muito fácil errar na "calibração" das questões derivadas. Ao errar nisto, podem surgir conjuntos de provas muito mais fáceis ou muito mais difíceis do que originalmente planejado. O problema? O aluno que receber tais conjuntos pode ser beneficiado ou prejudicado indevidamente.

O ideal é que a questão tenha familiaridade, mas tenha novidade também. E mais ainda que a novidade não simplifique ou complique a prova demais. Há modos de se conseguir isto: no caso de algumas matérias (como circuitos elétricos), pode-se utilizar questões de lista e aplicar dualidade para mudar o circuito. Em casos mais gerais pode-se alterar o valor de alguns dados, em conjunto com modificações na ordem do problema (as vezes basta trocar a ordem de apresentação).

Um outro problema, talvez até mais sério é a distribuição da prova em sala. Como já mencionei anteriormente, o formato que descrevi garante que não existam duas provas iguais, mas pode ocorrer de termos duas provas quase iguais (diferindo apenas de uma questão). Na hora da distribuição, caso seja realizada em bloco (um aluno recebe um bloco de provas, pega uma e passa o resto) o que pode acontecer é que o aluno pegue uma prova e passe outra muito similar para o colega do lado. Assim teria também alguém de quem copiar por perto.

A solução para isso é que a distribuição da prova não pode ser feita por bloco. Isso quer dizer que o professor tem que entregar uma por uma das provas. Eu sei que dá trabalho e consome tempo, mas a alternativa é ver este tipo de problema descrito acima ocorrendo.

Então qual é a lição: questões similares a lista de exercícios, porem diferentes o suficiente para constituir novidades, e distribuição individual da prova.

Isso tudo eu aprendi graças ao pessoal que tenta burlar o sistema.

quarta-feira, 6 de março de 2013

E se foi Chavez

Faleceu nesta terça o "presidente da Venezuela" Hugo Chávez.

As aspas são em razão que, tecnicamente, ele não tomou posse como presidente - cargo que ficou nas mãos de Nicolás Maduro.

Realmente sei muito pouco sobre a a Venezuela, não posso arriscar a fazer uma obituário ou uma análise do que foi Chávez para Venezuela e América Latina (apesar de com esta história de bolivarianismo, eu ficar bastante tentado).

Mas apesar de tudo há uma oportunidade aqui: ditaduras tendem a ficar acéfalas e mesmo conflituosas quando seus príncipes deixam a cena. As razões são múltiplas, mas efetivamente decorrem de que os ditadores dificilmente se separam do poder - e do exercício do poder (delegar não é muito a praia deles).

Então qual é a oportunidade? Podemos ver em primeira mão se o governo de Chávez na Venezuela estava mais para ditadura do que democracia ou o não. Se o Chavismo permanecer, como diz este historiador, então teremos evidência que não foi exatamente uma ditadura (não estou dizendo que  foi democracia, percebam os caros leitores).

Se o Chavismo permanecer talvez estejamos vendo o mais novo exemplo do peronismo ou do getulismo em ação. Talvez tenhamos mais caudilhismo em ação.

terça-feira, 5 de março de 2013

Prova à Prova de Cola


Depois de muito brincar, cheguei a um formato de prova que é, pelo menos teoricamente, à prova de cola. A idéia é simples: uma prova única por aplicante.

Se tivermos 100 aplicantes teremos 100 provas. Se não há correlação entre as provas então a cola torna-se nula.

Naturalmente, a implementação disto é que não é simples. Fazer 100 provas diferentes não correlacionada E COM O MESMO NÍVEL DE DIFICULDADE não é tarefa nada simples. Uma possibilidade é utilizar um banco de questões classificado de acordo com o nível de dificuldade para montar as diferentes provas.

Mas mesmo isso não é simples. A logística de elaborar 100 provas (sabe-se lá quantas questões por prova), montar estas provas e corrigi-las é impraticável exceto se as mesmas forem online.

E provas online tem todo o seu conjunto de problemas ainda para resolver. Se o pessoal se preocupa com cola em provas que demandam presença física, então não devem olhar com muita atenção para os problemas de cola com provas online.

Bom, então como resolver este problema?

Certamente existem diversas soluções, mas eu vou descrever a que eu decidi utilizar.

Em primeiro lugar, este tipo de prova é muito mais adequada a questões objetivas do que subjetivas. Então pode-se focar no uso de questões objetivas para cálculo rápido da nota e depois permitir uma "revisão" para verificar se os erros cometidos na marcação dos itens indicam falha no aprendizado, falha no entendimento, ou mesmo erros simples de conta ou similares. Alternativamente, pode-se permitir que os alunos façam questões similares a que erraram limitando o número de pontos possíveis.

Em segundo lugar, é quase inviável que numa turma de 64 alunos se tenha 64 provas totalmente diferentes montadas pelo professor. Mas é factível que se divida esta prova em 3 questões. Só que a questão 1 tem 4 versões, a questão 2 tem 4 versões e a questão 3 tem 4 versões. Assim temos o conjunto de questões:

  • Q11, Q12, Q13, Q14 (questão 1)
  • Q21, Q22, Q23, Q24 (questão 2)
  • Q31, Q32, Q33, Q34 (questão 3)

Assim, podemos montar 64 provas diferentes. Claro que não serão totalmente diferentes, há conjuntos de provas que só irão diferir em apenas 1 questão, mas esse problema pode ser minimizado se as provas forem embaralhadas o suficiente. Vamos mostrar o caso de 1 prova para 8 alunos com três questões: Q11,Q12,Q21,Q22,Q31 e Q32. Teremos as seguintes combinações:

  1. Q11, Q21,Q31
  2. Q11,Q21,Q32
  3. Q11,Q22,Q31
  4. Q11,Q22,Q32
  5. Q12,Q21,Q31
  6. Q12,Q21,Q32
  7. Q12,Q22,Q31
  8. Q12,Q22,Q32

Ou seja 8 provas em que cada uma difere da outra por pelo menos uma questão. A probabilidade de um aluno ter a questão Q11 é 1/2, Q21 é 1/2 e Q31 é 1/2. Note que, se arranjarmos os oito alunos em um esquema quadrado:
X X X
X - X
X X X
E nos preocuparmos somente com os vizinhos dos lados temos a seguinte situação: o colega do lado poderia no máximo ter duas das três questões iguais ao aluno. Isto quer dizer que se o nosso estudante tem o conjunto Q11,Q21 e Q31, então seu colega do lado só poderá ter uma das 7 possibilidades listadas acima. Vamos contar quais dessas possibilidades tem  pelo menos duas iguais:

  • Q11, Q22, Q31 (questão 2 diferente)
  • Q11, Q21, Q32 (questão 3 diferente)
  • Q12, Q21,Q31 (questão 1 diferente)

Ou seja, há 3 chances em 7 de que o colega do lado tem uma prova que ele possa aproveitar 2 questões. Assim há uma probabilidade de 3/7 (43%). que ele possa aproveitar 66% da prova ao seu lado.  No caso da chance de pelo menos 1 questão igual este número é 7/8 (87.5%).

Já com outro vizinho as possibilidades aumentam. A chance de ter pelo menos uma questão igual é 98.74%.

Podemos melhorar isso? Sim, basta aumentar o número de combinações. No caso das 64 provas, as chances de que ele possa aproveitar duas questões são:

  1. Q11, Q22, Q31
  2. Q11, Q23, Q31
  3. Q11, Q24,Q31
  4. Q11, Q21, Q32
  5. Q11,Q21, Q33
  6. Q11,Q21,Q34
  7. Q12,Q21,Q31
  8. Q13,Q21,Q31
  9. Q14,Q21,Q31

Ou seja, 9 em 64 (14.1%). E claro, com 8 variações por questão é possível fazer com que haja exatamente 0% de chance que outro aluno tenha uma prova igual.

Dá trabalho, mas funciona.

segunda-feira, 4 de março de 2013

Miriam Makeba

Hoje seria aniversário da famosa Miriam Makeba - quem era ela? Ora...

E claro...

O Semi-Analfabeto Político

Creio que a maioria deve ter conhecimento do poema de Berthold Brecht - O Analfabeto Político:
"O pior analfabeto é o analfabeto político. Ele não ouve, não fala, nem participa dos acontecimentos políticos. Ele não sabe que o custo de vida, o preço do feijão, do peixe, da farinha, do aluguel, do sapato e do remédio dependem das decisões políticas. O analfabeto político é tão burro que se orgulha e estufa o peito dizendo que odeia a política. Não sabe o imbecil que da sua ignorância política nasce a prostituta, o menor abandonado, e o pior de todos os bandidos que é o político vigarista, pilantra, o corrupto e lacaio dos exploradores do povo."

Pois bem, hoje eu creio que há um tipo pior na política do que o analfabeto político: o semi-analfabeto político. Ele não ouve, só fala, e acontecimento político é apenas aquilo que ele participa. Não entende nada sobre frações, percentagem ou matemática, mas tem a solução da economia na ponta da língua. Acha que tudo são apenas decisões políticas e que a realidade é apenas "uma invenção pequeno burguesa". Ele é tão tolo e chega a ser tão vil, que acredita que fazer política não é muito diferente de torcer por um time de futebol. Ele acredita que sabe porque o político vigarista, a prostituta e o menor abandonado existem. Mas na realidade é mais tolo do que o pobre analfabeto político.

domingo, 3 de março de 2013

Constância, como és difícil!!!

Caros leitores, infelizmente com o fim do semestre (em particular as últimas três semanas), eu não tive praticamente tempo para fazer updates no blog.
Isso quer dizer que andei mais preocupado com o fim do semestre letivo do que em repassar minhas idéias, noções e impressões ao blog.
Como o semestre letivo se encerra nesta sexta, espero voltar a ter a constância de outros dias.