Wednesday, June 22, 2016

Referendo sobre a permanência do Reino Unido na União Européia

Com todas as notícias relacionadas ao Impeachment, a crise  e a corrupção no Brasil sendo divulgadas constantemente na mídia, sobra pouco espaço para dar o devido destaque ao referendo popular que será votado amanhã no Reino Unido (RU). Para quem não sabe, nesse referendo os britânicos irão decidir se o RU permanece na União Européia (UE) ou não. O impacto de uma decisão de deixar a UE pode ser enorme, desde colocar em xeque a existência da UE à causar a saída da Escócia do RU.

Muitas pesquisas têm sido feitas para prever qual será o resultado da votação (link), porém por causa dos erros cometidos pelos institutos de pesquisa ao prever os resultados das eleições gerais no RU em 2015 (veja aqui), existe muita desconfiança sobre a confiabilidade das pesquisas. A maioria das pesquisas publicadas recentemente indica um empate técnico entre “Permanecer” e “Sair” da UE, com um percentual médio de 10% de indecisos. Ou seja, os indecisos podem facilmente decidir o referendo.

Uma outra incógnita muito importante é saber quem irá votar no referendo. Como não é uma eleição tradicional, é muito difícil avaliar quantas pessoas de fato comparecerão as urnas para votar. A chance de comparecer as urnas pode estar relacionada a permanência ou saída da UE, tornando a dificuldade de prever o resultado ainda maior.

Mesmo confiando no resultado das pesquisas, existe uma outra complicação importante.  No RU têm sido utilizadas duas metodologias principais para se fazer as pesquisas sobre o referendo: online e telefônica. E os resultados das duas metodologias têm sido consistentemente diferentes, sendo as pesquisas online mais favoráveis a saída da UE e as telefônicas mais favoráveis a permanência na UE.

De acordo com esse site, a diferença entre as metodologias ocorre porque na pesquisa telefônica, o entrevistador não dá a opção ao respondente de escolher “Não Sabe” ou “Não têm opinião”, forçando o mesmo a escolher um dos lados. Já nas pesquisas online, que são auto-preenchidas, o respondente pode escolher essas opções neutras, sem se posicionar a favor ou contra. O consenso têm sido de que ao forçar o respondente a escolher um dos lados, existe uma tendência maior dele escolher a opção mais familiar, ou o status quo, nesse caso de permanência na UE.

O site PollingData têm acompanhado as pesquisas do referendo do RU, porém não de forma pública. Nesse post vamos mostrar as previsões atualizadas do site utilizando dois modelos diferentes, descritos abaixo:

1-      Tradicional (sem memória) - Esse é o modelo que o site já vem utilizando á alguns anos. O principal problema com esse modelo têm side que ele supõem que a intenção de voto se manterá constante após a última pesquisa. Ou seja, assume que o cenário eleitoral se manterá constante. Denominamos esse modelo de sem memória porque não importa se um candidato estava na ascendente/descendente, a previsão do modelo irá ignorar essas tendências e supor que o cenário de hoje se repetirá amanha.
2-      Novo (com memória) – Esse é um novo modelo em ainda em desenvolvimento, e essa será a primeira vez que iremos utilizá-lo em uma situação real. Esse modelo assume que as tendências de subida/queda dos candidatos se manterão após a última pesquisa divulgada. A motivação para desenvolver esse modelo ocorreu em 2014, quando em muitas eleições ficou evidente que as estimativas seriam mais precisas se as tendências de cescimento/queda  que ocorreram as vésperas das eleições fossem levadas em conta na hora de fazer as previsões. Por isso esse modelo foi denominado de com memória.

No Brasil usualmente não existem informações claras sobre as metodologias de pesquisa utilizadas, assim o tipo de metodologia não têm sido utilizada nos modelos descritos acima. No caso das pesquisas sobre o referendo popular, a informação sobre a metodologia utilizada existe, assim adaptamos os modelos do PollingData para levarem em conta essa informação que claramente é bastante informativa.

Ao acrescentar essa informação, os modelos estimam o viés causado por cada tipo de metodologia, e implicitamente assumem que a intenção de voto está na realidade entre as estimativas obtidas pelas diferentes metodologias (ou seja, supomos que em média o viés é zero, caso contrário o modelo não é identificável). Se futuramente ficar comprovado que as pesquisas online tinham um viés e as telefônicas não eram enviesadas, por exemplo, o modelo fatalmente errará a previsão, pois ele considera que as duas metodologias trazem informações importantes sobre o cenário eleitoral.

Abaixo apresentamos um gráfico para cada modelo. Como a diferença entre os dois modelos é sutil, porém bastante importante, destacamos em preto a diferença nas previsões do resultado das eleições.




Utilizando o modelo tradicional as estimativas para o dia da eleição estão empatadas em 46%, com probabilidade de vitória de 50% para cada. Porém utilizando o modelo novo, com memória, ele capta o aumento recente da opção por “Continuar” onde as estimativas são de 49% de “Continuar” e 45% de “Sair”, com probabilidade de vitória de 73% para “Continuar”. A diferença entre os dois modelos é bem grande. O mercado de pesquisas está obtendo estimativas mais parecidas com o modelo sem memória, porém eu acho que o modelo com memória está captando a mudança da intenção de voto que está ocorrendo de última hora. Baseado nas estimativas dos modelos, minha previsão é de que o resultado do referendo será de continuar na UE, mas de fato esse e´ um teste bastante duro para o novo modelo....

Como curiosidade, segue abaixo a tabela com o viés estimado por tipo de metodologia.


Update 23/6/2016 9am:

Hoje foram divulgadas 4 novas pesquisas que foram encerradas ontem. Re-estimando os modelos incluindo essas pesquisas, obtemos os seguintes resultados. Pelo "modelo SEM memória", percentual de votos previsto é de 46% para continuar e 45% para sair, com probabilidade de vitória de 57% para continuar. Já para o "modelo COM memória", percentual de votos previstos é de 47% para continuar e 45% para sair, com probabilidade de vitória de 66% para continuar.

O motivo pelo qual os resultados dos modelos estão mais similares após essa atualização é porque existe apenas um dia entre a última pesquisa divulgada e o dia da eleição, e pelas suposições do modelo a opinião pública não pode se alterar tanto em apenas um dia. Além disso, a precisão da estimativa do dia 22 (ontem) é bem alta, porque foram observadas quatro pesquisas.



Update 23/6/2016 11am:

Por enquanto foram divulgadas 7 novas pesquisas que foram encerradas ontem. Re-estimando os modelos incluindo essas pesquisas, obtemos os seguintes resultados. Pelo "modelo SEM memória", percentual de votos previsto é de 46% para continuar e 46% para sair, com probabilidade de vitória de 51% para continuar. Já para o "modelo COM memória", percentual de votos previstos é de 46% para continuar e 45% para sair, com probabilidade de vitória de 56% para continuar.



Tuesday, May 24, 2016

PollingData Educativo....

O PollingData está lançando um nova iniciativa. Agora estamos publicando textos educativos, sobre Estatística, Amostragem e o uso do software R. Esse projeto apenas se iniciou, porém a ideia é que ganhe corpo, e ajude a divulgar e desmistificar a estatística.


Os textos educativos se encontram na aba “Educativo / Tutoriais” no menu principal. Espero que gostem da novidade ;)

Thursday, May 19, 2016

Performance do modelo de previsão do Impeachment no Senado Federal

Na última quinta-feira, no Senado Federal foi realizada a votação para abertura do pedido de Impeachment da presidenta Dilma. O resultado final da votação foi de 55 votos a favor de um total de 77 votos. Com essa decisão,  a presidenta fica afastada do mandato até o julgamento final pelo Senado, o que pode levar até 180 dias, .

O PollingData fez um modelo para prever o resultado dessa votação baseado apenas no histórico de votação de cada Senador e também na votação dos Senadores que participaram da Comissão Especial do Impeachment. Os 20 votos de senadores que participaram da Comissão foram fixados, pois estávamos supondo que o voto na comissão seria o mesmo da sessão da última quinta-feira. Os votos de todos os outros 61 Senadores foram previstos utilizando apenas o histórico de votação no Senado e posição dos Partidos / Líderes de cada partido.

A previsão desse modelo era que o número de votos a favor seria de 54 (intervalo de previsão entre 43 e 64 votos), com probabilidade de 100% da abertura do pedido de Impeachment ser aprovada. Prever que o pedido seria aprovado foi relativamente fácil devido ao contexto extremamente favorável ao pedido. Porém acertar com tanta precisão a estimativa pontual de votos é um feito considerável.

Para avaliar melhor a performance do modelo, construímos o gráfico abaixo, comparando a previsão do modelo por partido com o resultado da votação (no gráfico estamos analisando o número de votos favoráveis).



Todos os resultados estavam dentro dos intervalos de previsão. Para partidos que têm somente um Senador, esse não é um grande feito pois usualmente o intervalo incluía todos os possíveis resultados (0 ou 1 voto favorável). Porém para partidos maiores é um ótimo resultado. Mesmo estando dentro do intervalo de previsão, o partido com a pior performance foi o PDT, onde erramos por 2 votos, para todos os outros casos, erramos no máximo por apenas 1 voto.

Os dados disponíveis nos sites do Governo sobre as votações dos Senadores e dos Deputados são razoavelmente diferentes, incluindo as informações disponíveis. Para desenvolver o modelo da Câmara, para toda votação existe um posicionamento oficial do Governo e de cada partido. Já para o caso do Senado, essa informação não existe. Ela teve que ser derivada avaliando o voto do líder de cada bancada.  Além disso, muitas votações no Senado são fechadas, então existe menos informação disponível para ser utilizada no modelo.

Por esses motivos, consideramos que prever o resultado da votação no Senado era mais difícil do que na Câmara. Como a previsão no Senado teve uma performance melhor do que na Câmara, estamos muito satisfeitos com esse resultado!



Monday, April 18, 2016

Performance do modelo de previsão do Impeachment na Câmara dos Deputados

Como quase todo brasileiro deve saber, ontem foi realizada a votação na Câmara dos Deputados para aprovação do pedido de Impeachment da presidenta Dilma. O resultado final da votação foi de 367 votos a favor de um total de 513 votos.

O PollingData fez um modelo para prever o resultado dessa votação baseado apenas no histórico de votação de cada deputado. A previsão desse modelo era que o número de votos a favor estaria entre 312 e 366, com probabilidade de 67% da votação do Impeachment ser aprovada. Se considerarmos que para acertar a previsão o número de votos (367) deveria estar contido dentro do intervalo divulgado (312-366), estritamente falando, o nosso modelo errou a previsão.

Mais importante que classificar a previsão como correta ou não, é tentar descobrir onde o modelo falhou, para ajustá-lo, de forma a poder re-utilizar a mesma metodologia para prever a votação do Senado. Para avaliar onde erramos, comparamos as previsões do modelo com a votação para cada partido. Essa comparação pode ser vista no gráfico abaixo.



Fica evidente que o modelo teve um erro maior em 3 partidos: PR, PMDB e PTB. No caso do PMDB, mesmo tendo um erro de 5 votos  favoráveis a menos, o intervalo de nossa previsão contém o resultado da votação, ou seja, não foi propriamente um erro, apenas nossa previsão não era muito precisa. Já nos casos do PR e do PDT, a previsão de fato não contém o resultado da votação. Esses dois casos podem ser vistos como um erro da previsão.

Especificamente no caso do PR, onde subestimamos em 13 os votos favoráveis, a posição do partido não ficou bem definida antes da votação, como pode ser visto nestas notícias (link1, link2 e link3). Oficialmente a posição foi contraria ao Impeachment, porém o presidente do partido deixou o partido para poder votar a favor do Impeachment, alegando que mais de metade do partido era também favorável. Por esse motivo na última previsão do modelo, classificamos o PR como tendo a posição “LIVRE”. Mas na realidade, ficou evidente que a posição de fato assumida pelos deputados foi favorável ao Impeachment, tanto que 67% dos votos do PR foram “SIM”.

Fazendo essa pequena alteração no modelo, classificando o PR como “SIM”, já teríamos uma previsão bem melhor. Essa performance pode ser vista no gráfico abaixo.  O modelo passa acertar a previsão do PR, passando agora a superestimar os votos favoráveis dos deputados desse partido. Algo esperado visto a divisão entre esses deputados. Com essa alteração, passamos a ter uma previsão do total da votação de 363, muito próximo do valor real, que foi 367.




Mesmo essa simples alteração corrigindo a previsão do modelo, fica evidente que nos partidos mencionados, o padrão de votos dos deputados deve ter se alterado nos últimos meses devido a grande pressão exercida pelo governo e pela oposição, além das mudanças de posição oficial. Para melhorar esse modelo, talvez seja interessante utilizar uma série histórica menor, ou então estimar um modelo de ponto de mudança. A primeira alternativa é mais simples, porém nem sempre é vantajoso tentar reduzir viés quando o efeito colateral é aumentar a variância. A segunda alternativa é mais complicada, porém pode ser mais eficiente.  Essa escolha só será feita quando o modelo para o Senado for desenvolvido. 

Wednesday, March 23, 2016

Importa saber o tamanho das manifestações Pró e Contra o governo?

Em todas as manifestações populares recentemente realizadas no Brasil, muito se têm debatido sobre o número de pessoas que foram as ruas. Eu mesmo já me manifestei sobre o tema nesse post. Aparentemente, a motivação para tanto debate sobre o número real de manifestantes ocorre porque esses números são usados para estimar o apoio/oposição da população ao Governo. Do ponto de vista estatístico, várias questões relevantes devem ser discutidas pois estão diretamente relacionadas ao cerne da questão: qual a validade de usar estas estimativas para avaliar a oposição/apoio popular ao governo?

Primeiramente, vamos pensar nas diferentes fontes de estimativas existentes: da PM, do DataFolha e dos organizadores. Porque existe uma diferença tão grande entre estimativas provenientes de cada fontes, como pode ser visto nesse link? Acredito que existam 2 motivos principais: diferenças de metodologias e falta de metodologia.

     1 - PM - O objetivo da PM é estimar quantas pessoas estão aglomeradas em um mesmo local num determinado instante de tempo. Para a PM determinar o contingente de policiais, essa informação basta. Para isso utilizam uma metodologia baseada em fotos aéreas, que não tem como estimar o fluxo de pessoas no local.  Ela não tem interesse em estimar o total de pessoas que passaram pelo local, apenas o número de pessoas em um determinado momento do dia.

    2 - DataFolha - O objetivo do DataFolha é diferente. Eles querem identificar tanto o perfil dos manifestantes, quanto identificar quantas pessoas passaram pelo local ao longo do dia (fluxo populacional). Ao invés de tentar explicar aqui como fazem isso, estou incluindo esse link para um vídeo explicativo do próprio DataFolha.

     3 - Organizadores - Finalmente, os organizadores não têm metodologia alguma, apenas um desejo enorme de mostrar que a manifestação foi um sucesso estrondoso. Eu não consegui encontrar nenhuma explicação sobre qual metodologia os “organizadores” utilizam para estimar o total de pessoas. Por favor me avisem se encontrarem alguma explicação.

Dessa forma, entendo que as estimativas não são comparáveis, porém devem usualmente seguir a seguinte lógica: a estimativa da PM representa o mínimo de pessoas que foram a manifestação (se houver fluxo 0 de pessoas). A estimativa dos Organizadores é o máximo imaginável, talvez até maior do que o máximo possível. E a estimativa do DataFolha fica em algum lugar entre as duas. Mas a meu ver, a única metodologia dessas 3 que responde a pergunta sobre quantas pessoas passaram pelo movimento é a do DataFolha.

Um segundo ponto importante é que estamos vendo, no momento, dois movimentos ocorrerem. Um que está sendo rotulado como favorável do Governo, porém que engloba alguns outros movimentos como “Respeito a constituição” e “não vai ter golpe” e que as pessoas são “inocentes até provarem o contrário”. O outro movimento é rotulado como contrário ao Governo, que incluem pessoas que querem o fim da corrupção, ou querem uma reforma política, ou querem o PT fora do governo e/ou na cadeia. Ou seja, ambos os movimentos não são homogêneos, então ao tentar incluir todas as pessoas ali presentes como pró ou contra qualquer argumento um erro estará sendo cometido. Seria algo equivalente a um erro de mensuração, pois estamos medindo Z, mas na realidade gostaríamos de medir Y.

O terceiro ponto, e talvez o mais importante, é que apenas sabemos quantas pessoas foram para as ruas, porém não sabemos qual a chance de diferentes grupos de pessoas participarem dos movimentos. Nesse link, a reportagem do DataFolha mostra claramente que existem perfis bem diferentes indo pra rua. Na manifestação contra o governo do dia 13/3/2016, na cidade de São Paulo, 77% dos manifestantes tinham educação superior. Como benchmark, na cidade de São Paulo, apenas 28% da população possui educação superior.

Parece razoável assumir que nas manifestações "contra" o publico é mais elitizado, e nas manifestações "à favor" o público é mais popular. Além de serem grupos distintos, parece haver um ímpeto maior de pessoas contra o governo se manifestarem se comparado com as pessoas à favor. Nesse contexto, existe um potencial grande para ocorrer viés de seleção. Quero dizer com isso que se pessoas contra o governo têm uma chance maior de participar de uma manifestação do que quem é à favor do governo, pode parecer que a primeira causa tem mais apoio popular que a segunda, mesmo que não seja verdade.

Segue um exemplo FICTÍCIO, extremo, apenas para ilustrar. Segundo a ABEP 30% da população é classe A/B, e 70% classe C/D/E. Para simplificar o argumento, vamos supor que as classes A/B são contra o governo, e que as classes C/D/E são à favor. Ou seja, nesse exemplo, estamos dizendo que 70% da população é favorável ao governo. Se em cada grupo a chance de uma pessoa ir a manifestação for de 1%, teríamos 1,6 milhões de pessoas nas ruas a favor do governo, e 700 mil contra. Nesse caso não haveria problema em utilizar o tamanho dos protestos pra inferir o apoio popular, pois as taxas de participação são as mesmas.

Porém, vamos supor que 2,5% da classes A/B vão a manifestação, contra apenas 1% das classes C/D/E. Ou seja, temos predisposições diferentes de participar, dependendo do fato da pessoas ser à favor ou contra o governo. Nessas condições, as manifestações esperadas seriam de tamanho quase idêntico (1,7 milhões contra e 1,6 milhões a favor), porém a verdade continua sendo a mesma, de que 70% da população é favorável ao governo. Ou seja, nesse cenário com taxas de participação diferentes, não é razoável utilizar o tamanho dos protestos para medir o apoio popular. E esse cenário me parece o mais realista hoje em dia!

No mundo real é mais difícil fazer essa avaliação, tanto porque não sabemos o tamanho dos grupos, quanto porque não sabemos as predisposições de cada grupo participar dos protestos. Se soubéssemos, não seria necessário recorrer ao número de pessoas na rua para fazer a conta. Se o objetivo é avaliar o apoio popular, então que façam pesquisas desenhadas para isso. Usar o número de manifestantes para estimar o apoio popular é perigoso, porque algumas suposições bem fortes estão sendo feitas!








Monday, March 21, 2016

Dificuldades para acompanhar as eleições Brasileiras de 2016

Hoje o site PollingData começou a acompanhar as eleições Brasileiras de 2016. As dificuldades logísticas para conseguir consolidar todas as pesquisas publicadas na mídia brasileira são enormes. Muito maiores do que em 2014, ano que o site foi lançado, pois nesse ano ocorrem mais de 5500 eleições municipais. Ou seja, temos que acompanhar muito mais eleições do que as 28 eleições de 2014 (Presidente + 27 governadores). Nesse post vou contar como estávamos nos preparando para esse ciclo eleitoral, e como acabamos tendo nossa vida tremenda facilitada pelo Blog do Fernando Rodrigues (fomos salvos por ele, novamente!!!)

Como mencionado acima, a dificuldade logística de coletar os dados em 2016 é muito maior do que foi 2014. Já há alguns anos tenho uma ideia de como buscar essas pesquisas automaticamente na internet, porém ainda não havia tentado implementá-la. Esse ano senti que seria imprescindível fazer isso para manter o site atualizado.

O algoritmo básico é razoavelmente simples, e depende essencialmente do registro das pesquisas. Em ano de eleição toda pesquisa que for publicada na mídia têm que ser antes registrada no site do TSE, e além disso, na divulgação da pesquisa é obrigatório incluir no texto o número de identificação criado pelo TSE. Com essa combinação de fatores, tenho uma lista atualizada com todas as pesquisas que têm potencial de serem publicadas, e também tenho como buscá-las no Google usando o id do TSE.

Claro que existem muitos detalhes complicados nesse algoritmo, entre eles como determinar quais sites encontrados pelo Google de fato têm de fato o resultado da pesquisa desejada e como extrair o resultado da pesquisa do texto do site. Lembrando que essas etapas são complicadas ainda mais pela existência de simulações de segundo turno, pela existência de voto estimulado e voto espontâneo, e por existirem inicialmente muitos cenários com candidatos diferentes, visto que os candidatos que concorrerão as eleições só serão definidos em Agosto.

A primeira dificuldade real que encontrei foi o site do TSE. Ele foi desenvolvido de uma forma que torna extremamente difícil para um programa extrair as informações necessárias do site. Não vou entrar em detalhes aqui, porém existem sites que são feitos para facilitar o acesso de computadores ao seu conteúdo, e outros que são desenhados pensando apenas na interação com os humanos. O site do TSE foi desenvolvido apenas pensando nos humanos. E para conseguir extrair automaticamente suas informações, tive que utilizar um programa cuja finalidade original é testar sites, para ver se estão funcionando corretamente. Por causa do objetivo desse programa, ele têm vários efeitos colaterais negativos para automatizar a busca de informações em um site. Apesar disso, consegui criar um programa que entra no site do TSE, clica em todas as pesquisas e guarda os resultados.

Feito isso, o próximo passo foi criar um programa que entra no Google e faz uma busca avançada, procurando pelo número de registro da pesquisa e controlando alguns outros detalhes. Essa parte é relativamente fácil, o difícil é decidir quais sites são os mais relevantes e extrair a informação necessária de dentro do site. Para facilitar o desenvolvimento, fiquei trabalhando apenas em extrair as informações de um site em específico. Após conseguir extrair as informações desse site, resolvi testar o algoritmo de extração nos outros hits do Google.

Foi nessa hora que tive uma grande (e boa!) surpresa. Um dos primeiros resultados que encontrei era do Blog do Fernando Rodrigues. Foi ai que descobri que ele havia atualizado seu site para incluir pesquisas de 2016. Como nesse blog existiam diversas pesquisas consolidadas, resolvi parar de desenvolver o algoritmo de extração baseado no site do TSE, e comecei a desenvolver um novo programa para extrair especificamente as pesquisas do blog do Fernando Rodrigues. Após terminar o algoritmo de extração do TSE, darei mais detalhes sobre ele num post futuro.

Apesar de inicialmente parecer mais fácil ter um site com todas as pesquisas já consolidadas do que buscar cada uma individualmente na net, tive mais um grande obstáculo: extrair as informações automaticamente do Blog, pois as pesquisas de cada eleição estão localizadas numa tabela dentro de um arquivo em pdf. Após pesquisar bastante, encontrei um programa muito bom, chamado “tabula”. Consegui executar esse programa de dentro do R (que é o programa que uso para fazer o PollingData) e pronto – consegui de forma automática extrair os resultados das pesquisas!


Depois de todo esse trabalho, estava finalmente pronto para usar os dados da pesquisa e estimar os modelos de previsão do PollingData. E adivinhem?  Mais uma dificuldade, pois com poucas pesquisas e muitos cenários com diferentes candidatos, o modelo que eu tradicionalmente uso não conseguia rodar (missing data!!!). Mas para não cansar demais quem está lendo esse post, deixo pra contar sobre as dificuldades de modelagem em um outro post.

Finalizando, gostaria novamente de agradecer publicamente ao Fernando Rodrigues. Acho o trabalho que ele faz no seu blog espetacular,e além de tudo torna minha vida muito mais fácil! Sem falar que pelo site dele consigo pesquisas fora dos anos de eleição, como em 2015. Isso não seria possível com meu algoritmo pois ele depende do registro das pesquisas.

Monday, February 29, 2016

Probabilidade Incondicional e uma errata

Na semana passada recebi um email de um usuário (André) do site PollingData, afirmando que as probabilidades de vitória (incondicionais) na eleição Geral dos candidatos a presidência dos EUA estavam erradas. Claramente eu não quero que o site esteja errado, então apesar de ter bastante confiança de que as probabilidades estavam sendo calculadas da maneira correta, resolvi refazer os cálculos. Nesse post, vou explicar com mais detalhes como essas probabilidades são calculadas.

Antes de dar mais detalhes sobre o questionamento do André, vou explicar rapidinho porque as probabilidades de vitória nas eleições gerais são denominadas incondicionais. Nos EUA, ao invés de haver Primeiro e Segundo como no Brasil, existem as eleições Primárias e a Geral. Apesar de todo o processo ser bastante diferente, para calcular as probabilidades de vitória dos candidatos a similaridade é grande: vão disputar as eleições Gerais apenas os candidatos que ganharem as eleições Primárias.


As pesquisas divulgadas são para as Primárias, ou então para os cenários mais prováveis para a eleição Geral. Isso quer dizer que as probabilidades de vitória na Geral são condicionais ao cenário sendo considerado. Mas a probabilidade que queremos encontrar é a probabilidade de vitória na eleição Geral, independente do cenário. Essa probabilidade é denominada Incondicional, pois não está condicionada ao cenário.

Para encontrar o probabilidade Incondicional é necessário levar em conta a probabilidade de cada cenário ocorrer e também as probabilidades condicionais de vitória em cada cenário. Esse cálculo não é muito complicado, mas é necessário tomar cuidado pois existem muitos cenários para os quais não foram realizadas pesquisas ou então que não são acompanhados pelo PollingData.

Voltando ao questionamento do André, a probabilidade que chamou a sua atenção era a de vitória incondicional do Bernie Sanders. Para ele, não fazia sentido o Sanders, que tinha apenas 20% de chance de ganhar as primárias, ter uma probabilidade incondicional de vitória de 31%, bem maior do que a chance do Trump vencer (15%) sendo que ele tinha 86% de probabilidade de vitória nas Primárias.

De fato, essa é uma inversão grande, o que a torna suspeita. Antes de publicar o resultado no site, eu também havia me questionado sobre isso. Porém percebi que o Sanders era quem tinha a maior probabilidade condicional de vitória sobre o Trump, chegando a quase 75%. Para contraste, a probabilidade condicional de vitória da Clinton sobre o Trump é de 60%. Esse fato me pareceu suficiente para justificar essa inversão nas probabilidades, então publiquei o resultado.

Mas o André foi bem insistente que havia algo errado. Expliquei para ele o parágrafo  anterior, mas ele não concordou que pudesse haver uma inversão. Com razão.  Nas palavras dele: 

O que é logicamente impossível é o Bernie ter uma probabilidade de ser eleito presidente maior que a de ele mesmo ser nomeado. É o velho problema da Linda, testado pelo Kahneman e o Tversky. O resultado que estava lá era logicamente impossível, não apenas surpreendente

Decidi re-calcular explicitamente todas as probabilidades para mostrar pra ele minhas contas. E ao fazer isso, descobri que havia um erro!!! Não do cálculo das probabilidades, mas os labels estavam trocado. A probabilidade do Trump era a do Sanders, e vice-versa.

Trabalhei muito tempo com uma pessoa extremamente insightful, que sempre teve um feeling “estatístico” muito bom , sobre resultados de modelos , tabulações, probabilidades – tudo! Ele sempre sabia quando havia um erro, mesmo quando era imperceptível para mim. Muitas vezes o erro não era exatamente o que ele imaginava, mas de fato, quase sempre havia um erro. Ele é dessas pessoas que não têm dificuldades em “elicitar prioris subjetivas”.  O André me lembrou dele!

Gostaria de agradecer ao André pelo email, e principalmente por se preocupar. De fato, além de ajudar a melhorar o meu site, tivemos uma troca interessante de emails!