Wednesday, February 15, 2017

Banco de dados sobre terrorismo

Após a posse do novo presidente americano Donald Trump em 20/01/2017, diversas ações do americano têm causada bastante polêmica. Talvez a medida mais polêmica de todas tenha sido a proibição da entrada nos EUA de qualquer pessoa dos seguintes países: Síria, Iraque, Irã, Líbia, Sudão, Iêmen e Somália. Detalhes sobre essa medida podem ser encontrados nesse artigo.

O que causou mais controvérsia, além do fato dessa ser uma medida extremamente arbitrária, tratando todos os cidadãos desses países como terroristas, foi a aparente falta de critério claro na escolha dos 7 países. Como pode ser visto aqui, não há registro de nenhum terrorista desses países atuando em território americano desde o ataque de 11 de setembro.

Com todas essas notícias sobre essa medida, pensei que seria interessante calcular qual é a chance de uma pessoa ser terrorista dado que ela é de um desses países. Dessa forma podemos quantificar de forma precisa o risco que se corre ao deixar cidadãos desses países entrarem em seu território. Também poderia avaliar em quais países essa chance é maior. Ou seja, poderíamos avaliar se têm sentido as escolhas feitas por Trump.

Para fazer essas contas, precisamos apenas do Teorema de Bayes e da nacionalidade dos terroristas, além do tamanho populacional dos países envolvidos. Pra minha tristeza, não consegui encontrar a nacionalidade dos terroristas.

Por outro lado, encontrei uma grande quantidade de informações em bases de dados sobre terrorismo, como pode ser visto nesse site, na seção "Data Sources". A análise que eu queria fazer não é possível ainda, mas muitas outras podem ser realizadas com esses dados, por isso resolvi ajudar na divulgação dos mesmos para que o assunto possa ser melhor estudado.

Mas ainda tenho esperança que informações sobre a nacionalidade dos terroristas sejam coletadas, pois ajudariam muito na discussão dessa medida polêmica adotada pelo Trump.

Tuesday, January 31, 2017

É "justo" que a premiação do tênis para torneios masculinos e femininos seja igual?


Desde 2007, a ATP (associação de tenistas profissionais) oferece a mesma premiação para homens e mulheres nos principais torneios de simples do planeta. Esse fato causa alguma controvérsia, como pode ser visto nesse link, pois questiona-se se é justo que homens e mulheres recebam o mesmo valor para vencer esses torneios. O principal argumento utilizado é que o torneio masculino arrecada mais dinheiro (público/audiência/patrocinadores), e sendo assim os homens deveriam receber mais dinheiro pela conquista.

Uma outra diferença importante é que os jogos dos principais torneios são disputados no sistema melhor de 3 sets para as mulheres, e melhor de 5 sets para os homens. Ou seja, no geral os homens têm que jogar mais sets para ganhar o campeonato do que as mulheres. Apenas para exemplificar, no torneio de Wimbledon de 2016, o Andy Murray ganhou o torneio masculino disputando 23 sets, enquanto a Serena Williams ganhou o feminino disputando 15 sets.

Nesse post vou ignorar todas as questões comerciais, e apenas pensar sobre o esforço que cada atleta têm que fazer para ganhar o torneio. Nesse contexto, a premiação justa deveria levar em conta o esforço médio realizado por um homem e por uma mulher para vencer o torneio. Se os níveis de esforço forem similares, a premiação também deve ser. Se forem muito diferentes, essa diferença deveria ser levada em conta na distribuição dos prêmios.

Se o esforço da mulher para disputar 3 sets for equivalente ao esforço do homem para disputar 5 sets, então as premiações devem ser iguais. A dificuldade então reside em como avaliar, de forma justa, o nível de esforço dos atletas. Claramente não existe uma forma definitiva de avaliar isso, devido a tremenda complexidade das diferenças entre homens e mulheres. Sem falar das nuances de cada esporte e das diferentes estratégias de jogo de cada jogador.  Mesmo sabendo dessas limitações na análise, qual seria uma forma razoável de avaliar o nível de esforço?

Na grande maioria dos esportes homens e mulheres disputam torneios separadamente. Isso ocorre porque a velocidade, a força, o reflexo de homens e mulheres são diferentes. Seus corpos são muito diferentes. Separando as competições de acordo com o sexo faz com as disputas sejam mais justas e equilibradas para todos os atletas. Como exemplo, no atletismo é fácil avaliar a diferença de performance entre os sexos, como mostramos na tabela 1 abaixo, que compara os tempos dos recordes mundiais para as principais distâncias de corrida.

Distância
Homem
Mulher
Diferença %
100 m
0'9''58
0'10''49
9.5%
200 m
0'19''19
0'21''34
11.2%
400 m
0'43''03
0'47''6
9.4%
800 m
1'40''9
1'53''3
12.9%
1 km
2'12''0
2'29''0
12.9%
1,5 km
3'26''0
3'50''1
11.7%
2 km
4'44''8
5'25''4
14.4%
3 km
7'20''7
8'06''1
10.4%
5 km
12'37''4
14'11''2
12.4%
10 km
26'17''5
29'17''4
11.4%
20 km
55'21''0
60'01''54
8.4%
Meia Maratona (21 km)
58'23''0
60'05''09
2.9%
Maratona (42 km)
120'02''57
120'17''42
0.2%
100 km
360'13''33
360'33''11
0.1%

Dessa tabela percebemos que o desempenho relativo entre os sexos se aproxima, quanto maior for a distância. Na corrida de 100m, por exemplo, o tempo das mulheres é 9.5% mais lento que o dos homens. Já no caso da maratona, a diferença é de apenas 0.2%. Ou seja, dependendo da distância percorrida, a diferença relativa entre os tempos é diferente.

Se fizermos a suposição (bastante forte) de que os níveis de esforço dos atletas são proporcionais aos tempos dos recordes mundiais de atletismo, podemos utilizar essas diferenças para avaliar o esforço relativo dos atletas numa partida de tênis. Num jogo de tênis masculino, os jogadores usualmente correm entre 4 e 10 km, como pode ser visto nesse link. Nessa faixa, destacada em amarelo na tabela acima, vemos que o desempenho das mulheres é, em média, 12% inferior ao dos homens. Utilizando esse valor como referência, podemos dizer que uma partida de tênis feminina deveria ter 88% da duração da partida de tênis masculina para que o nível de esforço fosse similar.

Como as mulheres disputam no máximo 3 sets e os homens 5 sets, podemos supor que em média as mulheres disputam apenas 60% dos sets que os homens disputam. Claro que esse percentual pode oscilar bastante, dependendo de competitividade nos torneios entre outros, porém aqui quero simplificar a análise ao máximo (alguém com interesse pode refazer essa análise utilizando o número médio de sets que homes e mulheres jogam). Pelo nosso critério acima, o justo seria que a mulher jogasse 88% dos sets que os homens jogam. Assim temos que o esforço relativo da mulher está 28% abaixo do esforço do homem. Por esse critério, a premiação feminina deveria também ser 28% inferior.

Se os torneios femininos passassem a ser jogados no sistema melhor de 5 sets como no caso dos homens, qual deveria ser a premiação de cada sexo? Nesse caso, temos que as mulheres estão jogando 100% dos sets masculinos, porém o justo seria jogarem apenas 88%. Ou seja, nesse cenário elas se esforçam 12% a mais do que os homens, então também deveriam receber uma premiação 12% maior. Ambos esses cenários foram resumidos na tabela abaixo.


Cenário 1
Cenário 2
Sets Disputados Mulheres
3
5
Sets Disputados Homens
5
5
Esforço realizado (# sets Mulheres/Homens)
60%
100%
Esforço "ideal"
88%
88%
Diferença
-28%
12%

Escrevi esse post porque tive uma conversa com uma amiga minha sobre essa questão do tênis, e ficamos pensando como poderíamos medir esse esforço. Depois da conversa fiquei pensando sobre isso e tive a ideia de utilizar os tempos dos recordes mundiais. Minha análise aqui é bem “simplista”, mas mostra como é possível utilizar uma variável “proxy” para medir algum fator difícil de ser mensurado/observado.

Claro que tanto a variável quanto o critério de comparação utilizado podem ser melhorados, porém nesse post vemos como mesmo com uma análise simples e subjetiva é possível obter insights sobre o tema sendo estudado. E o melhor é que essa análise pode ser continuamente refinada, melhorando tanto o nosso entendimento do assunto quanto as estimativas obtidas. Até por isso eu não utilizaria esses resultados para pedir a ATP que redefina as premiação. Porém essa análise mostra que pode existir alguma verdade por trás da polêmica, e que talvez esse tema devesse ser estudo com seriedade pela ATP.

Thursday, December 8, 2016

Na Copa do Brasil, é mais vantajoso jogar o primeiro ou o segundo jogo em casa?

O site PollingData (http://www.pollingdata.com.br/) recentemente passou a acompanhar alguns campeonatos de futebol do Brasil, porém meu interesse por futebol é bem mais antigo. Uma das minhas dúvidas mais antigas que combinam futebol e estatística está relacionada a campeonatos de futebol onde o número de gols fora de casa é utilizado como critério de desempate.

No geral, parece haver um consenso de que numa disputa de ‘mata-mata’ (onde dois times fazem um jogo em casa e um jogo fora), jogar o último jogo em casa é mais vantajoso. Porém no contexto onde o gol fora de casa vale mais, será que ainda é mais vantajoso jogar o segundo jogo em casa? Minha sensação é de que dessa forma o resultado do segundo jogo acaba sendo distorcido, e que talvez seja melhor jogar o primeiro jogo em casa, sem as distorções causadas pelos gols fora de casa no jogo anterior. Sem contar que no segundo jogo, quem tem a vantagem de fazer “gols fora de casa” é o time que jogou o primeiro jogo em casa.

Para verificar se de fato jogar o segundo jogo é mais vantajoso nesse contexto, decidir analisar os resultados de todos os jogos de todas as Copas do Brasil disputadas até hoje (28 campeonatos disputados entre 1989 e 2016). Baixei todos os dados do site ogol utilizando a biblioteca rvest do R, que é muito boa e simples de usar. Minha maior dificuldade foi que o site começou a não permitir meu acesso, desconfiando (com razão) que não fosse um humano, e sim um programa que estava acessando os dados J

Hoje em dia a Copa do Brasil conta com 86 times, de todas as divisões do futebol brasileiro, então claramente existe uma diferença muito grande de qualidade entre os times. Tanto que na primeira fase, os times de menor expressão jogam o primeiro jogo em casa, e se perderem por 2 gols de diferença ou mais em casa, são eliminados sem realizar o jogo de volta.

Como não tenho muito tempo para fazer essa análise, porém quero evitar que minhas estimativas de chance de vitória tenham seus efeitos confundidos por causa do diferencial técnico entre os times, vou tomar o cuidado de analisar separadamente os jogos realizados a partir das oitavas de final. Estou supondo que a partir dessa fase, os times classificados têm um nível técnico mais similar. Claro que existem outros fatores que também podem influenciar os resultados, como cartões, expulsões, dois times da mesma cidade, outros campeonatos ocorrendo em paralelo, porém esses fatores não serão controlados aqui.

Na tabela abaixo, calculei o percentual de vezes que os times jogando em casa o primeiro ou o segundo jogo venceram a disputa, distinguindo entre as diferentes fases do campeonato. Fica evidente que ao analisar todas as fases conjuntamente, jogar o segundo jogo em casa é, em média, duas vezes melhor do que jogar o primeiro jogo em casa. Mesmo olhando apenas as fases finais (com exceção da grande final), com os times mais parelhos, a vantagem ainda é de jogar a partida final em casa, porém em grau bem menor. De cada 17 duelos, apenas 1 a mais será ganho pelo time jogando a última partida em casa.





Talvez a estatística mais interessante da tabela seja relacionada a final do campeonato. Na disputa final, não esquecendo que temos uma amostra menor, a relação parece ser ao contrário. Ou seja, na final é mais vantajoso jogar a primeira partida em casa. Por mais que apenas esse resultado vá de encontro ao que eu esperava, é difícil encontrar uma explicação para essa inversão apenas nessa disputa. Talvez os times visitantes entrem em campo mais cautelosos no primeiro jogo e façam menos gols fora de casa, dando dessa forma uma vantagem para quem joga a primeira em casa.Talvez seja por causa da pressão do time que joga em casa*. Independente de qual hipótese é correta, os dados mostram que no jogo de ida das finais, 53% das vezes o time visitante não fez gol. Um percentual bem alto se comparado com a média geral do campeonato, considerando todas as fases, que é de apenas 28%.



Para finalizar, me parece interessante apresentar uma tabela (acima) com as chances de vitória do time que joga o primeiro jogo em casa dependendo do número de gols marcados no primeiro jogo (tanto pelo time de casa quanto o visitante).  Nessa tabela estamos considerando apenas as fases finais do campeonato. Se de fato na final os times visitantes no primeiro jogo tendem a ser mais conservadores, e não fazerem gols, vemos que a probabilidade de vitória para os mandantes do primeiro jogo,  quando não sofrem gols,  é de 54%.

Fica claro dessa análise que a minha hipótese inicial, de que é mais vantajoso jogar o primeiro jogo em casa, não é verdade na maioria dos casos, com exceção da grande final.  Por isso que estatística é tão interessante, podemos empiricamente compreender o mundo em que estamos, testar hipóteses e aprender com isso. Na minha próxima conversa de boteco, meu discurso sobre o 'gol fora de casa'  será outro!

*Vale ressaltar que em 2015 o regulamento da Copa do Brasil foi alterado, e a partir desse ano gol fora de casa não é mais critério de desempate na final. Esse fato poderia afetar os resultados e ajudar a explicar porque na final os resultados parecem invertidos, porém dos 28 embates na base de dados, apenas os dois últimos ocorreram com as novas regras.








Friday, November 25, 2016

PollingData agora está prevendo o resultado do Campeonato Brasileiro de 2016

O site PollingData (http://www.pollingdata.com.br/) acabou lançar uma novidade: estamos prevendo os resultados dos jogos do Brasileirão 2016 – Série A. O campeonato está quase no final, mas como as eleições americanas e brasileiras terminaram, decidimos testar nossos modelos de previsão em outros eventos.

Estamos usando um modelo hierárquico bayesiano (baseado na Poisson bivariada). Por enquanto o modelo é bem simples, mas a forma como foi construído permite que o modelo incorpore facilmente novas informações para prever os resultados dos jogos, como por exemplo levar em conta que um time está numa trajetória ascendente/descendente (aguarde por futuras atualizações).

Com o nosso modelo calculamos as chances de ganhar o campeonato, de classificação para a Libertadores, de rebaixamento, além das probabilidades de vitória/empate/derrota para todos os jogos que ainda não foram realizados. Também incluímos um gráfico iterativo, que permite comparar a trajetória de diferentes times ao longo do campeonato. O site será atualizado ao final de todas as rodadas, então não deixe de acessar o site regularmente para ver quais times ganharão na próxima rodada!


Se você tem interesse em previsões de campeonatos de futebol, recomendamos o site Chance de Gol, do Marcelo Arruda, que é especialista no assunto e acompanha os principais campeonatos do mundo. Seu site está no ar há mais de 10 anos, e é a fonte que nós consultamos para validar o modelo de previsão de futebol do PollingData. Outra referência interessante é o site Previsão Esportiva, do pessoal de São Carlos.

Friday, October 14, 2016

PollingData acompanhando o segundo turno das eleições municipais de 2016

Hoje o site PollingData (http://www.pollingdata.com.br/) começa oficialmente a acompanhar as pesquisas do segundo turno das eleições municipais de 2016. Nesse momento estamos acompanhando 40 eleições municipais, com mais de 170 pesquisas do segundo turno incluidas em nosso acervo. 

Todas as eleições sendo acompanhadas, as previsões, as probabilidades de vitória e os gráficos com os vieses dos institutos estão no menu “Eleições 2016 > Brasil” que pode ser acessado diretamente pelo link http://www.pollingdata.com.br/#br2016. No Dashboard do site, na aba “Eleições 2016 (Brasil)”, disponibilizamos uma tabela resumo com os resultados de todas as capitais.


Também atualizamos as previsões do resultado da eleição americana de 2016. Agora estamos acompanhando pesquisas de todos os 51 estados, além das pesquisas nacionais. No Dashboard do site, na aba “Eleição Geral (EUA)”, disponibilizamos uma tabela resumo com os resultados de todos os estados. Para ver detalhes das previsões, acesse o link http://www.pollingdata.com.br/#us2016G.

Friday, October 7, 2016

Incluindo o resultado do primeiro turno das eleições municipais de 2016

O site PollingData (http://www.pollingdata.com.br/) foi atualizado com o resultado do primeiro turno das eleições municipais de 2016. Agora você pode ver em um único gráfico toda a história de cada eleição, com todas as pesquisas publicadas e também com o resultado do pleito. Os gráficos atualizados encontram-se no menu “Eleições 2016 > Brasil” que pode ser acessado diretamente pelo link  http://www.pollingdata.com.br/#br2016.
Na semana que vem, faremos uma avaliação da performance das pesquisas eleitorais no primeiro turno, e as pesquisas do segundo turno também serão incluídas no site. Não deixe de acessar o site para conferir!

Sunday, October 2, 2016

Previsão atualizada do primeiro turno das eleições municipais de 2016

O site PollingData (http://www.pollingdata.com.br/) foi atualizado com as pesquisas eleitorais mais recentes das seguintes cidades: São Paulo, Rio de Janeiro, Belo Horizonte, Recife, Fortaleza, Salvador, Curitiba, Goiânia, Belém, João Pessoa, Vitória, Campinas, Ribeirão Preto, Santos e Feira de Santana.

Acesse o site para ver a previsão atualizada do resultado da eleição na sua cidade. Nesse momento estamos acompanhando 113 eleições municipais, com mais de 420 pesquisas do primeiro turno incluídas em nosso acervo.