Polling Data

Monday, December 10, 2018

Thursday, June 14, 2018

Qual grupo da Copa do Mundo de 2018 é mais difícil?

Após o sorteio dos grupos da Copa do Mundo da FIFA de 2018, é comum ouvir amantes do futebol, perguntarem: “Qual foi o grupo mais difícil ?” .

Vamos tentar responder a essa pergunta, de forma objetiva, utilizando o modelo de simulação de jogos de futebol do site de previsões PollingData (http://www.pollingdata.com.br/), o qual leva em consideração todos os jogos entre seleções (oficiais e amistosos) realizados desde 2014. Com esse modelo é possível estimar a probabilidade de cada seleção se classificar para as oitavas-de-final da Copa (ou seja, ficar nas 2 primeiras posições ao final dos jogos dessa fase). Essa probabilidades estão na tabela abaixo, e serão utilizadas para responder a pergunta.

O passo mais importante para responder a pergunta é definir com objetividade o que quer dizer “grupo mais difícil”. Vários critérios diferentes podem ser utilizados, baseados em diferentes medidas. Um exemplo bastante óbvio seria utilizar o ranking de seleções da FIFA, calculando o ranking médio por grupo. O problema é que esse critério está, na verdade, avaliando em quais grupos estão as seleções mais fortes, mas essa não é a resposta a pergunta proposta.

Um grupo pode ter um ranking médio bastante baixo, porém ainda ser muito difícil para seus participantes. O critério correto deve levar em conta a similaridade das seleções. Teoricamente, o grupo mais difícil seria aquele onde todas as seleções tivessem exatamente o mesmo nível técnico. O fato de ser um nível alto ou baixo não é relevante para os participantes que estão no grupo. O ranking médio poderia ser utilizado apenas para desempatar o ranking dos grupos, no caso de haver dois grupos com o mesmo score no critério de dificuldade adotado.

Utilizando as probabilidades de classificação apresentadas acima, podemos dizer que o grupo mais difícil é aquele mais imprevisível. Ou seja, em um grupo, quanto mais similares forem as probabilidades de se classificar para as Oitavas-de-final, mais difícil o grupo deve ser considerado. O exemplo extremo dessa dificuldade seria um grupo onde todos as seleções tivessem 50% de chance de classificação.

A Entropia da Informação (Information Entropy) é uma medida bastante conhecida na Estatística e na Teoria da Informação, a qual pode ser utilizada justamente para medir a “quantidade de incerteza” numa distribuição de probabilidade. Quanto mais incerteza, mais difícil de prever pois mais resultados são possíveis e consequentemente, mais difícil será o grupo. Não vamos entrar em mais detalhes aqui, mas acesse esse link se quiser mais detalhes sobre a entropia. Uma observação técnica relevante é que estamos aplicando a entropia nas probabilidades de classificação, apesar delas não formarem uma distribuição de probabilidades propriamente dita, visto que a soma das probabilidades é 2 (quando deveria ser 1). Apesar disso, a interpretação da entropia ainda é a mesma.

Na tabela abaixo calculamos a Entropia da Informação para cada grupo, e ordenamos a tabela de acordo com o ranking de entropia (dificuldade). Utilizando o critério discutido aqui nesse blog, o grupo mais difícil é o Grupo H, das seleções de Colômbia, Polônia, Senegal e Japão. Nesse caso, é interessante notar que esse grupo que é considerado o mais fraco tecnicamente por muitos especialistas, é na verdade o grupo mais difícil, por que ele será o mais disputado devida a maior similaridade técnica entres os participantes.

Depois desse grupo, o mais difíceis são, em ordem, o grupo D (da Argentina) e o grupo B (de Espanha e Portugal) empatados em segundo, e depois o grupo E, do Brasil , F da Alemanha e C da França empatados em terceiro. O grupo mais fácil é o G, da Bélgica e Inglaterra. Esse grupo, inclusive, é quem mais se distancia dos outros em relação a entropia. Ou seja, nessa Copa não temos um grupo da morte, mas sim um grupo da moleza!

Wednesday, February 15, 2017

Banco de dados sobre terrorismo

Após a posse do novo presidente americano Donald Trump em 20/01/2017, diversas ações do americano têm causada bastante polêmica. Talvez a medida mais polêmica de todas tenha sido a proibição da entrada nos EUA de qualquer pessoa dos seguintes países: Síria, Iraque, Irã, Líbia, Sudão, Iêmen e Somália. Detalhes sobre essa medida podem ser encontrados nesse artigo.

O que causou mais controvérsia, além do fato dessa ser uma medida extremamente arbitrária, tratando todos os cidadãos desses países como terroristas, foi a aparente falta de critério claro na escolha dos 7 países. Como pode ser visto aqui, não há registro de nenhum terrorista desses países atuando em território americano desde o ataque de 11 de setembro.

Com todas essas notícias sobre essa medida, pensei que seria interessante calcular qual é a chance de uma pessoa ser terrorista dado que ela é de um desses países. Dessa forma podemos quantificar de forma precisa o risco que se corre ao deixar cidadãos desses países entrarem em seu território. Também poderia avaliar em quais países essa chance é maior. Ou seja, poderíamos avaliar se têm sentido as escolhas feitas por Trump.

Para fazer essas contas, precisamos apenas do Teorema de Bayes e da nacionalidade dos terroristas, além do tamanho populacional dos países envolvidos. Pra minha tristeza, não consegui encontrar a nacionalidade dos terroristas.

Por outro lado, encontrei uma grande quantidade de informações em bases de dados sobre terrorismo, como pode ser visto nesse site, na seção "Data Sources". A análise que eu queria fazer não é possível ainda, mas muitas outras podem ser realizadas com esses dados, por isso resolvi ajudar na divulgação dos mesmos para que o assunto possa ser melhor estudado.

Mas ainda tenho esperança que informações sobre a nacionalidade dos terroristas sejam coletadas, pois ajudariam muito na discussão dessa medida polêmica adotada pelo Trump.

Tuesday, January 31, 2017

É "justo" que a premiação do tênis para torneios masculinos e femininos seja igual?

Desde 2007, a ATP (associação de tenistas profissionais) oferece a mesma premiação para homens e mulheres nos principais torneios de simples do planeta. Esse fato causa alguma controvérsia, como pode ser visto nesse link, pois questiona-se se é justo que homens e mulheres recebam o mesmo valor para vencer esses torneios. O principal argumento utilizado é que o torneio masculino arrecada mais dinheiro (público/audiência/patrocinadores), e sendo assim os homens deveriam receber mais dinheiro pela conquista.

Uma outra diferença importante é que os jogos dos principais torneios são disputados no sistema melhor de 3 sets para as mulheres, e melhor de 5 sets para os homens. Ou seja, no geral os homens têm que jogar mais sets para ganhar o campeonato do que as mulheres. Apenas para exemplificar, no torneio de Wimbledon de 2016, o Andy Murray ganhou o torneio masculino disputando 23 sets, enquanto a Serena Williams ganhou o feminino disputando 15 sets.

Nesse post vou ignorar todas as questões comerciais, e apenas pensar sobre o esforço que cada atleta têm que fazer para ganhar o torneio. Nesse contexto, a premiação justa deveria levar em conta o esforço médio realizado por um homem e por uma mulher para vencer o torneio. Se os níveis de esforço forem similares, a premiação também deve ser. Se forem muito diferentes, essa diferença deveria ser levada em conta na distribuição dos prêmios.

Se o esforço da mulher para disputar 3 sets for equivalente ao esforço do homem para disputar 5 sets, então as premiações devem ser iguais. A dificuldade então reside em como avaliar, de forma justa, o nível de esforço dos atletas. Claramente não existe uma forma definitiva de avaliar isso, devido a tremenda complexidade das diferenças entre homens e mulheres. Sem falar das nuances de cada esporte e das diferentes estratégias de jogo de cada jogador. Mesmo sabendo dessas limitações na análise, qual seria uma forma razoável de avaliar o nível de esforço?

Na grande maioria dos esportes homens e mulheres disputam torneios separadamente. Isso ocorre porque a velocidade, a força, o reflexo de homens e mulheres são diferentes. Seus corpos são muito diferentes. Separando as competições de acordo com o sexo faz com as disputas sejam mais justas e equilibradas para todos os atletas. Como exemplo, no atletismo é fácil avaliar a diferença de performance entre os sexos, como mostramos na tabela 1 abaixo, que compara os tempos dos recordes mundiais para as principais distâncias de corrida.

Distância	Homem	Mulher	Diferença %
100 m	0'9''58	0'10''49	9.5%
200 m	0'19''19	0'21''34	11.2%
400 m	0'43''03	0'47''6	9.4%
800 m	1'40''9	1'53''3	12.9%
1 km	2'12''0	2'29''0	12.9%
1,5 km	3'26''0	3'50''1	11.7%
2 km	4'44''8	5'25''4	14.4%
3 km	7'20''7	8'06''1	10.4%
5 km	12'37''4	14'11''2	12.4%
10 km	26'17''5	29'17''4	11.4%
20 km	55'21''0	60'01''54	8.4%
Meia Maratona (21 km)	58'23''0	60'05''09	2.9%
Maratona (42 km)	120'02''57	120'17''42	0.2%
100 km	360'13''33	360'33''11	0.1%

Dessa tabela percebemos que o desempenho relativo entre os sexos se aproxima, quanto maior for a distância. Na corrida de 100m, por exemplo, o tempo das mulheres é 9.5% mais lento que o dos homens. Já no caso da maratona, a diferença é de apenas 0.2%. Ou seja, dependendo da distância percorrida, a diferença relativa entre os tempos é diferente.

Se fizermos a suposição (bastante forte) de que os níveis de esforço dos atletas são proporcionais aos tempos dos recordes mundiais de atletismo, podemos utilizar essas diferenças para avaliar o esforço relativo dos atletas numa partida de tênis. Num jogo de tênis masculino, os jogadores usualmente correm entre 4 e 10 km, como pode ser visto nesse link. Nessa faixa, destacada em amarelo na tabela acima, vemos que o desempenho das mulheres é, em média, 12% inferior ao dos homens. Utilizando esse valor como referência, podemos dizer que uma partida de tênis feminina deveria ter 88% da duração da partida de tênis masculina para que o nível de esforço fosse similar.

Como as mulheres disputam no máximo 3 sets e os homens 5 sets, podemos supor que em média as mulheres disputam apenas 60% dos sets que os homens disputam. Claro que esse percentual pode oscilar bastante, dependendo de competitividade nos torneios entre outros, porém aqui quero simplificar a análise ao máximo (alguém com interesse pode refazer essa análise utilizando o número médio de sets que homes e mulheres jogam). Pelo nosso critério acima, o justo seria que a mulher jogasse 88% dos sets que os homens jogam. Assim temos que o esforço relativo da mulher está 28% abaixo do esforço do homem. Por esse critério, a premiação feminina deveria também ser 28% inferior.

Se os torneios femininos passassem a ser jogados no sistema melhor de 5 sets como no caso dos homens, qual deveria ser a premiação de cada sexo? Nesse caso, temos que as mulheres estão jogando 100% dos sets masculinos, porém o justo seria jogarem apenas 88%. Ou seja, nesse cenário elas se esforçam 12% a mais do que os homens, então também deveriam receber uma premiação 12% maior. Ambos esses cenários foram resumidos na tabela abaixo.

	Cenário 1	Cenário 2
Sets Disputados Mulheres	3	5
Sets Disputados Homens	5	5
Esforço realizado (# sets Mulheres/Homens)	60%	100%
Esforço "ideal"	88%	88%
Diferença	-28%	12%

Escrevi esse post porque tive uma conversa com uma amiga minha sobre essa questão do tênis, e ficamos pensando como poderíamos medir esse esforço. Depois da conversa fiquei pensando sobre isso e tive a ideia de utilizar os tempos dos recordes mundiais. Minha análise aqui é bem “simplista”, mas mostra como é possível utilizar uma variável “proxy” para medir algum fator difícil de ser mensurado/observado.

Claro que tanto a variável quanto o critério de comparação utilizado podem ser melhorados, porém nesse post vemos como mesmo com uma análise simples e subjetiva é possível obter insights sobre o tema sendo estudado. E o melhor é que essa análise pode ser continuamente refinada, melhorando tanto o nosso entendimento do assunto quanto as estimativas obtidas. Até por isso eu não utilizaria esses resultados para pedir a ATP que redefina as premiação. Porém essa análise mostra que pode existir alguma verdade por trás da polêmica, e que talvez esse tema devesse ser estudo com seriedade pela ATP.

Thursday, December 8, 2016

Na Copa do Brasil, é mais vantajoso jogar o primeiro ou o segundo jogo em casa?

O site PollingData (http://www.pollingdata.com.br/) recentemente passou a acompanhar alguns campeonatos de futebol do Brasil, porém meu interesse por futebol é bem mais antigo. Uma das minhas dúvidas mais antigas que combinam futebol e estatística está relacionada a campeonatos de futebol onde o número de gols fora de casa é utilizado como critério de desempate.

No geral, parece haver um consenso de que numa disputa de ‘mata-mata’ (onde dois times fazem um jogo em casa e um jogo fora), jogar o último jogo em casa é mais vantajoso. Porém no contexto onde o gol fora de casa vale mais, será que ainda é mais vantajoso jogar o segundo jogo em casa? Minha sensação é de que dessa forma o resultado do segundo jogo acaba sendo distorcido, e que talvez seja melhor jogar o primeiro jogo em casa, sem as distorções causadas pelos gols fora de casa no jogo anterior. Sem contar que no segundo jogo, quem tem a vantagem de fazer “gols fora de casa” é o time que jogou o primeiro jogo em casa.

Para verificar se de fato jogar o segundo jogo é mais vantajoso nesse contexto, decidir analisar os resultados de todos os jogos de todas as Copas do Brasil disputadas até hoje (28 campeonatos disputados entre 1989 e 2016). Baixei todos os dados do site ogol utilizando a biblioteca rvest do R, que é muito boa e simples de usar. Minha maior dificuldade foi que o site começou a não permitir meu acesso, desconfiando (com razão) que não fosse um humano, e sim um programa que estava acessando os dados J

Hoje em dia a Copa do Brasil conta com 86 times, de todas as divisões do futebol brasileiro, então claramente existe uma diferença muito grande de qualidade entre os times. Tanto que na primeira fase, os times de menor expressão jogam o primeiro jogo em casa, e se perderem por 2 gols de diferença ou mais em casa, são eliminados sem realizar o jogo de volta.

Como não tenho muito tempo para fazer essa análise, porém quero evitar que minhas estimativas de chance de vitória tenham seus efeitos confundidos por causa do diferencial técnico entre os times, vou tomar o cuidado de analisar separadamente os jogos realizados a partir das oitavas de final. Estou supondo que a partir dessa fase, os times classificados têm um nível técnico mais similar. Claro que existem outros fatores que também podem influenciar os resultados, como cartões, expulsões, dois times da mesma cidade, outros campeonatos ocorrendo em paralelo, porém esses fatores não serão controlados aqui.

Na tabela abaixo, calculei o percentual de vezes que os times jogando em casa o primeiro ou o segundo jogo venceram a disputa, distinguindo entre as diferentes fases do campeonato. Fica evidente que ao analisar todas as fases conjuntamente, jogar o segundo jogo em casa é, em média, duas vezes melhor do que jogar o primeiro jogo em casa. Mesmo olhando apenas as fases finais (com exceção da grande final), com os times mais parelhos, a vantagem ainda é de jogar a partida final em casa, porém em grau bem menor. De cada 17 duelos, apenas 1 a mais será ganho pelo time jogando a última partida em casa.

Talvez a estatística mais interessante da tabela seja relacionada a final do campeonato. Na disputa final, não esquecendo que temos uma amostra menor, a relação parece ser ao contrário. Ou seja, na final é mais vantajoso jogar a primeira partida em casa. Por mais que apenas esse resultado vá de encontro ao que eu esperava, é difícil encontrar uma explicação para essa inversão apenas nessa disputa. Talvez os times visitantes entrem em campo mais cautelosos no primeiro jogo e façam menos gols fora de casa, dando dessa forma uma vantagem para quem joga a primeira em casa.Talvez seja por causa da pressão do time que joga em casa*. Independente de qual hipótese é correta, os dados mostram que no jogo de ida das finais, 53% das vezes o time visitante não fez gol. Um percentual bem alto se comparado com a média geral do campeonato, considerando todas as fases, que é de apenas 28%.

Para finalizar, me parece interessante apresentar uma tabela (acima) com as chances de vitória do time que joga o primeiro jogo em casa dependendo do número de gols marcados no primeiro jogo (tanto pelo time de casa quanto o visitante). Nessa tabela estamos considerando apenas as fases finais do campeonato. Se de fato na final os times visitantes no primeiro jogo tendem a ser mais conservadores, e não fazerem gols, vemos que a probabilidade de vitória para os mandantes do primeiro jogo, quando não sofrem gols, é de 54%.

Fica claro dessa análise que a minha hipótese inicial, de que é mais vantajoso jogar o primeiro jogo em casa, não é verdade na maioria dos casos, com exceção da grande final. Por isso que estatística é tão interessante, podemos empiricamente compreender o mundo em que estamos, testar hipóteses e aprender com isso. Na minha próxima conversa de boteco, meu discurso sobre o 'gol fora de casa' será outro!

*Vale ressaltar que em 2015 o regulamento da Copa do Brasil foi alterado, e a partir desse ano gol fora de casa não é mais critério de desempate na final. Esse fato poderia afetar os resultados e ajudar a explicar porque na final os resultados parecem invertidos, porém dos 28 embates na base de dados, apenas os dois últimos ocorreram com as novas regras.

Friday, November 25, 2016

PollingData agora está prevendo o resultado do Campeonato Brasileiro de 2016

O site PollingData (http://www.pollingdata.com.br/) acabou lançar uma novidade: estamos prevendo os resultados dos jogos do Brasileirão 2016 – Série A. O campeonato está quase no final, mas como as eleições americanas e brasileiras terminaram, decidimos testar nossos modelos de previsão em outros eventos.

Estamos usando um modelo hierárquico bayesiano (baseado na Poisson bivariada). Por enquanto o modelo é bem simples, mas a forma como foi construído permite que o modelo incorpore facilmente novas informações para prever os resultados dos jogos, como por exemplo levar em conta que um time está numa trajetória ascendente/descendente (aguarde por futuras atualizações).

Com o nosso modelo calculamos as chances de ganhar o campeonato, de classificação para a Libertadores, de rebaixamento, além das probabilidades de vitória/empate/derrota para todos os jogos que ainda não foram realizados. Também incluímos um gráfico iterativo, que permite comparar a trajetória de diferentes times ao longo do campeonato. O site será atualizado ao final de todas as rodadas, então não deixe de acessar o site regularmente para ver quais times ganharão na próxima rodada!

Se você tem interesse em previsões de campeonatos de futebol, recomendamos o site Chance de Gol, do Marcelo Arruda, que é especialista no assunto e acompanha os principais campeonatos do mundo. Seu site está no ar há mais de 10 anos, e é a fonte que nós consultamos para validar o modelo de previsão de futebol do PollingData. Outra referência interessante é o site Previsão Esportiva, do pessoal de São Carlos.