Sum Ario: 1 Resumo 2 2 Introduc Ao 2

Sumário
1 Resumo 2
2 Introdução 2
2.1 Análise descritiva dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
3 Modelo 5
3.1 Distribuição Poisson Zero Modificada (ZMP) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3.2 Modelo ZMP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3.3 Inferência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
4 Metodologia 8
4.1 Partidas Simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
4.2 Predição para resultados das Partidas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
4.3 Medida de avaliação da qualidade das previsões . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
5 Resultados 11
5.1 Partidas simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
5.2 Previsão para o campeonato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
6 Conclusão 16
1
1 Resumo
Dentro os muitos trabalhos utilizando modelos de previsão esportiva voltados para previsão no futebol
publicados, o modelo de Poisson é um dos mais empregados. Contudo, observa-se em situações reais a não
satisfação da restrição deste modelo, na qual média amostral deve ser igual a variância amostral. Implicando na
necessidade da utilização de modelos que expliquem melhor o comportamento dos dados que apresentam estas
caracterı́sticas. Neste contexto, será utilizado o modelo de Poisson Zero Modificado para ajustar o modelo
aos dados do campeonato Espanhol 2014-2015, para obtenção de previsão resultados deste. Os resultados
serão comparados com aqueles obtidos utilizando o modelo tradicional de Poisson, recorrente nos modelos
preditivos. Um das caracterı́sticas interessantes das distribuições pertencentes à famı́lia Série de Potência
Zero Modifica (ZMPS) é a flexibilidade em se fazer ajustes a dados, sem a necessidade prévia de sabermos
sobre a ocorrência de inflação ou deflação de zeros. O modelo de previsão adotado envolve a obtenção dos
parâmetros da distribuição Poisson Zero modificada ajustada aos dados da primeira rodada, utilizando o
método computacional Bayesiano (algoritmo Metropolis-Hastings), em seguida a simulação dos resultados
para obtenção das probabilidades dos resultados das partidas, analisando a qualidade preditiva pela medida
de Definetti e por fim comparando os resultados obtidos entre os modelos.
2 Introdução
Muitos trabalhos cientı́ficos publicados com o objetivo de produzir modelos de previsões de resultados
de partidas ou campeonatos de futebol utilizam modelos estatı́sticos. Esporte este de grande magnitude em
escala global, que segundo Leoncini & Silva (2005) Leoncini(2004) movimentava na época de seu estudo cifras
em torno de 250 bilhões de dólares. Desde Moroney (1956), inúmeros outros trabalhos foram publicados, nos
quais modelos estatı́sticos foram aplicados objetivando a predição de resultados no esporte. (Verificar este
artigo)
Moroney, M.J. (1956) Facts from Figures, 3rd edition, penguin, London.
Um grande quantidade de modelos descritos na literatura trabalham com a contagem do número de gols
dos times nas partidas, para estes comumente é adotada a distribuição de Poisson. Pollard (1986) – Verificou
através da porcentagem de vitórias obtidas pelo time jogando como mandante em relação a jogando como
visitante.
Karlis & Ntzoufras (2003) Karlis, D. e Ntzoufras, I.(2003), Modelam o número de gols marcados pelas
equipes em uma partida de futebol utilizando uma distribuição de Poisson bivariada .
Keller (1994) e Lee (1997) utilizam a distribuição de Poisson para modelar o número de gols marcados pelos
times.
Suzuki et al. (2009) propuseram uma metodologia bayesiana para a prediçao dos jogos da Copa do Mundo
FIFA 2006, no qual a distribuição a priori leva em consideração as opiniões de especialistas e o ranking FIFA.
Araújo et al. (2015) Araújo et al. (2015) aplicaram o modelo de Poisson, utilizando o método de soma e
diferença para estimar os parâmetros para a simulação de resultados e obtenção das probabilidades de vitória,
empate e derrota de cada time participante do campeonato Brasileiro de 2014. Nos conjuntos de dados de
futebol, que tratam da quantidade de gols marcados por cada time durante um determinado campeonato,
a frequência de zero gols marcados pelos times, podem ser maiores ou menores que o esperando quando
utiliza-se distribuições tradicionais. Modelos que utilizam a distribuição de Poisson tem a restrição de que
a média e variância devem ser iguais(equidispersa), diante destas questões torna-se interessante a adoção
de distribuições que comportam melhor essas caracterı́sticas dos dados. Então neste trabalho emprega-se a
distribuição de Poisson Zero Modificada (ZMP) sobre o conjunto de dados do Campeonato Espanhol 2014-
2015, com o intuito de ajustar um modelo que explique melhor os dados e por consequência forneça predições
melhores. Continuar
2.1 Análise descritiva dos dados

Foi feita a análise descritiva sobre os dados do Campeonato Espanhol 2014/2015, dados estes que obtidos
em qualquer site especializado de futebol na rede mundial de computadores, Internet. Foi estudado o número
de gols de cada equipe participante, segundo a condição de mandante e visitante.
A tabela 1 dispõe as quantidades de jogos e gols, dos times como mandante e visitante em cada um dos
turnos, para todas as equipes participantes.
A Figura 1 apresenta o gráfico com os percentuais dos resultados obtidos pelos times como mandante das
partidas, vê-se claramente uma vantagem estatı́stica do número de vitórias quando o time joga em casa.
Pelos dados da Figura 1 e Tabela 2,pode-se notar uma vantagem estatı́stica para os times quando jogam na
condição de mandante, como foi descrito em Pollard (1986).
2
Tabela 1: Número de jogos e gols feitos por cada equipe, como mandante e visitante em cada um dos turnos,
no Campeonato La Liga 2014-2015.
1o Turno 2o Turno
Mandandante Visitante Mandandante Visitante
Times No Jogos Gols No Jogos Gols No Jogos Gols No Jogos Gols Total de gols
Almeria 9 6 10 11 10 14 9 4 35
Athletic Bilbao 9 10 10 5 10 18 9 9 42
Athletic Madrid 11 27 9 13 8 15 10 12 67
Barcelona 9 32 10 16 10 32 9 30 110
Celta 9 12 10 6 10 18 9 11 47
Cordoba 10 7 9 8 9 5 10 2 22
Eibar 9 13 10 11 10 7 9 3 34
Elche 10 9 9 9 9 10 10 7 35
Espanol 10 14 9 8 9 9 10 16 47
Getafe 10 5 9 9 9 11 10 8 33
Granada 9 5 10 6 10 8 9 10 29
Deportivo La Coruna 10 10 9 4 9 12 10 9 35
Levante 9 6 10 7 10 14 9 7 34
Malaga 10 13 9 9 9 13 10 7 42
Real Madrid 8 27 10 35 11 38 9 18 118
Sevilla 10 19 8 11 9 19 11 22 71
Sociedad 10 14 9 5 9 15 10 10 44
Valencia 10 23 9 12 9 19 10 16 70
Rayo Vallecano 9 8 11 13 10 18 8 7 46
Villarreal 9 18 10 14 10 11 9 5 48
Tabela 2: Distribuição de frequência de número de gols feitos pelos times mandantes e visitantes no Campeonato
Brasileiro de 2014.
No de Gols 0 1 2 3 4 5 6 7 8 9
Mandante 97 118 87 45 18 9 4 1 0 1
Visitante 135 132 76 20 11 3 1 0 2 0
Figura 1: Percentual do número de vitórias, empates e derrotas dos times Mandantes
A Tabela 3 apresenta a média, desvio-padrão e o número máximo gols marcados por cada time durante o
campeonato.
A Tabela 4 apresenta a distribuição de frequência do número de gols marcados por cada time no campeonato.
Pode-se observar que as maiores frequências de números de gols ocorrem até três gols marcados pelos times
em cada partida.
Uma das vantagens dos modelos ZMPS, citadas por Conceicao et al. (2013), é que esses se ajustam bem a
dados zero-inflacionados, zero-deflacionados e zero-truncados, assim retirando a necessidade de análise prévia
sobre a frequência de ocorrência de zeros.
Pelo sumário dos números de gols marcados por cada time apresentado na Tabela 4, observa-se que um
grande número de times possuem uma média do número de gols marcados diferente da variância do número
de gols marcados no Campeonato Espanhol.
3
Tabela 3: Medidas resumo para os números de gols marcados por cada time no campeonato La Liga 2014-2015.
Times Média Desvio Padrão máximo
Almeria 0,921 0,777 3
Athletic Bilbao 1,105 1,286 4
Athletic Madrid 1,763 1,591 4
Barcelona 2,895 4,367 8
Celta 1,237 1,375 6
Cordoba 0,579 0,413 2
Eibar 0,895 1,286 5
Elche 0,921 1,048 4
Espanol 1,237 0,78 3
Getafe 0,868 0,712 3
Granada 0,763 0,564 3
Deportivo La Coruna 0,921 0,831 3
Levante 0,895 1,286 4
Malaga 1,105 0,853 4
Real Madrid 3,105 3,881 9
Sevilla 1,868 1,361 5
Sociedad 1,158 1,488 4
Valencia 1,842 1,488 4
Rayo Vallecano 1,211 0,927 4
Villarreal 1,263 1,442 4
Tabela 4: Distribuição de frequência do número de gols marcados por cada time durante o Campeonato La
Liga 2014-2015.
No Gols
Time 0 1 2 3 4 5 6 7 8
Almeria 15 12 10 1 0 0 0 0 0
Athletic Bilbao 13 15 5 3 2 0 0 0 0
Athletic Madrid 8 7 13 6 4 0 0 0 0
Barcelona 5 5 10 5 2 6 4 0 1
Celta 9 18 7 3 0 0 1 0 0
Cordoba 19 16 3 0 0 0 0 0 0
Eibar 17 14 3 3 0 1 0 0 0
Elche 17 10 9 1 1 0 0 0 0
Espanol 8 16 11 3 0 0 0 0 0
Getafe 15 14 8 1 0 0 0 0 0
Granada 15 18 4 1 0 0 0 0 0
Deportivo La Coruna 15 13 8 2 0 0 0 0 0
Levante 19 9 7 1 2 0 0 0 0
Malaga 10 17 9 1 1 0 0 0 0
Real Madrid 2 4 11 8 6 4 0 1 1
Sevilla 4 11 13 7 2 1 0 0 0
Sociedad 13 15 4 3 3 0 0 0 0
Valencia 6 11 6 13 2 0 0 0 0
Rayo Vallecano 10 13 13 1 1 0 0 0 0
Villarreal 12 12 9 2 3 0 0 0 0
4
3 Modelo
Pela análise dos dados feitos anteriormente vemos que a utilização de modelos da famı́lia ZMPS, se tornam
uma alternativa interessantes em relação a distribuição de Poisson, normalmente utilizada. Nesta seção
será trabalhado o Modelos de Poisson Zero Modificado, Conceicao et al. (2013), caracterizou as distribuições
pertencentes a famı́lia Série de Potência Zero Modificada (ZMPS), tratando de suas propriedades.
3.1 Distribuição Poisson Zero Modificada (ZMP)

Seja Y uma variável aleatória nos inteiros não-negativos, A0 = 0, 1, 2, ... e seja PZMP (Y = y) a probabilidade
da variável aleatória Y tenha o valor y. Diz-se que a variável aleatória Y tem distribuição ZMP, µ e p se sua
função massa de probabilidade é dada por:
PZMP (Y = y) = (1 − p)I(y) + pPP (Y = y), y ∈ A0 , (1)
em que PP (Y = y) denota a distribuição Poisson com parâmetro µ cuja função massa de probabilidade dada
por
e−µ µ y
PP (Y = y) = , µ ≥ 0;
y!
Em que I(y) é uma função indicadora, i.e. I(y) = 1 se y = 0 e I(y) = 0 caso contrário; p é o parâmetro p sob a
condição
1
0≤p≤ . (2)
1 − PP (Y = 0)
Vale ressaltar que a distribuição apresentada na equação (1) não é uma distribuição mistura tradicional, que
é comumente ajustada ao conjunto de dados inflacionados de zero, uma vez que o parâmetro p pode assumir
valores maiores que 1. A média e a variância Y são, respectivamente, µZMP = pµ e σ2ZMP = pµ(1 + µ(1 − p)).
Diferente valores de p levam a diferentes distribuições ZMP, como visto na caracterização da proporção de
zeros adicionais ou “faltantes”. Pode-se escrever:
PZMP (Y = 0) − PP (Y = 0) = (1 − p) + pPP (Y = 0) − PP (Y = 0)
= (1 − p)(1 − PP (Y = 0)). (3)
O parâmetro p controla a frequência de zeros, como pode ser vista analisando as probabilidades de zeros em
(3) com diferentes valores do parâmetro:
(i) Quando p = 0 em (3), PZMP (Y = 0) = 1. Assim, (1) é uma distribuição degenerada com toda massa em zero .
(ii) Para todo 0 < p < 1 em (3), têm-se (1 − p)(1 − PP (Y = 0)) > 0. Assim, PZMP (Y = 0) > PP (Y = 0) e (1)é a
distribuição Poisson Zero Inflacionada (ZIP) que tem uma proporção de zero.
(iii) Quando p = 1 em (3), PZMP (Y = 0) − PP (Y = 0) = 0. Então PZMP (Y = 0) = PP (Y = 0) e (1) é uma distribuição
Poisson tradicional.
(iv) Para todo 1 < p < 1/(1 − PP (Y = 0)) em (3), temos (1 − p)(1 − PP (Y = 0)) < 0. Então, PZMP (Y = 0) < PP (Y = 0)
e (1) é a distribuição Zero Deflacionada (ZDP).
(v) Quando p = 1/(1 − PP (Y = 0)) em (3), implica que PZMP (Y = 0) = 0. Então, (1) é a distribuição Poisson Zero
Truncada (ZTP), cuja função massa de probabilidade é dada por
PP (Y = y)
PZTP (Y = y) = (1 − I(y)).
1 − PP (Y = 0)
A distribuição ZMP descrita pela equação (1) pode ser escrita como
PZMP (Y = y) = 1 − p(1 − PP (Y = 0)) I(y) + p(1 − PP (Y = 0))PZTP (Y = y),

Outra parametrização da distribuição ZMP pode ser obtida considerando: ω = p(1 − PP (Y = 0)),
PZMP (Y = y) = (1 − ω) I(y) + ωPZTP (Y = y) (4)

, em que 0 < ω < 1.
A vantagem dessa parametrização é que ω and µ são ortogonais, possibilitando a estimação de ω indepen-
dentemente de µ. Contudo, a parametrização dada em (1) possibilita a inferência sobre o parâmetro p, o qual é
utilizado para identificar o tipo de modificação (zero-inflacionado ou zero-deflacionado), presente nos dados.
5
3.2 Modelo ZMP
A distribuição ZMP pode ser usada para modelar numero de gols de um determinado time k em uma
partida de futebol, usando a seguinte variável reposta
Yk ∼ ZMP(µk , pk ),
para k = 1, 2, . . . , K, em que K é o número de times que disputam um determinado Campeonato e 0 ≤ pk ≤
1
1−PP (Y=0,µk ) .
Com relação ao parâmetros µk do modelo, adota-se a seguinte estrutura:
log µk = β0 + β1 IH (k) + βAk + βDk

(5)
Em que β0 é um parâmetro constante, β1 é o parâmetro referente ao efeito jogo ”em casa”, IH (k) é uma função
indicadora, sendo IH (k) = 1 se o time k joga em casa e IH (k) = 0, caso contrário;
βAk é o parâmetro referente ao efeito ataque do time k e βDk é o parâmetro relacionado ao efeito defensivo do
time adversário ao time k.
Alternativamente, se especificarmos
Yk ∼ ZMP(µk , ωk ),
como escrito em (4), tem-se que:
ωk = pk (1 − PP (Y = 0; µk )). (6)
Para o processo de estimação dos parâmetros do modelo, considera-se a restrição de que a soma dos
parâmetros βAk e a soma dos parâmetros βDk são zero, ou seja:
K
X K
X
βAk = 0 e βDk = 0.
k=1 k=1
|
Nos modelos ZMP, os parâmetros de interesse a serem estimados para cada time k são o vetor βk = (β0 β1 βAk
βDk ) e ωk .
Para inferir sobre os parâmetros, uma abordagem totalmente baysiana foi adotada, a qual tem a vantagem
de incorporar informação a priori. A funções de verossimilhança, e as densidade a priori e posteriori para os
parâmetros do modelo são representados a seguir.
3.3 Inferência
|
Seja yk = (yk1 yk2 . . . ykn ) o vetor de observações referente a n realizações da variável aleatórias Yki que
tem distribuição ZMP com parâmetros µki e pk (ou ωk ), i = 1, . . . , n, no qual n representa o número de jogos e
yki corresponde o número de gols marcado pelo time k no jogo i.
Denota-se por µk = (µk1 µk2 . . . µkn ) o vetor paramétrica, com as médias µki , em que cada µki está relacionada
com a observação yki .
|
Considerando o vetor de parâmetros βk = (β0 β1 βAk βDk ), para simplificação, definimos a matriz Xk de
dimensões n × 4 na qual as linhas são compostas por vetores xki = (1 IH (ki ) 1 1), então xki βk = β0 + β1 IH (ki ) +
βAk + βDk .
Considerando o modelo ZMP parametrizado em ωki , a função de verrossimilhança associada ao vetor de
observações yk do time k é dado por
n
Y I(yki ) ω P (Y = y ) 1−I(yki )
k P ki ki
Lk (µk , ωk ; yk ) = 1 − ωk
1 − PP (Yki = 0)
i=1
−µki yki 1−I(yki ) 
 
µ



  e k  
i 
 
  

n
 
I(yki ) 

yki ! 
Y   
 

= 1 − ωk ω .
 
·

(7)
 
 k −µ

1 − e

 
 ki 
 

   
i=1 

 







   

 
A função log-verossimilhança associada com o vetor de obervação yk do time k é dada por
6
 −µk yki
 e i µki
  
  
n

   
X   y !  
 ki
`k (µk , ωk ; yk ) = (1 − I(yki )) log   + log(ωk ) +
   
i=1

 
 1 − e−µki 



   

I(yki ) log(1 − ωk )
 −µk yki
 e i µki


n  
X  yki ! 
= (1 − I(yki )) log   +

i=1
 1 − e−µki 
 
 
n
X
(1 − I(yki )) log(ωk ) + I(yki ) log(1 − ωk )
i=1
(8)
Substituindo em (9) as equações de µki , dadas por
µki = eβ0 +β1 IH (ki )+βAk +βDk = exki βk ,

tem se a log-verossimilhança rescrita em função de βk , ωk e yk
  xki βk x β y 
  e−e e ki k ki 
n   
yki !
X 
  
`k (βk , ωk ; yk ) = (1 − I(yki )) log   + (9)
  
  1 − e−exki βk 
i=1   
  
n
X
(1 − I(yki )) log(ωk ) + I(yki ) log(1 − ωk )
i=1
= `k+ (βk ; yk ) + `k0 (ωk ; yk ). (10)
Pode ser observar que `k+ (β1k ; yk ) depende apenas de valores positivos do vetor de observações yk . Denotado
+|
por yk = (y+k1 y+k2 . . . y+k + ) o vetor com n+ observações postitivas de yk e Xk+ a matriz de dimensão n+ × 4 que
n
é composta pelos vetores x+k j = (1 IH (k j ) 1 1), j = 1, . . . , n+ , a função log-verossimilhança para βk , baseado na
suposição de que y+k vem de uma distribuição ZTP é dada por:
n+  P (Y+ = y+ ) 
 
X  P kj kj 
`k (βk ; y+k ) =
 
 1 − P (Y+ = 0) 

 
P
 kj
j=1
 x+ βk + + 
 −e k j xk j βk yk j

 e e

  

  
n+  +
  
y !
 
X  
 kj
 
=
  
log
  
x+ βk

 
  
k
−e j
 
j=1  1 − e
  

 
 


  



n+ x+ βk
x+ β k kj
X
= x+k j βk y+k j − e k j − log(y+k j !) − log(1 − e−e ) ,
j=1
para todos os valores de y+k j > 0.

Uma vez que `k (βk ; y+k ) = `k+ (βk ; yk ), a função log-verossimilhança `k (βk ; yk ) do modelo ZMP é equivalente a
função log-verossimilhança `k (βk ; y+k ) do modelo ZTP adicionado do termo `k0 (ωk ; yk ) que é dado por
7
n
X
`k0 (ωk ; yk ) = (1 − I(yki )) log(ωk ) + I(yki ) log(1 − ωk )
i=1
= n+ log(ωk ) + (n − n+ ) log(1 − ωk ).
Uma vez que há K times que atuam de forma independente, a função log-verossimilhança completa é dada
por
K
X
`(β, ω; D) = `k (βk , ωk ; yk ),
k=1
em que β = (β0 β1 βA1 . . . βAK βD1 . . . βDK ), ω = (ω1 . . . ωK ) e D = {y1 , . . . , yK } são, respectivamente, dois
| |
vetores paramétricos e o conjunto de dados formado pelo número de gols marcados pelos times em cada jogo.
Foi considerado para β, uma densidade a priori normal multivariada com vetores de médias nulas e uma
matriz de precisão diagonal 10−3 I. Aqui, I é uma matriz identidade (2K + 2) × (2K + 2) , então β ∼ N(0, 103 I).
Para cada parâmetro ωk , k = 1, . . . , K, considera-se uma priori com distribuição uniforme, U(0, 1). A
abordagem bayesiana para o modelo ZMP pode ser estruturado, escrevendo a densidade a posteriori conjunta
para o vetor de parâmetros β e ω como:
P(β, ω|D) ∝ exp{`(β, ω; D)}P(β, ω).
Do ponto de vista bayesiano, inferências sobre os parâmetros podem ser feitos usando as densidade
posteriori marginal, que pode ser obtida integrando a densidades da posteriori conjunta. Contudo, nesse caso,
soluções analı́ticas para as integrais não podem ser obtidas. Para resolver este problema, foi usado o algoritmo
Metropolis-Hastings, que é um procedimento iterativo da classe de métodos MCMC.Para implementar o
algoritmo, considerou-se as densidades condicionais dos parâmetros β0 , β1 , βAk , βDk e `wk , para todo k = 1, . . . , K,
dada por

P β0 |β{−β0 } , D ∝ exp{`(β, ω; D)}P(β0 )

P β1 |β{−β1 } , D ∝ exp{`(β, ω; D)}P(β1 )

P βAk |β{−βAk } , D ∝ exp{`(β, ω; D)}P(βAk )

P βDk |β{−βDk } , D ∝ exp{`(β, ω; D)}P(βDk )
P ωk |ω{−ωk } , D ∝ exp{`(β, ω; D)}P(ωk ),

Em que β{−(·)} e ω{−(·)} são, respectivamente, os vetores β e ω sem o parâmetro (·).
4 Metodologia
A partir da descrição do modelo de Poisson Zero Modificada, nesta seção serão caracterizado os procedi-
mentos adotados para obtenção da previsão dos resultados do campeonato de futebol estudado, bem como a
métrica para avaliação da qualidade destas predições.
4.1 Partidas Simples

Após o ajuste do modelo Poisson Zero modificada aos dados do Campeonato Espanhol 2014 2015, utilizou-se
as estimativas para os parâmetros número médio de gols, fator de mando de campo, fator ataque e defesa para,
através da simulação de 1000 campeonatos, calcular as probabilidade do número de gols de um determinado
time ser maior, menor ou igual ao número de gols de seu oponente.
Em uma partida de futebol qualquer, tem-se o time A e o time B, com o número de gols do time mandante A,
representado por XA e o número de gols do time visitante B, representado por XB . O time A sairá vitorioso se o
número de gols obtido for maior que o do time B, XA > XB , empate se obter o mesmo número de gols, XA = XB
e derrota se sair da partida com menor número de gols, XA < XB . Assim pode-se representar as probabilidades
para cada um dos resultados como segue:
8
X
PVitória = P(XA > XB ) = P(X = i, Y = j) (11)
i> j
X
PEmpate = P(XA = XB ) = P(X = i, Y = j) (12)
i= j
X
PDerrota = P(XA < XB ) = P(X = i, Y = j) (13)
i< j
4.2 Predição para resultados das Partidas

Para o processo de obtenção das predições para as partidas das rodadas do segundo turno, a partir da
vigésima rodada até a trigésima oitava, foram tomados os resultados simulados para cada time participantes
do campeonato estudado segundo as seguintes etapas:
1 . Serão simulados r campeonatos;
2 . Para o r-ésimo campeonato, será estimado a média a posteriori dos parâmetros do modelo e então serão
simulados o placar (XA , XB ) para cada um dos n jogos entre os times mandante (A) e visitante (B).
(3) É atribuı́da à cada time a pontuação correspondente ao resultado obtida pela simulação segundo as regras
do campeonato;
(4) Terminada a simulação do r-ésimo campeonato é montada a tabela de classificação, conforme os pontos
obtidos para cada time. Após a simulação de todos os r campeonatos pode se montar as probabilidades dese-
jadas, como por exemplo a de um determinado time ser o campeão ou este estar entre os últimos 4 colocados.
Foram feitos simulações para r = 1000 campeonatos. Utilizando os resultados das simulações pode-se
calcular as probabilidades segundo as seguintes equações:
#(time terminou em primeiro lugar)

Pcampeão = (14)
r
#(time terminou entre os 3 últimos colocados)
Prebaixamento = , (15)
r
em que # refere-se ao número de vezes obtidos na simulação.
Tabela 5: Pontos atribuı́dos aos times de acordo com a normas da competição.

Resultado Pontos ao time mandante Pontos ao time visitante
Vitória 3 0
Empate 1 1
Derrota 0 3
4.3 Medida de avaliação da qualidade das previsões

Utilizou-se os modelos Poisson e Poisson Zero Moficado para obtenção de resultados preditivos a partir dos
dados do Campeonato Espanhol 2014 2015. Dentro desde contexto de comparação entre modelos diferentes a
adoção de uma ferramenta de avaliação de qualidade da predição para cada modelo é fundamental. Adota-se
aqui a medida de Definetti, De Finetti (1972), como utilizado em muitos trabalhos cientı́ficos já publicados e
também em Araújo et al. (2015) e Tavares (2015).
O método consiste em representar as probabilidades para cada resultado possı́vel da partida para um
determinado time, pelo vetor S, que contém as probabilidades de vitória (PV ), empate, (PE ), e derrota, (PD ),
respectivamente.
S = {(PV, PE, PD) ∈ R3 : PV + PE + PD = 1, PV ≥ 0, PE ≥ 0, PD ≥ 0}.

Os resultados de partidas observadas são representadas vetorialmente. Como por exemplo, o vetor (1,0,0)
representa que há 100% de probabilidade de vitória de um determinado time em uma partida já ocorrida.
9
Indicando que o time mandante obteve maior número de gols que o time visitante. Similarmente, os vetores
(0, 1, 0) e (0, 0, 1) representam, respectivamente, os eventos empate e derrota do time mandante.
Utiliza-se distância euclidiana quadrática entre o ponto representado por S, que corresponde a previsão
probabilı́stica do modelo, até o vértice que representa o resultado real como métrica para avaliar a qualidade
das previsões de modelos. Esta é conhecida como Medida de Definetti, De Finetti (1972). Para os trÊs possı́veis
resultados de uma partida têm-se as seguintes equações para o cálculo da medida de Definetti:
(PV − 1)2 + (PE − 0)2 + (PD − 0)2 ,se a equipe mandante vencer a partida; (16)
(PV − 0) + (PE − 1) + (PD − 0)
2 2 2
,se a equipe mandante empatar a partida; (17)
(PV − 0)2 + (PE − 0)2 + (PD − 1)2 ,se a equipe mandante perder a partida. (18)
A cada vértice do tetraedro associa-se um possı́vel resultado da partida para o time com mando de campo,
como ilustrado na Figura 2.
Figura 2: Gráfico ilustrando o simplex de DeFinetti.
Supondo que para um determinado resultado de uma partida o modelo estudado, prevê o seguinte conjunto
de probabilidades: 60% de probabilidade de vitória, 20% de empate e 20% de derrota. Sabendo-se que para
a partida em questão o resultado obtido foi Vitória, então usando as equações para o cálculo da medida de
Definetti temos:
(0.6 − 1)2 + (0.2 − 0)2 + (0.2 − 0)2 = 0.24 (19)
Para avaliar este resultado, utilizamos por base o resultado obtido utilizando o modelo que atribui medidas
equiprováveis para as probabilidades dos resultados possı́veis para um partida, ou seja, 1/3 de probabilidade
para cada um. Assim terı́amos : (PV = PE = PD = 1/3) e portanto (1/3 − 1)2 + (1/3 − 0)2 + (1/3 − 0)2 = 2/3
para o resultado da partida. Portanto aqueles modelos que conseguem medidas de Definetti menores que 2/3
podem ser considerados como aqueles de boa qualidade preditiva, enquanto que os que tem medidas maiores,
como de má qualidade preditiva.
Outra medida a ser utilizada também é o de número de acertos de cada modelo. Neste caso analisa se o
evento com maior probabilidade de ocorrência segundo o modelo é observado, caso ocorra dizemos que houve
um acerto por parte do modelo. Neste artigo foram comparados dois modelos, então uma das métricas para
mensurar a qualidade preditiva foi o número de acertos de cada modelo.
10
5 Resultados
Nesta sessão apresentam-se os resultados preditivos de cada modelo aplicado aos dados do Campeonato
La Liga 2014 2015. Tomando por base que o ajuste de cada modelo foi feito utilizando os dados do primeiro
turno da competição. Estes foram obtidos em site especializado, como outros inúmeros sites disponı́veis na
Internet, que tratam do esporte.
5.1 Partidas simples

Foram calculadas as probabilidades de vitória, empate e derrota para cada time nas rodadas do segundo
turno do Campeonato Espanhol de Futebol 2014-2015, a partir dos resultados dos jogos do primeiro turno.
Pela Tabela 6 vê-se que o modelo Poisson Zero Modificado teve um total de um total de 104 acertos entre as
190 partidas do segundo turno, com uma média da medida de qualidade de predição Definetti 0,54. Já o ajuste
do dados usando o modelo de Poisson clássico resultou em 103 acertos em 190 jogos e uma média da medida
Definetti dado por 0,53. Apesar do número de acertos próximos para os dois modelos, o modelo ZMP, obteve
um uma leve vantagem quantitativa e qualitativa para os dados utilizados, uma vez que o modelo de Poisson
convencional obteve uma métrica de qualidade maior que modelo zero modificada.
Tabela 6: Tabela comparativa entre o resultado da aplicação dos modelos, contendo a média de acertos por
rodada, total de previsões corretas e a medida de qualidade de predição Definetti.
Modelo Média de acertos Total de acertos Definetti
ZMP 5,47 104 0,54
Poisson 5,42 103 0,55
As Tabelas 7 e 8 apresentam as probabilidades obtidas pela simulação os jogos da 28a rodada utilizando cada
um dos modelos, bem como a medida Definetti para cada resultado previsto. Para o modelo ZMP, obteve-se
um total de oito acertos. Um dos erros ocorre quando a simulação indicou a derrota para o Deportivo La
Coruna para o visitante Espanol, quando foi observado empate entre as equipes. A predição esta de acordo
com o desempenho melhor da segunda equipe no campeonato sobre a primeira. O segundo erro ocorre quando
a simulação apontou resultado favorável da equipe do Vilarreal sobre o Sevilla, sendo que observou a vitória
do time visitante sobre o mandante. Neste caso, até a rodada simulada, o time do Villarreal vinha tendo um
desempenho melhor quando detentor do mando de campo que o Servilla, assim o fator mando de campo do
modelo de simulação deu favoritismo ao primeiro time naquela partida.
Tabela 7: Placar, probabilidades de vitória, empate e derrota, medida de De Finetti e acertos para a rodada 28
usando o modelo ZMP.
Mandante Placar Visitante Vitória Empate Derrota Definetti acertou
Elche 0-4 Valencia 0,116 0,318 0,566 0,302 sim
Ath. Bilbao 2-1 Almeria 0,353 0,336 0,311 0,628 sim
Ath. Madrid 2 -0 Getafe 0,58 0,252 0,168 0,269 sim
Granada 0-0 Eibar 0,278 0,393 0,33 0,555 sim
Levante 0-1 Celta 0,298 0,309 0,392 0,554 sim
Rayo Vallecano 1- 0 Malaga 0,404 0,286 0,309 0,532 sim
Barcelona 2-1 Real Madrid 0,498 0,172 0,331 0,391 sim
Deportivo La Coruna 0-0 Espanol 0,289 0,255 0,456 0,846 não
Sociedad 3-1 Cordoba 0,49 0,295 0,215 0,394 sim
Villarreal 0-2 Sevilla 0,548 0,206 0,246 0,91 não
A Tabela 8, mostra os resultados da simulação para a mesma rodada analisada na qual houve 4 erros de
predição, além dos ocorridos pela simulação utilizando o modelo ZMP, indicou como favorito o Eibar sobre
o Granada, que reflete o melhor desempenho da primeira equipe em relação a segunda até a vigésima oitava
rodada. Outro erro ocorreu quando a simulação utilizando o modelo de Poisson, ocorreu quando deu uma
pequena vantagem em probabilidade da equipe Malaga vencer o Rayo Vallecano.
A Tabela 5.1, dispõe o número de acertos para cada modelo, nota-se que não há diferença significativa entre
o número de acertos entre os modelos.
11
Tabela 8: Placar, probabilidades de vitória, empate e derrota, medida de De Finetti e acertos para as partidas
da rodada 28 usando o modelo de Poisson.
Mandante placar Visitante Vitória Empate Derrota Definetti Acertou
Elche 0-4 Valencia 0,12 0,244 0,636 0,207 sim
Ath. Bilbao 2-1 Almeria 0,488 0,292 0,22 0,396 sim
Ath. Madrid 2-0 Getafe 0,796 0,138 0,066 0,065 sim
Granada 0-0 Eibar 0,219 0,348 0,433 0,66 não
Levante 0-1 Celta 0,326 0,308 0,366 0,602 sim
Rayo Vallecano 1-0 Malaga 0,336 0,278 0,386 0,667 não
Barcelona 2-1 Real Madrid 0,639 0,177 0,184 0,195 sim
Deportivo La Coruna 0-0 Espanol 0,377 0,272 0,352 0,796 não
Sociedad 3-1 Cordoba 0,655 0,221 0,125 0,183 sim
Villarreal 0-2 Sevilla 0,565 0,224 0,211 0,991 não
Tabela 9: Tabela comparativa entre o número de acertos para previsões de resultados das partidas para cada
modelo.
Rodadas 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38
ZMP 6 6 3 6 5 6 5 6 8 5 6 4 3 5 7 5 6 7 5
Poisson 7 6 4 6 6 5 5 6 6 5 5 5 5 5 7 4 5 6 5
5.2 Previsão para o campeonato

Um dos objetivos do modelo preditivo para campeonatos de futebol é apresentar entre os times partici-
pantes quais deles tem maior probabilidade de conquistar o tı́tulo de campeão. A Tabela 5.2 apresenta as
probabilidades dos melhores colocados na competição serem campeões, em cada uma rodada do segundo
turno do Campeonato Espanhol de Futebol 2014 - 2015. Pelas Tabelas 5.2 e 5.2, vemos que nesta competição
temos o favoritismo concentrado em duas equipes, Barcelona e Real Madrid, que historicamente concentram o
maior número de tı́tulos da competição. Nota-se , no inı́cio do segundo, as simulações para utilizando os dois
modelos indicam um favoritismo para a equipe do Real Madrid que no decorrer da competição muda para a
equipe do Barcelona. Isto ocorre coerentemente com o desempenho das duas equipes durante a segunda etapa
do Campeonato Espanhol daquele ano. Que terminou com o Barcelona consagrado como campeão e o Real
Madrid com o segundo lugar na competição.
Tabela 10: Probabilidades de cada equipe ser campeão, no decorrer do campeonato utilizando o modelo ZMP.
rodada Barcelona Real Madrid Atlético Madrid Valencia Sevilla Villarreal Athletic Bilbao
20 0,057 0,932 0,009 0,002 0 0 0
21 0,102 0,894 0,003 0,001 0 0 0
22 0,063 0,929 0,008 0 0 0 0
23 0,235 0,736 0,028 0,001 0 0 0
24 0,267 0,725 0,006 0,001 0,001 0 0
25 0,145 0,842 0,009 0,004 0 0 0
26 0,202 0,79 0,006 0,002 0 0 0
27 0,46 0,524 0,012 0,004 0 0 0
28 0,529 0,465 0,003 0,003 0 0 0
29 0,662 0,323 0,002 0,013 0 0 0
30 0,696 0,299 0,003 0,002 0 0 0
31 0,743 0,251 0,005 0,001 0 0 0
32 0,634 0,361 0,005 0 0 0 0
33 0,734 0,264 0,001 0,001 0 0 0
34 0,745 0,254 0,001 0 0 0 0
35 0,816 0,184 0 0 0 0 0
36 0,817 0,183 0 0 0 0 0
37 0,962 0,038 0 0 0 0 0
38 1 0 0 0 0 0 0
Comparando as Tabelas 5.2 e 5.2, não há diferenças significativas entre os resultados preditivos do modelo.
Como os quatro primeiros classificados na competição ficam apitos a participarem da Liga dos Campeões,é
interessante que o modelo mostre as probabilidades de cada um dos times participantes de terminarem a
competição nestas posições de classificação. Tanto na Tabela 5.2 como em 13 temos os times do Barcelona, Real
Madrid, Atlético Madrid e Valencia, como os favoritos para a classificação para a Liga dos Campeões.
Diferente dos primeiros colocados na competição, não há uma definição muito clara de quais times partici-
pantes seriam rebaixados segundo os modelos de simulação. São rebaixados aqueles times que ficam entre os
três últimos colocados na competição.
12
Tabela 11: Probabilidades de cada equipe ser campeão, no decorrer do campeonato utilizando o modelo
Poisson.
20 0,2 0,799 0,001 0 0 0 0
21 0,314 0,684 0,002 0 0 0 0
22 0,297 0,7 0,003 0 0 0 0
23 0,542 0,454 0,004 0 0 0 0
24 0,575 0,423 0,002 0 0 0 0
25 0,364 0,627 0,008 0,001 0 0 0
26 0,462 0,536 0,002 0 0 0 0
27 0,681 0,315 0,004 0 0 0 0
28 0,741 0,257 0,001 0,001 0 0 0
29 0,835 0,163 0,001 0,001 0 0 0
30 0,857 0,143 0 0 0 0 0
31 0,841 0,159 0 0 0 0 0
32 0,781 0,218 0,001 0 0 0 0
33 0,831 0,169 0 0 0 0 0
34 0,847 0,153 0 0 0 0 0
35 0,873 0,127 0 0 0 0 0
36 0,863 0,137 0 0 0 0 0
37 0,992 0,008 0 0 0 0 0
38 1 0 0 0 0 0 0
Tabela 12: Probalidade de um dos sétimo primeiros colocados no campeonato de ficar entre os quatro primeiros
colocados no campeonato, utilizando o modelo ZMP.
20 0,973 1 0,848 0,841 0,318 0,233 0
21 0,988 1 0,832 0,83 0,227 0,231 0
22 0,991 1 0,936 0,928 0,326 0,223 0
23 0,997 1 0,972 0,945 0,135 0,244 0
24 0,998 0,999 0,929 0,924 0,226 0,095 0
25 0,989 1 0,952 0,947 0,107 0,09 0
26 0,999 1 0,941 0,937 0,058 0,092 0
27 0,998 1 0,897 0,889 0,074 0,155 0
28 0,999 1 0,89 0,89 0,115 0,092 0
29 1 1 0,883 0,894 0,157 0,014 0
30 0,999 0,999 0,917 0,916 0,198 0,006 0
31 1 1 0,94 0,936 0,262 0 0
32 1 0,999 0,9 0,895 0,255 0 0
33 1 1 0,987 0,987 0,176 0 0
34 1 1 0,983 0,982 0,156 0 0
35 1 1 0,998 0,998 0,293 0 0
36 1 1 0,994 0,994 0,142 0 0
37 1 1 1 1 0,061 0 0
38 1 1 1 1 0 0 0
Tabela 13: Probalidade de um dos sétimo primeiros colocados no campeonato de ficar entre os quatro primeiros
colocados no campeonato, utilizando o modelo PS.
20 1 1 0,802 0,801 0,273 0,268 0
21 1 1 0,809 0,807 0,19 0,255 0
22 1 1 0,919 0,916 0,235 0,311 0
23 1 1 0,979 0,975 0,065 0,279 0
24 1 1 0,959 0,957 0,169 0,11 0
25 1 1 0,981 0,974 0,072 0,084 0
26 1 1 0,96 0,958 0,055 0,107 0
27 1 1 0,924 0,92 0,057 0,152 0
28 1 1 0,919 0,919 0,079 0,097 0
29 1 1 0,904 0,904 0,17 0,009 0
30 1 1 0,94 0,94 0,193 0,006 0
31 1 0,998 0,949 0,949 0,26 0 0
32 1 1 0,94 0,939 0,229 0 0
33 1 1 0,993 0,993 0,1 0 0
34 1 1 0,988 0,988 0,131 0 0
35 1 1 0,999 0,999 0,256 0 0
36 1 1 0,998 0,998 0,12 0 0
37 1 1 1 1 0,029 0 0
38 1 1 1 1 0 0 0
13
Tabela 14: Probabilidades das equipes serem rebaixadas ao final campeonato a cada rodada da segunda fase,
utilizando modelo ZMP.
rodada Elche Levante Getafe Deportivo Granada Eibar Almerı́a Córdoba
20 0,241 0,559 0,268 0,469 0,761 0 0,216 0,258
21 0,362 0,644 0,111 0,254 0,721 0 0,398 0,259
22 0,534 0,787 0,222 0,25 0,565 0 0,191 0,335
23 0,45 0,513 0,11 0,169 0,756 0,004 0,13 0,568
24 0,305 0,625 0,119 0,179 0,804 0,008 0,139 0,616
25 0,305 0,456 0,038 0,334 0,881 0,007 0,16 0,678
26 0,246 0,501 0,034 0,335 0,883 0,019 0,205 0,742
27 0,118 0,335 0,021 0,442 0,747 0,061 0,382 0,853
28 0,141 0,322 0,024 0,416 0,799 0,055 0,338 0,898
29 0,147 0,385 0,023 0,354 0,796 0,044 0,341 0,91
30 0,122 0,13 0 0,379 0,809 0,083 0,555 0,922
31 0,142 0,159 0 0,35 0,827 0,011 0,573 0,938
32 0,074 0,288 0 0,35 0,948 0,025 0,333 0,982
33 0,011 0,193 0,001 0,394 0,917 0,04 0,468 0,976
34 0,025 0,11 0,002 0,48 0,971 0,121 0,293 0,998
35 0 0,012 0,001 0,676 0,978 0,108 0,225 1
36 0 0,013 0,004 0,655 0,923 0,174 0,231 1
37 0 0 0,001 0,61 0,733 0,243 0,413 1
38 0 0 0 0,189 0,313 0,627 0,871 1
Tabela 15: Probabilidades das equipes serem rebaixadas ao final campeonato a cada rodada da segunda fase,
utilizando modelo Poisson.
rodada Elche Levante Getafe Deportivo Granada Eibar Almerı́a Córdoba
20 0,324 0,654 0,189 0,388 0,768 0 0,275 0,287
21 0,469 0,652 0,078 0,207 0,735 0 0,439 0,24
22 0,667 0,814 0,185 0,214 0,547 0 0,223 0,259
23 0,552 0,549 0,079 0,135 0,709 0 0,194 0,507
24 0,335 0,647 0,117 0,117 0,791 0,002 0,236 0,63
25 0,309 0,466 0,033 0,265 0,904 0,006 0,242 0,686
26 0,223 0,568 0,029 0,235 0,875 0,011 0,273 0,762
27 0,106 0,406 0,011 0,331 0,737 0,019 0,464 0,9
28 0,166 0,314 0,026 0,307 0,823 0,023 0,413 0,923
29 0,158 0,416 0,022 0,265 0,806 0,015 0,392 0,925
30 0,101 0,099 0,003 0,348 0,847 0,027 0,635 0,94
31 0,129 0,141 0 0,365 0,842 0,003 0,6 0,92
32 0,08 0,253 0 0,356 0,969 0,013 0,344 0,985
33 0,011 0,17 0 0,424 0,951 0,017 0,459 0,968
34 0,022 0,11 0 0,508 0,983 0,066 0,312 0,999
35 0 0,006 0,001 0,751 0,986 0,052 0,204 1
36 0 0,002 0,002 0,754 0,958 0,096 0,188 1
37 0 0 0,001 0,502 0,85 0,148 0,499 1
38 0 0 0 0,234 0,415 0,483 0,868 1
14
A Figuras 3 e 4 apresentam o diagramas de caixas dos pontos feitos para cada equipe, provenientes de
mil campeonatos simulados a partir dos dados do primeiro turno do Campeonato Espanhol 2014-2015, até
trigésima quarta rodada. Nas duas figuras, vê-se que o Barcelona é o grande favorito a se sagrar campeão da
competição, com o Real Madrid e o Atlético de Madrid, ocupando a segunda e terceira posição no campeonato,
respectivamente. A quarta colocação é predita corretamente pela simulação pelo modelo ZMP, ocupado pela
equipe do Valência, enquanto que na simulação utilizando o modelo de Poisson, temos o Servilla em quarto.
No entanto nas duas simulações feitas até a trigésima quarta rodada o Córdoba aparece como favorito ao
rebaixamento. A diferença entre os resultados finais do campeonato e as posições preditas pelos modelos, são
coerentes uma vez que estes refletiram corretamente o desempenho dos times até a trigésima rodada.
Córdoba ●
Almería ●
Eibar ●
Granada
Deportivo ● ●
Getafe ● ●
Levante
Elche
R. Sociedad ●●
●●
● ●●
●●●
Rayo
Espanyol ●
Málaga ● ●
Celta ●
Athletic ●
Villarreal
Sevilla ●●
● ●
Valencia ●●
●
Atlético Madrid ●●
Real Madrid ●●●●

●●
Barcelona ●
20 40 60 80
Points
Figura 3: Diagrama em caixa das previsões, utilizando a pontuação das equipes até a rodada 34, pelo modelo
ZMP.
As tabelas 16 e 17 apresentam as probabilidades calculadas considerando as estimativas dos parâmetros

obtidas com os dados disponı́veis até a vigésima nona rodada.
15
Córdoba ●
Almería ●
Eibar ●● ●●●
Granada ●
Deportivo
Getafe
Levante ●●
Elche ●
R. Sociedad ●●
Rayo ●●
Espanyol ●● ●●
Málaga ●
Celta ●
Athletic ●
Villarreal ●● ●
Sevilla ●●
Valencia
Atlético Madrid
Real Madrid ●●
Barcelona
20 40 60 80
Points
Figura 4: Diagrama em caixa das previsões, utilizando a pontuação das equipes até a rodada 34, pelo modelo
Poisson.
6 Conclusão
Neste trabalho apresentou-se as previsões feitas utilizando os modelos ZMP e Poisson clássico para obtenção
dos parâmetros de simulação, ajustados aos dados correspondentes ao número de gols do Campeonato La liga
2014 - 2015. Os dois modelos mostraram resultados satisfatórios, uma vez que apresentaram taxas de 54,7%
e 54,2% de acertos nas previsões dos resultados das partidas do segundo turno do campeonato. A qualidade
preditiva observada, dada pela medida de Definetti foram de 0,54 e 0,55 utilizando o modelo ZMP e Poisson
respectivamente. Ambas medidas abaixo de 2/3, valor tomado como referência, indicando boa qualidade
preditiva para ambos. Os dois modelos adotados forneceram previsões satisfatórias quando comparados aos
resultados reais observados. Pode-se concluir que o modelo ZMP, é uma alternativa interessante aos modelos
tradicionais que utilizam a distribuição Poisson para modelar o número de gols dos times em uma campeonato
de pontos corridos. Outra vantagem interessante, é a flexibilidade do modelo proposto explicar a inflação ou
deflação da frequência de zeros sem a necessidade da análise prévia dos dados. Uma vantagem notata durante
a simulação, foi que o custo computacional utilizando a distribuição de Poisson tradicional é muito menor que
o do modelo ZMP. Como sugestão de trabalho futuro, pode-se comparar os resultados entre outros modelos
zero modificados, tais como Binomial Zero Modificado e o Poisson Zero Modificado.
16
Tabela 16: Probabilidades das equipes terminarem em cada uma das posições possı́veis, calculadas na 29a rodada, pelo modelo ZMP.
Equipe Méida D.P. 1o 2o 3o 4o 5o 6o 7o 8o 9o 10o 11o 12o 13o 14o 15o 16o 17o 18o 19o 20o
BAR 1.371 0,603 0,684 0,271 0,035 0,01 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
REA 1.805 0,625 0,296 0,617 0,075 0,01 0,002 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
MAD 3.677 0,765 0,008 0,034 0,347 0,504 0,098 0,009 0 0 0 0 0 0 0 0 0 0 0 0 0 0
VAL 3.339 0,735 0,012 0,075 0,522 0,344 0,047 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
SEV 5.018 0,646 0 0,003 0,02 0,117 0,681 0,174 0,005 0 0 0 0 0 0 0 0 0 0 0 0 0
VIL 5.847 0,521 0 0 0,001 0,015 0,17 0,767 0,044 0,003 0 0 0 0 0 0 0 0 0 0 0 0
BIL 9.105 1.426 0 0 0 0 0 0,004 0,087 0,318 0,246 0,164 0,116 0,049 0,014 0,002 0 0 0 0 0 0
CEL 10.359 1.737 0 0 0 0 0 0 0,036 0,118 0,174 0,22 0,193 0,14 0,08 0,034 0,003 0,001 0,001 0 0 0
MAL 7.314 0,776 0 0 0 0 0,002 0,041 0,708 0,168 0,058 0,018 0,004 0,001 0 0 0 0 0 0 0 0
17
ESP 10.742 1.756 0 0 0 0 0 0 0,012 0,092 0,156 0,189 0,223 0,176 0,099 0,03 0,015 0,006 0,001 0,001 0 0
RAY 11.266 1.763 0 0 0 0 0 0 0,01 0,056 0,105 0,158 0,194 0,244 0,141 0,06 0,026 0,004 0,002 0 0 0
SOC 9.367 1.588 0 0 0 0 0 0,005 0,098 0,235 0,239 0,18 0,137 0,071 0,03 0,004 0,001 0 0 0 0 0
ELC 15.449 1,98 0 0 0 0 0 0 0 0,001 0 0,008 0,018 0,041 0,101 0,145 0,182 0,189 0,151 0,116 0,041 0,007
LEV 16.651 1.907 0 0 0 0 0 0 0 0 0 0,001 0,001 0,015 0,038 0,091 0,132 0,167 0,193 0,186 0,119 0,057
GET 13,58 1.885 0 0 0 0 0 0 0 0,006 0,015 0,037 0,055 0,142 0,231 0,228 0,146 0,081 0,032 0,02 0,007 0
DEP 16.596 1.841 0 0 0 0 0 0 0 0 0,001 0,002 0,006 0,001 0,038 0,08 0,16 0,175 0,188 0,186 0,129 0,034
GRA 18.523 1.348 0 0 0 0 0 0 0 0 0 0 0 0 0,002 0,003 0,027 0,064 0,11 0,19 0,344 0,26
EIB 14,01 1,89 0 0 0 0 0 0 0 0,003 0,006 0,022 0,051 0,11 0,197 0,244 0,173 0,096 0,055 0,03 0,012 0,001
ALM 16.711 1.766 0 0 0 0 0 0 0 0 0 0,001 0,002 0,01 0,028 0,073 0,127 0,19 0,215 0,188 0,131 0,035
COR 19,27 1.175 0 0 0 0 0 0 0 0 0 0 0 0 0,001 0,006 0,008 0,027 0,052 0,083 0,217 0,606
Tabela 17: Probabilidades das equipes terminarem em cada uma das posições possı́veis, calculadas na 29a rodada, pelo modelo Poisson.
Equipe Méida D.P. 1o 2o 3o 4o 5o 6o 7o 8o 9o 10o 11o 12o 13o 14o 15o 16o 17o 18o 19o 20o
BAR 1.156 0,368 0,846 0,152 0,002 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
REA 1,9 0,458 0,153 0,801 0,039 0,007 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
MAD 3.648 0,694 0 0,021 0,409 0,478 0,085 0,007 0 0 0 0 0 0 0 0 0 0 0 0 0 0
VAL 3.485 0,657 0,001 0,026 0,521 0,392 0,059 0,001 0 0 0 0 0 0 0 0 0 0 0 0 0 0
SEV 5.016 0,635 0 0 0,027 0,111 0,683 0,177 0,002 0 0 0 0 0 0 0 0 0 0 0 0 0
VIL 5.854 0,524 0 0 0,002 0,012 0,171 0,762 0,051 0,002 0 0 0 0 0 0 0 0 0 0 0 0
BIL 8.745 1.274 0 0 0 0 0 0,002 0,106 0,44 0,196 0,154 0,066 0,028 0,007 0,001 0 0 0 0 0 0
CEL 10.252 1.597 0 0 0 0 0 0 0,017 0,125 0,229 0,184 0,211 0,161 0,048 0,02 0,005 0 0 0 0 0
MAL 7.156 0,591 0 0 0 0 0,002 0,05 0,784 0,124 0,035 0,004 0,001 0 0 0 0 0 0 0 0 0
18
ESP 10.668 1.644 0 0 0 0 0 0 0,007 0,099 0,143 0,206 0,24 0,186 0,078 0,029 0,007 0,003 0,001 0,001 0 0
RAY 11.431 1.678 0 0 0 0 0 0 0,003 0,036 0,102 0,157 0,193 0,238 0,172 0,073 0,02 0,005 0,001 0 0 0
SOC 9.777 1.469 0 0 0 0 0 0,001 0,03 0,171 0,268 0,237 0,154 0,098 0,033 0,008 0 0 0 0 0 0
ELC 15.708 1.828 0 0 0 0 0 0 0 0 0,001 0,004 0,008 0,02 0,084 0,129 0,213 0,203 0,164 0,113 0,052 0,009
LEV 16.832 1.761 0 0 0 0 0 0 0 0 0 0 0 0,004 0,036 0,061 0,137 0,171 0,198 0,212 0,131 0,05
GET 13.689 1.716 0 0 0 0 0 0 0 0,002 0,012 0,025 0,055 0,111 0,244 0,261 0,16 0,077 0,038 0,011 0,004 0
DEP 16.324 1.725 0 0 0 0 0 0 0 0 0 0 0,002 0,008 0,032 0,108 0,183 0,209 0,197 0,144 0,092 0,025
GRA 18.503 1.333 0 0 0 0 0 0 0 0 0 0 0 0 0,001 0,012 0,027 0,044 0,104 0,214 0,367 0,231
EIB 13.505 1.748 0 0 0 0 0 0 0 0,001 0,014 0,029 0,069 0,145 0,244 0,25 0,127 0,069 0,041 0,006 0,004 0,001
ALM 17.015 1.645 0 0 0 0 0 0 0 0 0 0 0,001 0,001 0,021 0,047 0,108 0,195 0,217 0,205 0,158 0,047
COR 19.336 1.106 0 0 0 0 0 0 0 0 0 0 0 0 0 0,001 0,013 0,024 0,039 0,094 0,192 0,637
Referências
Araújo, C. T. P., Tavares, L., Alvares, L. G., Louzada, F. & Suzuki, A. K. (2015). Modelagem estatı́stica para
previsão de jogos de futebol: uma aplicação no campeonato brasileiro de futebol 2014. Revista da Estatı́stica
UFOP, (4), 12–20.
Conceicao, K., Andrade, M. & Louzada, F. (2013). Zero-modified poisson model: Bayesian approach, influence
diagnostics, and an application to a brazilian leptospirosis notification data. Biometrical Journal, 55(5), 661–678.
De Finetti, B. (1972). Probability, Induction and Statistics: The Art of Guessing. J. Wiley, London. ISBN
9780471201403.
Karlis, D. & Ntzoufras, I. (2003). Analysis of sports data by using bivariate poisson models. Statistician, 52,
381–393.
Keller, J. B. (1994). A characterization of the poisson-distribution and the probability of winning a game.
American Statistician, 48(4), 294–298. Times Cited: 5 5.
Lee, A. (1997). Modeling scores in the Premier League: Is Manchester United really the best? Chance, 10(1),
15–19.
Leoncini, M. P. & Silva, M. d. (2005). Entendendo o futebol como um negócio: um estudo exploratório. Gestão
& Produção, 12(1), 11–23.
Pollard, R. (1986). Home advantage in soccer: A retrospective analysis. Journal of Sports Sciences, 4(3), 237–248.
Times Cited: 86 90.
Suzuki, A. K., Salasar, L. E. B., Louzada-Neto, F. & Leite, J. G. (2009). A bayesian approach for predicting match
outcomes: The 2006 (association) football world cup. Journal of the Operational Research Society, 61, 1530–1539
(October 2010).
Tavares, L. E SUZUKI, A. K. (2015). Modelagem estatı́stica para previsão esportiva: Uma aplicação no futebol.
Matemática e Estatı́stica em Foco.
19

Sum Ario: 1 Resumo 2 2 Introduc Ao 2

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Sum Ario: 1 Resumo 2 2 Introduc Ao 2

Uploaded by

Copyright:

Available Formats

Sumário

2.1 Análise descritiva dos dados

Figura 1: Percentual do número de vitórias, empates e derrotas dos times Mandantes

3.1 Distribuição Poisson Zero Modificada (ZMP)

PZMP (Y = y) = (1 − p)I(y) + pPP (Y = y), y ∈ A0 , (1)

PZMP (Y = y) = 1 − p(1 − PP (Y = 0)) I(y) + p(1 − PP (Y = 0))PZTP (Y = y),

PZMP (Y = y) = (1 − ω) I(y) + ωPZTP (Y = y) (4)

log µk = β0 + β1 IH (k) + βAk + βDk

A função log-verossimilhança associada com o vetor de obervação yk do time k é dada por

Substituindo em (9) as equações de µki , dadas por

µki = eβ0 +β1 IH (ki )+βAk +βDk = exki βk ,

= `k+ (βk ; yk ) + `k0 (ωk ; yk ). (10)

para todos os valores de y+k j > 0.

P(β, ω|D) ∝ exp{`(β, ω; D)}P(β, ω).

P ωk |ω{−ωk } , D ∝ exp{`(β, ω; D)}P(ωk ),

Em que β{−(·)} e ω{−(·)} são, respectivamente, os vetores β e ω sem o parâmetro (·).

4.1 Partidas Simples

4.2 Predição para resultados das Partidas

1 . Serão simulados r campeonatos;

#(time terminou em primeiro lugar)

Tabela 5: Pontos atribuı́dos aos times de acordo com a normas da competição.

4.3 Medida de avaliação da qualidade das previsões

S = {(PV, PE, PD) ∈ R3 : PV + PE + PD = 1, PV ≥ 0, PE ≥ 0, PD ≥ 0}.

Figura 2: Gráfico ilustrando o simplex de DeFinetti.

(0.6 − 1)2 + (0.2 − 0)2 + (0.2 − 0)2 = 0.24 (19)

5.1 Partidas simples

5.2 Previsão para o campeonato

Real Madrid ●●●●

As tabelas 16 e 17 apresentam as probabilidades calculadas considerando as estimativas dos parâmetros

You might also like