You are on page 1of 19

Sumário

1 Resumo 2

2 Introdução 2
2.1 Análise descritiva dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

3 Modelo 5
3.1 Distribuição Poisson Zero Modificada (ZMP) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3.2 Modelo ZMP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3.3 Inferência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

4 Metodologia 8
4.1 Partidas Simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
4.2 Predição para resultados das Partidas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
4.3 Medida de avaliação da qualidade das previsões . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

5 Resultados 11
5.1 Partidas simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
5.2 Previsão para o campeonato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

6 Conclusão 16

1
1 Resumo
Dentro os muitos trabalhos utilizando modelos de previsão esportiva voltados para previsão no futebol
publicados, o modelo de Poisson é um dos mais empregados. Contudo, observa-se em situações reais a não
satisfação da restrição deste modelo, na qual média amostral deve ser igual a variância amostral. Implicando na
necessidade da utilização de modelos que expliquem melhor o comportamento dos dados que apresentam estas
caracterı́sticas. Neste contexto, será utilizado o modelo de Poisson Zero Modificado para ajustar o modelo
aos dados do campeonato Espanhol 2014-2015, para obtenção de previsão resultados deste. Os resultados
serão comparados com aqueles obtidos utilizando o modelo tradicional de Poisson, recorrente nos modelos
preditivos. Um das caracterı́sticas interessantes das distribuições pertencentes à famı́lia Série de Potência
Zero Modifica (ZMPS) é a flexibilidade em se fazer ajustes a dados, sem a necessidade prévia de sabermos
sobre a ocorrência de inflação ou deflação de zeros. O modelo de previsão adotado envolve a obtenção dos
parâmetros da distribuição Poisson Zero modificada ajustada aos dados da primeira rodada, utilizando o
método computacional Bayesiano (algoritmo Metropolis-Hastings), em seguida a simulação dos resultados
para obtenção das probabilidades dos resultados das partidas, analisando a qualidade preditiva pela medida
de Definetti e por fim comparando os resultados obtidos entre os modelos.

2 Introdução
Muitos trabalhos cientı́ficos publicados com o objetivo de produzir modelos de previsões de resultados
de partidas ou campeonatos de futebol utilizam modelos estatı́sticos. Esporte este de grande magnitude em
escala global, que segundo Leoncini & Silva (2005) Leoncini(2004) movimentava na época de seu estudo cifras
em torno de 250 bilhões de dólares. Desde Moroney (1956), inúmeros outros trabalhos foram publicados, nos
quais modelos estatı́sticos foram aplicados objetivando a predição de resultados no esporte. (Verificar este
artigo)
Moroney, M.J. (1956) Facts from Figures, 3rd edition, penguin, London.
Um grande quantidade de modelos descritos na literatura trabalham com a contagem do número de gols
dos times nas partidas, para estes comumente é adotada a distribuição de Poisson. Pollard (1986) – Verificou
através da porcentagem de vitórias obtidas pelo time jogando como mandante em relação a jogando como
visitante.
Karlis & Ntzoufras (2003) Karlis, D. e Ntzoufras, I.(2003), Modelam o número de gols marcados pelas
equipes em uma partida de futebol utilizando uma distribuição de Poisson bivariada .
Keller (1994) e Lee (1997) utilizam a distribuição de Poisson para modelar o número de gols marcados pelos
times.
Suzuki et al. (2009) propuseram uma metodologia bayesiana para a prediçao dos jogos da Copa do Mundo
FIFA 2006, no qual a distribuição a priori leva em consideração as opiniões de especialistas e o ranking FIFA.
Araújo et al. (2015) Araújo et al. (2015) aplicaram o modelo de Poisson, utilizando o método de soma e
diferença para estimar os parâmetros para a simulação de resultados e obtenção das probabilidades de vitória,
empate e derrota de cada time participante do campeonato Brasileiro de 2014. Nos conjuntos de dados de
futebol, que tratam da quantidade de gols marcados por cada time durante um determinado campeonato,
a frequência de zero gols marcados pelos times, podem ser maiores ou menores que o esperando quando
utiliza-se distribuições tradicionais. Modelos que utilizam a distribuição de Poisson tem a restrição de que
a média e variância devem ser iguais(equidispersa), diante destas questões torna-se interessante a adoção
de distribuições que comportam melhor essas caracterı́sticas dos dados. Então neste trabalho emprega-se a
distribuição de Poisson Zero Modificada (ZMP) sobre o conjunto de dados do Campeonato Espanhol 2014-
2015, com o intuito de ajustar um modelo que explique melhor os dados e por consequência forneça predições
melhores. Continuar

2.1 Análise descritiva dos dados


Foi feita a análise descritiva sobre os dados do Campeonato Espanhol 2014/2015, dados estes que obtidos
em qualquer site especializado de futebol na rede mundial de computadores, Internet. Foi estudado o número
de gols de cada equipe participante, segundo a condição de mandante e visitante.
A tabela 1 dispõe as quantidades de jogos e gols, dos times como mandante e visitante em cada um dos
turnos, para todas as equipes participantes.
A Figura 1 apresenta o gráfico com os percentuais dos resultados obtidos pelos times como mandante das
partidas, vê-se claramente uma vantagem estatı́stica do número de vitórias quando o time joga em casa.
Pelos dados da Figura 1 e Tabela 2,pode-se notar uma vantagem estatı́stica para os times quando jogam na
condição de mandante, como foi descrito em Pollard (1986).

2
Tabela 1: Número de jogos e gols feitos por cada equipe, como mandante e visitante em cada um dos turnos,
no Campeonato La Liga 2014-2015.
1o Turno 2o Turno
Mandandante Visitante Mandandante Visitante
Times No Jogos Gols No Jogos Gols No Jogos Gols No Jogos Gols Total de gols
Almeria 9 6 10 11 10 14 9 4 35
Athletic Bilbao 9 10 10 5 10 18 9 9 42
Athletic Madrid 11 27 9 13 8 15 10 12 67
Barcelona 9 32 10 16 10 32 9 30 110
Celta 9 12 10 6 10 18 9 11 47
Cordoba 10 7 9 8 9 5 10 2 22
Eibar 9 13 10 11 10 7 9 3 34
Elche 10 9 9 9 9 10 10 7 35
Espanol 10 14 9 8 9 9 10 16 47
Getafe 10 5 9 9 9 11 10 8 33
Granada 9 5 10 6 10 8 9 10 29
Deportivo La Coruna 10 10 9 4 9 12 10 9 35
Levante 9 6 10 7 10 14 9 7 34
Malaga 10 13 9 9 9 13 10 7 42
Real Madrid 8 27 10 35 11 38 9 18 118
Sevilla 10 19 8 11 9 19 11 22 71
Sociedad 10 14 9 5 9 15 10 10 44
Valencia 10 23 9 12 9 19 10 16 70
Rayo Vallecano 9 8 11 13 10 18 8 7 46
Villarreal 9 18 10 14 10 11 9 5 48

Tabela 2: Distribuição de frequência de número de gols feitos pelos times mandantes e visitantes no Campeonato
Brasileiro de 2014.
No de Gols 0 1 2 3 4 5 6 7 8 9
Mandante 97 118 87 45 18 9 4 1 0 1
Visitante 135 132 76 20 11 3 1 0 2 0

Figura 1: Percentual do número de vitórias, empates e derrotas dos times Mandantes

A Tabela 3 apresenta a média, desvio-padrão e o número máximo gols marcados por cada time durante o
campeonato.
A Tabela 4 apresenta a distribuição de frequência do número de gols marcados por cada time no campeonato.
Pode-se observar que as maiores frequências de números de gols ocorrem até três gols marcados pelos times
em cada partida.
Uma das vantagens dos modelos ZMPS, citadas por Conceicao et al. (2013), é que esses se ajustam bem a
dados zero-inflacionados, zero-deflacionados e zero-truncados, assim retirando a necessidade de análise prévia
sobre a frequência de ocorrência de zeros.
Pelo sumário dos números de gols marcados por cada time apresentado na Tabela 4, observa-se que um
grande número de times possuem uma média do número de gols marcados diferente da variância do número
de gols marcados no Campeonato Espanhol.

3
Tabela 3: Medidas resumo para os números de gols marcados por cada time no campeonato La Liga 2014-2015.
Times Média Desvio Padrão máximo
Almeria 0,921 0,777 3
Athletic Bilbao 1,105 1,286 4
Athletic Madrid 1,763 1,591 4
Barcelona 2,895 4,367 8
Celta 1,237 1,375 6
Cordoba 0,579 0,413 2
Eibar 0,895 1,286 5
Elche 0,921 1,048 4
Espanol 1,237 0,78 3
Getafe 0,868 0,712 3
Granada 0,763 0,564 3
Deportivo La Coruna 0,921 0,831 3
Levante 0,895 1,286 4
Malaga 1,105 0,853 4
Real Madrid 3,105 3,881 9
Sevilla 1,868 1,361 5
Sociedad 1,158 1,488 4
Valencia 1,842 1,488 4
Rayo Vallecano 1,211 0,927 4
Villarreal 1,263 1,442 4

Tabela 4: Distribuição de frequência do número de gols marcados por cada time durante o Campeonato La
Liga 2014-2015.
No Gols
Time 0 1 2 3 4 5 6 7 8
Almeria 15 12 10 1 0 0 0 0 0
Athletic Bilbao 13 15 5 3 2 0 0 0 0
Athletic Madrid 8 7 13 6 4 0 0 0 0
Barcelona 5 5 10 5 2 6 4 0 1
Celta 9 18 7 3 0 0 1 0 0
Cordoba 19 16 3 0 0 0 0 0 0
Eibar 17 14 3 3 0 1 0 0 0
Elche 17 10 9 1 1 0 0 0 0
Espanol 8 16 11 3 0 0 0 0 0
Getafe 15 14 8 1 0 0 0 0 0
Granada 15 18 4 1 0 0 0 0 0
Deportivo La Coruna 15 13 8 2 0 0 0 0 0
Levante 19 9 7 1 2 0 0 0 0
Malaga 10 17 9 1 1 0 0 0 0
Real Madrid 2 4 11 8 6 4 0 1 1
Sevilla 4 11 13 7 2 1 0 0 0
Sociedad 13 15 4 3 3 0 0 0 0
Valencia 6 11 6 13 2 0 0 0 0
Rayo Vallecano 10 13 13 1 1 0 0 0 0
Villarreal 12 12 9 2 3 0 0 0 0

4
3 Modelo
Pela análise dos dados feitos anteriormente vemos que a utilização de modelos da famı́lia ZMPS, se tornam
uma alternativa interessantes em relação a distribuição de Poisson, normalmente utilizada. Nesta seção
será trabalhado o Modelos de Poisson Zero Modificado, Conceicao et al. (2013), caracterizou as distribuições
pertencentes a famı́lia Série de Potência Zero Modificada (ZMPS), tratando de suas propriedades.

3.1 Distribuição Poisson Zero Modificada (ZMP)


Seja Y uma variável aleatória nos inteiros não-negativos, A0 = 0, 1, 2, ... e seja PZMP (Y = y) a probabilidade
da variável aleatória Y tenha o valor y. Diz-se que a variável aleatória Y tem distribuição ZMP, µ e p se sua
função massa de probabilidade é dada por:

PZMP (Y = y) = (1 − p)I(y) + pPP (Y = y), y ∈ A0 , (1)

em que PP (Y = y) denota a distribuição Poisson com parâmetro µ cuja função massa de probabilidade dada
por

e−µ µ y
PP (Y = y) = , µ ≥ 0;
y!
Em que I(y) é uma função indicadora, i.e. I(y) = 1 se y = 0 e I(y) = 0 caso contrário; p é o parâmetro p sob a
condição
1
0≤p≤ . (2)
1 − PP (Y = 0)
Vale ressaltar que a distribuição apresentada na equação (1) não é uma distribuição mistura tradicional, que
é comumente ajustada ao conjunto de dados inflacionados de zero, uma vez que o parâmetro p pode assumir
valores maiores que 1. A média e a variância Y são, respectivamente, µZMP = pµ e σ2ZMP = pµ(1 + µ(1 − p)).
Diferente valores de p levam a diferentes distribuições ZMP, como visto na caracterização da proporção de
zeros adicionais ou “faltantes”. Pode-se escrever:

PZMP (Y = 0) − PP (Y = 0) = (1 − p) + pPP (Y = 0) − PP (Y = 0)
= (1 − p)(1 − PP (Y = 0)). (3)

O parâmetro p controla a frequência de zeros, como pode ser vista analisando as probabilidades de zeros em
(3) com diferentes valores do parâmetro:

(i) Quando p = 0 em (3), PZMP (Y = 0) = 1. Assim, (1) é uma distribuição degenerada com toda massa em zero .
(ii) Para todo 0 < p < 1 em (3), têm-se (1 − p)(1 − PP (Y = 0)) > 0. Assim, PZMP (Y = 0) > PP (Y = 0) e (1)é a
distribuição Poisson Zero Inflacionada (ZIP) que tem uma proporção de zero.
(iii) Quando p = 1 em (3), PZMP (Y = 0) − PP (Y = 0) = 0. Então PZMP (Y = 0) = PP (Y = 0) e (1) é uma distribuição
Poisson tradicional.
(iv) Para todo 1 < p < 1/(1 − PP (Y = 0)) em (3), temos (1 − p)(1 − PP (Y = 0)) < 0. Então, PZMP (Y = 0) < PP (Y = 0)
e (1) é a distribuição Zero Deflacionada (ZDP).
(v) Quando p = 1/(1 − PP (Y = 0)) em (3), implica que PZMP (Y = 0) = 0. Então, (1) é a distribuição Poisson Zero
Truncada (ZTP), cuja função massa de probabilidade é dada por
PP (Y = y)
PZTP (Y = y) = (1 − I(y)).
1 − PP (Y = 0)

A distribuição ZMP descrita pela equação (1) pode ser escrita como

PZMP (Y = y) = 1 − p(1 − PP (Y = 0)) I(y) + p(1 − PP (Y = 0))PZTP (Y = y),




Outra parametrização da distribuição ZMP pode ser obtida considerando: ω = p(1 − PP (Y = 0)),

PZMP (Y = y) = (1 − ω) I(y) + ωPZTP (Y = y) (4)


, em que 0 < ω < 1.
A vantagem dessa parametrização é que ω and µ são ortogonais, possibilitando a estimação de ω indepen-
dentemente de µ. Contudo, a parametrização dada em (1) possibilita a inferência sobre o parâmetro p, o qual é
utilizado para identificar o tipo de modificação (zero-inflacionado ou zero-deflacionado), presente nos dados.

5
3.2 Modelo ZMP
A distribuição ZMP pode ser usada para modelar numero de gols de um determinado time k em uma
partida de futebol, usando a seguinte variável reposta

Yk ∼ ZMP(µk , pk ),
para k = 1, 2, . . . , K, em que K é o número de times que disputam um determinado Campeonato e 0 ≤ pk ≤
1
1−PP (Y=0,µk ) .
Com relação ao parâmetros µk do modelo, adota-se a seguinte estrutura:

log µk = β0 + β1 IH (k) + βAk + βDk



(5)
Em que β0 é um parâmetro constante, β1 é o parâmetro referente ao efeito jogo ”em casa”, IH (k) é uma função
indicadora, sendo IH (k) = 1 se o time k joga em casa e IH (k) = 0, caso contrário;
βAk é o parâmetro referente ao efeito ataque do time k e βDk é o parâmetro relacionado ao efeito defensivo do
time adversário ao time k.
Alternativamente, se especificarmos

Yk ∼ ZMP(µk , ωk ),
como escrito em (4), tem-se que:

ωk = pk (1 − PP (Y = 0; µk )). (6)
Para o processo de estimação dos parâmetros do modelo, considera-se a restrição de que a soma dos
parâmetros βAk e a soma dos parâmetros βDk são zero, ou seja:
K
X K
X
βAk = 0 e βDk = 0.
k=1 k=1
|
Nos modelos ZMP, os parâmetros de interesse a serem estimados para cada time k são o vetor βk = (β0 β1 βAk
βDk ) e ωk .
Para inferir sobre os parâmetros, uma abordagem totalmente baysiana foi adotada, a qual tem a vantagem
de incorporar informação a priori. A funções de verossimilhança, e as densidade a priori e posteriori para os
parâmetros do modelo são representados a seguir.

3.3 Inferência
|
Seja yk = (yk1 yk2 . . . ykn ) o vetor de observações referente a n realizações da variável aleatórias Yki que
tem distribuição ZMP com parâmetros µki e pk (ou ωk ), i = 1, . . . , n, no qual n representa o número de jogos e
yki corresponde o número de gols marcado pelo time k no jogo i.

Denota-se por µk = (µk1 µk2 . . . µkn ) o vetor paramétrica, com as médias µki , em que cada µki está relacionada
com a observação yki .
|
Considerando o vetor de parâmetros βk = (β0 β1 βAk βDk ), para simplificação, definimos a matriz Xk de
dimensões n × 4 na qual as linhas são compostas por vetores xki = (1 IH (ki ) 1 1), então xki βk = β0 + β1 IH (ki ) +
βAk + βDk .
Considerando o modelo ZMP parametrizado em ωki , a função de verrossimilhança associada ao vetor de
observações yk do time k é dado por

n 
Y I(yki )  ω P (Y = y ) 1−I(yki ) 
k P ki ki
Lk (µk , ωk ; yk ) = 1 − ωk
1 − PP (Yki = 0)
i=1
−µki yki 1−I(yki ) 
 
µ



  e k  
i 
 
  

n
 
I(yki ) 

yki ! 
Y    
 

= 1 − ωk ω .
 
·

(7)
 
 k −µ

1 − e

 
 ki 
 

   
i=1 

 







   

 

A função log-verossimilhança associada com o vetor de obervação yk do time k é dada por

6
 −µk yki
 e i µki
  
  
n

   
X    y !  
 ki
`k (µk , ωk ; yk ) = (1 − I(yki )) log   + log(ωk ) +
   
i=1

 
 1 − e−µki 



   


I(yki ) log(1 − ωk )

 −µk yki
 e i µki


n   
X  yki !  
= (1 − I(yki )) log   +

i=1
 1 − e−µki 
 
 

n 
X 
(1 − I(yki )) log(ωk ) + I(yki ) log(1 − ωk )
i=1

(8)

Substituindo em (9) as equações de µki , dadas por

µki = eβ0 +β1 IH (ki )+βAk +βDk = exki βk ,


tem se a log-verossimilhança rescrita em função de βk , ωk e yk

  xki βk x β y 
  e−e e ki k ki 
n    
yki !
X  
  
`k (βk , ωk ; yk ) = (1 − I(yki )) log   + (9)
  
  1 − e−exki βk 
i=1   
  

n 
X 
(1 − I(yki )) log(ωk ) + I(yki ) log(1 − ωk )
i=1

= `k+ (βk ; yk ) + `k0 (ωk ; yk ). (10)

Pode ser observar que `k+ (β1k ; yk ) depende apenas de valores positivos do vetor de observações yk . Denotado
+|
por yk = (y+k1 y+k2 . . . y+k + ) o vetor com n+ observações postitivas de yk e Xk+ a matriz de dimensão n+ × 4 que
n
é composta pelos vetores x+k j = (1 IH (k j ) 1 1), j = 1, . . . , n+ , a função log-verossimilhança para βk , baseado na
suposição de que y+k vem de uma distribuição ZTP é dada por:

n+  P (Y+ = y+ ) 
 
X  P kj kj 
`k (βk ; y+k ) =
 
 1 − P (Y+ = 0) 

 
P
 kj
j=1

 x+ βk + + 
 −e k j xk j βk yk j

 e e

  

  
n+  +
  
y !
 
X  
 kj
 
=
  
log
  
x+ βk

 
  
k
−e j
 
j=1  1 − e
  

 
 


  


n+  x+ βk 
x+ β k kj
X
= x+k j βk y+k j − e k j − log(y+k j !) − log(1 − e−e ) ,
j=1

para todos os valores de y+k j > 0.


Uma vez que `k (βk ; y+k ) = `k+ (βk ; yk ), a função log-verossimilhança `k (βk ; yk ) do modelo ZMP é equivalente a
função log-verossimilhança `k (βk ; y+k ) do modelo ZTP adicionado do termo `k0 (ωk ; yk ) que é dado por

7
n 
X 
`k0 (ωk ; yk ) = (1 − I(yki )) log(ωk ) + I(yki ) log(1 − ωk )
i=1

= n+ log(ωk ) + (n − n+ ) log(1 − ωk ).

Uma vez que há K times que atuam de forma independente, a função log-verossimilhança completa é dada
por
K
X
`(β, ω; D) = `k (βk , ωk ; yk ),
k=1

em que β = (β0 β1 βA1 . . . βAK βD1 . . . βDK ), ω = (ω1 . . . ωK ) e D = {y1 , . . . , yK } são, respectivamente, dois
| |

vetores paramétricos e o conjunto de dados formado pelo número de gols marcados pelos times em cada jogo.
Foi considerado para β, uma densidade a priori normal multivariada com vetores de médias nulas e uma
matriz de precisão diagonal 10−3 I. Aqui, I é uma matriz identidade (2K + 2) × (2K + 2) , então β ∼ N(0, 103 I).
Para cada parâmetro ωk , k = 1, . . . , K, considera-se uma priori com distribuição uniforme, U(0, 1). A
abordagem bayesiana para o modelo ZMP pode ser estruturado, escrevendo a densidade a posteriori conjunta
para o vetor de parâmetros β e ω como:

P(β, ω|D) ∝ exp{`(β, ω; D)}P(β, ω).

Do ponto de vista bayesiano, inferências sobre os parâmetros podem ser feitos usando as densidade
posteriori marginal, que pode ser obtida integrando a densidades da posteriori conjunta. Contudo, nesse caso,
soluções analı́ticas para as integrais não podem ser obtidas. Para resolver este problema, foi usado o algoritmo
Metropolis-Hastings, que é um procedimento iterativo da classe de métodos MCMC.Para implementar o
algoritmo, considerou-se as densidades condicionais dos parâmetros β0 , β1 , βAk , βDk e `wk , para todo k = 1, . . . , K,
dada por

 
P β0 |β{−β0 } , D ∝ exp{`(β, ω; D)}P(β0 )
 
P β1 |β{−β1 } , D ∝ exp{`(β, ω; D)}P(β1 )
 
P βAk |β{−βAk } , D ∝ exp{`(β, ω; D)}P(βAk )
 
P βDk |β{−βDk } , D ∝ exp{`(β, ω; D)}P(βDk )

P ωk |ω{−ωk } , D ∝ exp{`(β, ω; D)}P(ωk ),




Em que β{−(·)} e ω{−(·)} são, respectivamente, os vetores β e ω sem o parâmetro (·).

4 Metodologia
A partir da descrição do modelo de Poisson Zero Modificada, nesta seção serão caracterizado os procedi-
mentos adotados para obtenção da previsão dos resultados do campeonato de futebol estudado, bem como a
métrica para avaliação da qualidade destas predições.

4.1 Partidas Simples


Após o ajuste do modelo Poisson Zero modificada aos dados do Campeonato Espanhol 2014 2015, utilizou-se
as estimativas para os parâmetros número médio de gols, fator de mando de campo, fator ataque e defesa para,
através da simulação de 1000 campeonatos, calcular as probabilidade do número de gols de um determinado
time ser maior, menor ou igual ao número de gols de seu oponente.
Em uma partida de futebol qualquer, tem-se o time A e o time B, com o número de gols do time mandante A,
representado por XA e o número de gols do time visitante B, representado por XB . O time A sairá vitorioso se o
número de gols obtido for maior que o do time B, XA > XB , empate se obter o mesmo número de gols, XA = XB
e derrota se sair da partida com menor número de gols, XA < XB . Assim pode-se representar as probabilidades
para cada um dos resultados como segue:

8
X
PVitória = P(XA > XB ) = P(X = i, Y = j) (11)
i> j
X
PEmpate = P(XA = XB ) = P(X = i, Y = j) (12)
i= j
X
PDerrota = P(XA < XB ) = P(X = i, Y = j) (13)
i< j

4.2 Predição para resultados das Partidas


Para o processo de obtenção das predições para as partidas das rodadas do segundo turno, a partir da
vigésima rodada até a trigésima oitava, foram tomados os resultados simulados para cada time participantes
do campeonato estudado segundo as seguintes etapas:

1 . Serão simulados r campeonatos;

2 . Para o r-ésimo campeonato, será estimado a média a posteriori dos parâmetros do modelo e então serão
simulados o placar (XA , XB ) para cada um dos n jogos entre os times mandante (A) e visitante (B).

(3) É atribuı́da à cada time a pontuação correspondente ao resultado obtida pela simulação segundo as regras
do campeonato;

(4) Terminada a simulação do r-ésimo campeonato é montada a tabela de classificação, conforme os pontos
obtidos para cada time. Após a simulação de todos os r campeonatos pode se montar as probabilidades dese-
jadas, como por exemplo a de um determinado time ser o campeão ou este estar entre os últimos 4 colocados.

Foram feitos simulações para r = 1000 campeonatos. Utilizando os resultados das simulações pode-se
calcular as probabilidades segundo as seguintes equações:

#(time terminou em primeiro lugar)


Pcampeão = (14)
r
#(time terminou entre os 3 últimos colocados)
Prebaixamento = , (15)
r
em que # refere-se ao número de vezes obtidos na simulação.

Tabela 5: Pontos atribuı́dos aos times de acordo com a normas da competição.


Resultado Pontos ao time mandante Pontos ao time visitante
Vitória 3 0
Empate 1 1
Derrota 0 3

4.3 Medida de avaliação da qualidade das previsões


Utilizou-se os modelos Poisson e Poisson Zero Moficado para obtenção de resultados preditivos a partir dos
dados do Campeonato Espanhol 2014 2015. Dentro desde contexto de comparação entre modelos diferentes a
adoção de uma ferramenta de avaliação de qualidade da predição para cada modelo é fundamental. Adota-se
aqui a medida de Definetti, De Finetti (1972), como utilizado em muitos trabalhos cientı́ficos já publicados e
também em Araújo et al. (2015) e Tavares (2015).
O método consiste em representar as probabilidades para cada resultado possı́vel da partida para um
determinado time, pelo vetor S, que contém as probabilidades de vitória (PV ), empate, (PE ), e derrota, (PD ),
respectivamente.

S = {(PV, PE, PD) ∈ R3 : PV + PE + PD = 1, PV ≥ 0, PE ≥ 0, PD ≥ 0}.


Os resultados de partidas observadas são representadas vetorialmente. Como por exemplo, o vetor (1,0,0)
representa que há 100% de probabilidade de vitória de um determinado time em uma partida já ocorrida.

9
Indicando que o time mandante obteve maior número de gols que o time visitante. Similarmente, os vetores
(0, 1, 0) e (0, 0, 1) representam, respectivamente, os eventos empate e derrota do time mandante.
Utiliza-se distância euclidiana quadrática entre o ponto representado por S, que corresponde a previsão
probabilı́stica do modelo, até o vértice que representa o resultado real como métrica para avaliar a qualidade
das previsões de modelos. Esta é conhecida como Medida de Definetti, De Finetti (1972). Para os trÊs possı́veis
resultados de uma partida têm-se as seguintes equações para o cálculo da medida de Definetti:

(PV − 1)2 + (PE − 0)2 + (PD − 0)2 ,se a equipe mandante vencer a partida; (16)
(PV − 0) + (PE − 1) + (PD − 0)
2 2 2
,se a equipe mandante empatar a partida; (17)
(PV − 0)2 + (PE − 0)2 + (PD − 1)2 ,se a equipe mandante perder a partida. (18)

A cada vértice do tetraedro associa-se um possı́vel resultado da partida para o time com mando de campo,
como ilustrado na Figura 2.

Figura 2: Gráfico ilustrando o simplex de DeFinetti.

Supondo que para um determinado resultado de uma partida o modelo estudado, prevê o seguinte conjunto
de probabilidades: 60% de probabilidade de vitória, 20% de empate e 20% de derrota. Sabendo-se que para
a partida em questão o resultado obtido foi Vitória, então usando as equações para o cálculo da medida de
Definetti temos:

(0.6 − 1)2 + (0.2 − 0)2 + (0.2 − 0)2 = 0.24 (19)

Para avaliar este resultado, utilizamos por base o resultado obtido utilizando o modelo que atribui medidas
equiprováveis para as probabilidades dos resultados possı́veis para um partida, ou seja, 1/3 de probabilidade
para cada um. Assim terı́amos : (PV = PE = PD = 1/3) e portanto (1/3 − 1)2 + (1/3 − 0)2 + (1/3 − 0)2 = 2/3
para o resultado da partida. Portanto aqueles modelos que conseguem medidas de Definetti menores que 2/3
podem ser considerados como aqueles de boa qualidade preditiva, enquanto que os que tem medidas maiores,
como de má qualidade preditiva.
Outra medida a ser utilizada também é o de número de acertos de cada modelo. Neste caso analisa se o
evento com maior probabilidade de ocorrência segundo o modelo é observado, caso ocorra dizemos que houve
um acerto por parte do modelo. Neste artigo foram comparados dois modelos, então uma das métricas para
mensurar a qualidade preditiva foi o número de acertos de cada modelo.

10
5 Resultados
Nesta sessão apresentam-se os resultados preditivos de cada modelo aplicado aos dados do Campeonato
La Liga 2014 2015. Tomando por base que o ajuste de cada modelo foi feito utilizando os dados do primeiro
turno da competição. Estes foram obtidos em site especializado, como outros inúmeros sites disponı́veis na
Internet, que tratam do esporte.

5.1 Partidas simples


Foram calculadas as probabilidades de vitória, empate e derrota para cada time nas rodadas do segundo
turno do Campeonato Espanhol de Futebol 2014-2015, a partir dos resultados dos jogos do primeiro turno.
Pela Tabela 6 vê-se que o modelo Poisson Zero Modificado teve um total de um total de 104 acertos entre as
190 partidas do segundo turno, com uma média da medida de qualidade de predição Definetti 0,54. Já o ajuste
do dados usando o modelo de Poisson clássico resultou em 103 acertos em 190 jogos e uma média da medida
Definetti dado por 0,53. Apesar do número de acertos próximos para os dois modelos, o modelo ZMP, obteve
um uma leve vantagem quantitativa e qualitativa para os dados utilizados, uma vez que o modelo de Poisson
convencional obteve uma métrica de qualidade maior que modelo zero modificada.

Tabela 6: Tabela comparativa entre o resultado da aplicação dos modelos, contendo a média de acertos por
rodada, total de previsões corretas e a medida de qualidade de predição Definetti.
Modelo Média de acertos Total de acertos Definetti
ZMP 5,47 104 0,54
Poisson 5,42 103 0,55

As Tabelas 7 e 8 apresentam as probabilidades obtidas pela simulação os jogos da 28a rodada utilizando cada
um dos modelos, bem como a medida Definetti para cada resultado previsto. Para o modelo ZMP, obteve-se
um total de oito acertos. Um dos erros ocorre quando a simulação indicou a derrota para o Deportivo La
Coruna para o visitante Espanol, quando foi observado empate entre as equipes. A predição esta de acordo
com o desempenho melhor da segunda equipe no campeonato sobre a primeira. O segundo erro ocorre quando
a simulação apontou resultado favorável da equipe do Vilarreal sobre o Sevilla, sendo que observou a vitória
do time visitante sobre o mandante. Neste caso, até a rodada simulada, o time do Villarreal vinha tendo um
desempenho melhor quando detentor do mando de campo que o Servilla, assim o fator mando de campo do
modelo de simulação deu favoritismo ao primeiro time naquela partida.

Tabela 7: Placar, probabilidades de vitória, empate e derrota, medida de De Finetti e acertos para a rodada 28
usando o modelo ZMP.
Mandante Placar Visitante Vitória Empate Derrota Definetti acertou
Elche 0-4 Valencia 0,116 0,318 0,566 0,302 sim
Ath. Bilbao 2-1 Almeria 0,353 0,336 0,311 0,628 sim
Ath. Madrid 2 -0 Getafe 0,58 0,252 0,168 0,269 sim
Granada 0-0 Eibar 0,278 0,393 0,33 0,555 sim
Levante 0-1 Celta 0,298 0,309 0,392 0,554 sim
Rayo Vallecano 1- 0 Malaga 0,404 0,286 0,309 0,532 sim
Barcelona 2-1 Real Madrid 0,498 0,172 0,331 0,391 sim
Deportivo La Coruna 0-0 Espanol 0,289 0,255 0,456 0,846 não
Sociedad 3-1 Cordoba 0,49 0,295 0,215 0,394 sim
Villarreal 0-2 Sevilla 0,548 0,206 0,246 0,91 não

A Tabela 8, mostra os resultados da simulação para a mesma rodada analisada na qual houve 4 erros de
predição, além dos ocorridos pela simulação utilizando o modelo ZMP, indicou como favorito o Eibar sobre
o Granada, que reflete o melhor desempenho da primeira equipe em relação a segunda até a vigésima oitava
rodada. Outro erro ocorreu quando a simulação utilizando o modelo de Poisson, ocorreu quando deu uma
pequena vantagem em probabilidade da equipe Malaga vencer o Rayo Vallecano.

A Tabela 5.1, dispõe o número de acertos para cada modelo, nota-se que não há diferença significativa entre
o número de acertos entre os modelos.

11
Tabela 8: Placar, probabilidades de vitória, empate e derrota, medida de De Finetti e acertos para as partidas
da rodada 28 usando o modelo de Poisson.
Mandante placar Visitante Vitória Empate Derrota Definetti Acertou
Elche 0-4 Valencia 0,12 0,244 0,636 0,207 sim
Ath. Bilbao 2-1 Almeria 0,488 0,292 0,22 0,396 sim
Ath. Madrid 2-0 Getafe 0,796 0,138 0,066 0,065 sim
Granada 0-0 Eibar 0,219 0,348 0,433 0,66 não
Levante 0-1 Celta 0,326 0,308 0,366 0,602 sim
Rayo Vallecano 1-0 Malaga 0,336 0,278 0,386 0,667 não
Barcelona 2-1 Real Madrid 0,639 0,177 0,184 0,195 sim
Deportivo La Coruna 0-0 Espanol 0,377 0,272 0,352 0,796 não
Sociedad 3-1 Cordoba 0,655 0,221 0,125 0,183 sim
Villarreal 0-2 Sevilla 0,565 0,224 0,211 0,991 não

Tabela 9: Tabela comparativa entre o número de acertos para previsões de resultados das partidas para cada
modelo.
Rodadas 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38
ZMP 6 6 3 6 5 6 5 6 8 5 6 4 3 5 7 5 6 7 5
Poisson 7 6 4 6 6 5 5 6 6 5 5 5 5 5 7 4 5 6 5

5.2 Previsão para o campeonato


Um dos objetivos do modelo preditivo para campeonatos de futebol é apresentar entre os times partici-
pantes quais deles tem maior probabilidade de conquistar o tı́tulo de campeão. A Tabela 5.2 apresenta as
probabilidades dos melhores colocados na competição serem campeões, em cada uma rodada do segundo
turno do Campeonato Espanhol de Futebol 2014 - 2015. Pelas Tabelas 5.2 e 5.2, vemos que nesta competição
temos o favoritismo concentrado em duas equipes, Barcelona e Real Madrid, que historicamente concentram o
maior número de tı́tulos da competição. Nota-se , no inı́cio do segundo, as simulações para utilizando os dois
modelos indicam um favoritismo para a equipe do Real Madrid que no decorrer da competição muda para a
equipe do Barcelona. Isto ocorre coerentemente com o desempenho das duas equipes durante a segunda etapa
do Campeonato Espanhol daquele ano. Que terminou com o Barcelona consagrado como campeão e o Real
Madrid com o segundo lugar na competição.

Tabela 10: Probabilidades de cada equipe ser campeão, no decorrer do campeonato utilizando o modelo ZMP.
rodada Barcelona Real Madrid Atlético Madrid Valencia Sevilla Villarreal Athletic Bilbao
20 0,057 0,932 0,009 0,002 0 0 0
21 0,102 0,894 0,003 0,001 0 0 0
22 0,063 0,929 0,008 0 0 0 0
23 0,235 0,736 0,028 0,001 0 0 0
24 0,267 0,725 0,006 0,001 0,001 0 0
25 0,145 0,842 0,009 0,004 0 0 0
26 0,202 0,79 0,006 0,002 0 0 0
27 0,46 0,524 0,012 0,004 0 0 0
28 0,529 0,465 0,003 0,003 0 0 0
29 0,662 0,323 0,002 0,013 0 0 0
30 0,696 0,299 0,003 0,002 0 0 0
31 0,743 0,251 0,005 0,001 0 0 0
32 0,634 0,361 0,005 0 0 0 0
33 0,734 0,264 0,001 0,001 0 0 0
34 0,745 0,254 0,001 0 0 0 0
35 0,816 0,184 0 0 0 0 0
36 0,817 0,183 0 0 0 0 0
37 0,962 0,038 0 0 0 0 0
38 1 0 0 0 0 0 0

Comparando as Tabelas 5.2 e 5.2, não há diferenças significativas entre os resultados preditivos do modelo.

Como os quatro primeiros classificados na competição ficam apitos a participarem da Liga dos Campeões,é
interessante que o modelo mostre as probabilidades de cada um dos times participantes de terminarem a
competição nestas posições de classificação. Tanto na Tabela 5.2 como em 13 temos os times do Barcelona, Real
Madrid, Atlético Madrid e Valencia, como os favoritos para a classificação para a Liga dos Campeões.
Diferente dos primeiros colocados na competição, não há uma definição muito clara de quais times partici-
pantes seriam rebaixados segundo os modelos de simulação. São rebaixados aqueles times que ficam entre os
três últimos colocados na competição.

12
Tabela 11: Probabilidades de cada equipe ser campeão, no decorrer do campeonato utilizando o modelo
Poisson.
rodada Barcelona Real Madrid Atlético Madrid Valencia Sevilla Villarreal Athletic Bilbao
20 0,2 0,799 0,001 0 0 0 0
21 0,314 0,684 0,002 0 0 0 0
22 0,297 0,7 0,003 0 0 0 0
23 0,542 0,454 0,004 0 0 0 0
24 0,575 0,423 0,002 0 0 0 0
25 0,364 0,627 0,008 0,001 0 0 0
26 0,462 0,536 0,002 0 0 0 0
27 0,681 0,315 0,004 0 0 0 0
28 0,741 0,257 0,001 0,001 0 0 0
29 0,835 0,163 0,001 0,001 0 0 0
30 0,857 0,143 0 0 0 0 0
31 0,841 0,159 0 0 0 0 0
32 0,781 0,218 0,001 0 0 0 0
33 0,831 0,169 0 0 0 0 0
34 0,847 0,153 0 0 0 0 0
35 0,873 0,127 0 0 0 0 0
36 0,863 0,137 0 0 0 0 0
37 0,992 0,008 0 0 0 0 0
38 1 0 0 0 0 0 0

Tabela 12: Probalidade de um dos sétimo primeiros colocados no campeonato de ficar entre os quatro primeiros
colocados no campeonato, utilizando o modelo ZMP.
rodada Barcelona Real Madrid Atlético Madrid Valencia Sevilla Villarreal Athletic Bilbao
20 0,973 1 0,848 0,841 0,318 0,233 0
21 0,988 1 0,832 0,83 0,227 0,231 0
22 0,991 1 0,936 0,928 0,326 0,223 0
23 0,997 1 0,972 0,945 0,135 0,244 0
24 0,998 0,999 0,929 0,924 0,226 0,095 0
25 0,989 1 0,952 0,947 0,107 0,09 0
26 0,999 1 0,941 0,937 0,058 0,092 0
27 0,998 1 0,897 0,889 0,074 0,155 0
28 0,999 1 0,89 0,89 0,115 0,092 0
29 1 1 0,883 0,894 0,157 0,014 0
30 0,999 0,999 0,917 0,916 0,198 0,006 0
31 1 1 0,94 0,936 0,262 0 0
32 1 0,999 0,9 0,895 0,255 0 0
33 1 1 0,987 0,987 0,176 0 0
34 1 1 0,983 0,982 0,156 0 0
35 1 1 0,998 0,998 0,293 0 0
36 1 1 0,994 0,994 0,142 0 0
37 1 1 1 1 0,061 0 0
38 1 1 1 1 0 0 0

Tabela 13: Probalidade de um dos sétimo primeiros colocados no campeonato de ficar entre os quatro primeiros
colocados no campeonato, utilizando o modelo PS.
rodada Barcelona Real Madrid Atlético Madrid Valencia Sevilla Villarreal Athletic Bilbao
20 1 1 0,802 0,801 0,273 0,268 0
21 1 1 0,809 0,807 0,19 0,255 0
22 1 1 0,919 0,916 0,235 0,311 0
23 1 1 0,979 0,975 0,065 0,279 0
24 1 1 0,959 0,957 0,169 0,11 0
25 1 1 0,981 0,974 0,072 0,084 0
26 1 1 0,96 0,958 0,055 0,107 0
27 1 1 0,924 0,92 0,057 0,152 0
28 1 1 0,919 0,919 0,079 0,097 0
29 1 1 0,904 0,904 0,17 0,009 0
30 1 1 0,94 0,94 0,193 0,006 0
31 1 0,998 0,949 0,949 0,26 0 0
32 1 1 0,94 0,939 0,229 0 0
33 1 1 0,993 0,993 0,1 0 0
34 1 1 0,988 0,988 0,131 0 0
35 1 1 0,999 0,999 0,256 0 0
36 1 1 0,998 0,998 0,12 0 0
37 1 1 1 1 0,029 0 0
38 1 1 1 1 0 0 0

13
Tabela 14: Probabilidades das equipes serem rebaixadas ao final campeonato a cada rodada da segunda fase,
utilizando modelo ZMP.
rodada Elche Levante Getafe Deportivo Granada Eibar Almerı́a Córdoba
20 0,241 0,559 0,268 0,469 0,761 0 0,216 0,258
21 0,362 0,644 0,111 0,254 0,721 0 0,398 0,259
22 0,534 0,787 0,222 0,25 0,565 0 0,191 0,335
23 0,45 0,513 0,11 0,169 0,756 0,004 0,13 0,568
24 0,305 0,625 0,119 0,179 0,804 0,008 0,139 0,616
25 0,305 0,456 0,038 0,334 0,881 0,007 0,16 0,678
26 0,246 0,501 0,034 0,335 0,883 0,019 0,205 0,742
27 0,118 0,335 0,021 0,442 0,747 0,061 0,382 0,853
28 0,141 0,322 0,024 0,416 0,799 0,055 0,338 0,898
29 0,147 0,385 0,023 0,354 0,796 0,044 0,341 0,91
30 0,122 0,13 0 0,379 0,809 0,083 0,555 0,922
31 0,142 0,159 0 0,35 0,827 0,011 0,573 0,938
32 0,074 0,288 0 0,35 0,948 0,025 0,333 0,982
33 0,011 0,193 0,001 0,394 0,917 0,04 0,468 0,976
34 0,025 0,11 0,002 0,48 0,971 0,121 0,293 0,998
35 0 0,012 0,001 0,676 0,978 0,108 0,225 1
36 0 0,013 0,004 0,655 0,923 0,174 0,231 1
37 0 0 0,001 0,61 0,733 0,243 0,413 1
38 0 0 0 0,189 0,313 0,627 0,871 1

Tabela 15: Probabilidades das equipes serem rebaixadas ao final campeonato a cada rodada da segunda fase,
utilizando modelo Poisson.
rodada Elche Levante Getafe Deportivo Granada Eibar Almerı́a Córdoba
20 0,324 0,654 0,189 0,388 0,768 0 0,275 0,287
21 0,469 0,652 0,078 0,207 0,735 0 0,439 0,24
22 0,667 0,814 0,185 0,214 0,547 0 0,223 0,259
23 0,552 0,549 0,079 0,135 0,709 0 0,194 0,507
24 0,335 0,647 0,117 0,117 0,791 0,002 0,236 0,63
25 0,309 0,466 0,033 0,265 0,904 0,006 0,242 0,686
26 0,223 0,568 0,029 0,235 0,875 0,011 0,273 0,762
27 0,106 0,406 0,011 0,331 0,737 0,019 0,464 0,9
28 0,166 0,314 0,026 0,307 0,823 0,023 0,413 0,923
29 0,158 0,416 0,022 0,265 0,806 0,015 0,392 0,925
30 0,101 0,099 0,003 0,348 0,847 0,027 0,635 0,94
31 0,129 0,141 0 0,365 0,842 0,003 0,6 0,92
32 0,08 0,253 0 0,356 0,969 0,013 0,344 0,985
33 0,011 0,17 0 0,424 0,951 0,017 0,459 0,968
34 0,022 0,11 0 0,508 0,983 0,066 0,312 0,999
35 0 0,006 0,001 0,751 0,986 0,052 0,204 1
36 0 0,002 0,002 0,754 0,958 0,096 0,188 1
37 0 0 0,001 0,502 0,85 0,148 0,499 1
38 0 0 0 0,234 0,415 0,483 0,868 1

14
A Figuras 3 e 4 apresentam o diagramas de caixas dos pontos feitos para cada equipe, provenientes de
mil campeonatos simulados a partir dos dados do primeiro turno do Campeonato Espanhol 2014-2015, até
trigésima quarta rodada. Nas duas figuras, vê-se que o Barcelona é o grande favorito a se sagrar campeão da
competição, com o Real Madrid e o Atlético de Madrid, ocupando a segunda e terceira posição no campeonato,
respectivamente. A quarta colocação é predita corretamente pela simulação pelo modelo ZMP, ocupado pela
equipe do Valência, enquanto que na simulação utilizando o modelo de Poisson, temos o Servilla em quarto.
No entanto nas duas simulações feitas até a trigésima quarta rodada o Córdoba aparece como favorito ao
rebaixamento. A diferença entre os resultados finais do campeonato e as posições preditas pelos modelos, são
coerentes uma vez que estes refletiram corretamente o desempenho dos times até a trigésima rodada.

Córdoba ●

Almería ●

Eibar ●

Granada
Deportivo ● ●

Getafe ● ●

Levante
Elche
R. Sociedad ●●
●●
● ●●
●●●

Rayo
Espanyol ●

Málaga ● ●

Celta ●

Athletic ●

Villarreal
Sevilla ●●
● ●

Valencia ●●

Atlético Madrid ●●

Real Madrid ●●●●


●●

Barcelona ●

20 40 60 80

Points

Figura 3: Diagrama em caixa das previsões, utilizando a pontuação das equipes até a rodada 34, pelo modelo
ZMP.

As tabelas 16 e 17 apresentam as probabilidades calculadas considerando as estimativas dos parâmetros


obtidas com os dados disponı́veis até a vigésima nona rodada.

15
Córdoba ●

Almería ●

Eibar ●● ●●●

Granada ●

Deportivo
Getafe
Levante ●●

Elche ●

R. Sociedad ●●

Rayo ●●

Espanyol ●● ●●

Málaga ●

Celta ●

Athletic ●

Villarreal ●● ●

Sevilla ●●

Valencia
Atlético Madrid
Real Madrid ●●

Barcelona

20 40 60 80

Points

Figura 4: Diagrama em caixa das previsões, utilizando a pontuação das equipes até a rodada 34, pelo modelo
Poisson.

6 Conclusão
Neste trabalho apresentou-se as previsões feitas utilizando os modelos ZMP e Poisson clássico para obtenção
dos parâmetros de simulação, ajustados aos dados correspondentes ao número de gols do Campeonato La liga
2014 - 2015. Os dois modelos mostraram resultados satisfatórios, uma vez que apresentaram taxas de 54,7%
e 54,2% de acertos nas previsões dos resultados das partidas do segundo turno do campeonato. A qualidade
preditiva observada, dada pela medida de Definetti foram de 0,54 e 0,55 utilizando o modelo ZMP e Poisson
respectivamente. Ambas medidas abaixo de 2/3, valor tomado como referência, indicando boa qualidade
preditiva para ambos. Os dois modelos adotados forneceram previsões satisfatórias quando comparados aos
resultados reais observados. Pode-se concluir que o modelo ZMP, é uma alternativa interessante aos modelos
tradicionais que utilizam a distribuição Poisson para modelar o número de gols dos times em uma campeonato
de pontos corridos. Outra vantagem interessante, é a flexibilidade do modelo proposto explicar a inflação ou
deflação da frequência de zeros sem a necessidade da análise prévia dos dados. Uma vantagem notata durante
a simulação, foi que o custo computacional utilizando a distribuição de Poisson tradicional é muito menor que
o do modelo ZMP. Como sugestão de trabalho futuro, pode-se comparar os resultados entre outros modelos
zero modificados, tais como Binomial Zero Modificado e o Poisson Zero Modificado.

16
Tabela 16: Probabilidades das equipes terminarem em cada uma das posições possı́veis, calculadas na 29a rodada, pelo modelo ZMP.
Equipe Méida D.P. 1o 2o 3o 4o 5o 6o 7o 8o 9o 10o 11o 12o 13o 14o 15o 16o 17o 18o 19o 20o
BAR 1.371 0,603 0,684 0,271 0,035 0,01 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
REA 1.805 0,625 0,296 0,617 0,075 0,01 0,002 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
MAD 3.677 0,765 0,008 0,034 0,347 0,504 0,098 0,009 0 0 0 0 0 0 0 0 0 0 0 0 0 0
VAL 3.339 0,735 0,012 0,075 0,522 0,344 0,047 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
SEV 5.018 0,646 0 0,003 0,02 0,117 0,681 0,174 0,005 0 0 0 0 0 0 0 0 0 0 0 0 0
VIL 5.847 0,521 0 0 0,001 0,015 0,17 0,767 0,044 0,003 0 0 0 0 0 0 0 0 0 0 0 0
BIL 9.105 1.426 0 0 0 0 0 0,004 0,087 0,318 0,246 0,164 0,116 0,049 0,014 0,002 0 0 0 0 0 0
CEL 10.359 1.737 0 0 0 0 0 0 0,036 0,118 0,174 0,22 0,193 0,14 0,08 0,034 0,003 0,001 0,001 0 0 0
MAL 7.314 0,776 0 0 0 0 0,002 0,041 0,708 0,168 0,058 0,018 0,004 0,001 0 0 0 0 0 0 0 0

17
ESP 10.742 1.756 0 0 0 0 0 0 0,012 0,092 0,156 0,189 0,223 0,176 0,099 0,03 0,015 0,006 0,001 0,001 0 0
RAY 11.266 1.763 0 0 0 0 0 0 0,01 0,056 0,105 0,158 0,194 0,244 0,141 0,06 0,026 0,004 0,002 0 0 0
SOC 9.367 1.588 0 0 0 0 0 0,005 0,098 0,235 0,239 0,18 0,137 0,071 0,03 0,004 0,001 0 0 0 0 0
ELC 15.449 1,98 0 0 0 0 0 0 0 0,001 0 0,008 0,018 0,041 0,101 0,145 0,182 0,189 0,151 0,116 0,041 0,007
LEV 16.651 1.907 0 0 0 0 0 0 0 0 0 0,001 0,001 0,015 0,038 0,091 0,132 0,167 0,193 0,186 0,119 0,057
GET 13,58 1.885 0 0 0 0 0 0 0 0,006 0,015 0,037 0,055 0,142 0,231 0,228 0,146 0,081 0,032 0,02 0,007 0
DEP 16.596 1.841 0 0 0 0 0 0 0 0 0,001 0,002 0,006 0,001 0,038 0,08 0,16 0,175 0,188 0,186 0,129 0,034
GRA 18.523 1.348 0 0 0 0 0 0 0 0 0 0 0 0 0,002 0,003 0,027 0,064 0,11 0,19 0,344 0,26
EIB 14,01 1,89 0 0 0 0 0 0 0 0,003 0,006 0,022 0,051 0,11 0,197 0,244 0,173 0,096 0,055 0,03 0,012 0,001
ALM 16.711 1.766 0 0 0 0 0 0 0 0 0 0,001 0,002 0,01 0,028 0,073 0,127 0,19 0,215 0,188 0,131 0,035
COR 19,27 1.175 0 0 0 0 0 0 0 0 0 0 0 0 0,001 0,006 0,008 0,027 0,052 0,083 0,217 0,606
Tabela 17: Probabilidades das equipes terminarem em cada uma das posições possı́veis, calculadas na 29a rodada, pelo modelo Poisson.
Equipe Méida D.P. 1o 2o 3o 4o 5o 6o 7o 8o 9o 10o 11o 12o 13o 14o 15o 16o 17o 18o 19o 20o
BAR 1.156 0,368 0,846 0,152 0,002 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
REA 1,9 0,458 0,153 0,801 0,039 0,007 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
MAD 3.648 0,694 0 0,021 0,409 0,478 0,085 0,007 0 0 0 0 0 0 0 0 0 0 0 0 0 0
VAL 3.485 0,657 0,001 0,026 0,521 0,392 0,059 0,001 0 0 0 0 0 0 0 0 0 0 0 0 0 0
SEV 5.016 0,635 0 0 0,027 0,111 0,683 0,177 0,002 0 0 0 0 0 0 0 0 0 0 0 0 0
VIL 5.854 0,524 0 0 0,002 0,012 0,171 0,762 0,051 0,002 0 0 0 0 0 0 0 0 0 0 0 0
BIL 8.745 1.274 0 0 0 0 0 0,002 0,106 0,44 0,196 0,154 0,066 0,028 0,007 0,001 0 0 0 0 0 0
CEL 10.252 1.597 0 0 0 0 0 0 0,017 0,125 0,229 0,184 0,211 0,161 0,048 0,02 0,005 0 0 0 0 0
MAL 7.156 0,591 0 0 0 0 0,002 0,05 0,784 0,124 0,035 0,004 0,001 0 0 0 0 0 0 0 0 0

18
ESP 10.668 1.644 0 0 0 0 0 0 0,007 0,099 0,143 0,206 0,24 0,186 0,078 0,029 0,007 0,003 0,001 0,001 0 0
RAY 11.431 1.678 0 0 0 0 0 0 0,003 0,036 0,102 0,157 0,193 0,238 0,172 0,073 0,02 0,005 0,001 0 0 0
SOC 9.777 1.469 0 0 0 0 0 0,001 0,03 0,171 0,268 0,237 0,154 0,098 0,033 0,008 0 0 0 0 0 0
ELC 15.708 1.828 0 0 0 0 0 0 0 0 0,001 0,004 0,008 0,02 0,084 0,129 0,213 0,203 0,164 0,113 0,052 0,009
LEV 16.832 1.761 0 0 0 0 0 0 0 0 0 0 0 0,004 0,036 0,061 0,137 0,171 0,198 0,212 0,131 0,05
GET 13.689 1.716 0 0 0 0 0 0 0 0,002 0,012 0,025 0,055 0,111 0,244 0,261 0,16 0,077 0,038 0,011 0,004 0
DEP 16.324 1.725 0 0 0 0 0 0 0 0 0 0 0,002 0,008 0,032 0,108 0,183 0,209 0,197 0,144 0,092 0,025
GRA 18.503 1.333 0 0 0 0 0 0 0 0 0 0 0 0 0,001 0,012 0,027 0,044 0,104 0,214 0,367 0,231
EIB 13.505 1.748 0 0 0 0 0 0 0 0,001 0,014 0,029 0,069 0,145 0,244 0,25 0,127 0,069 0,041 0,006 0,004 0,001
ALM 17.015 1.645 0 0 0 0 0 0 0 0 0 0 0,001 0,001 0,021 0,047 0,108 0,195 0,217 0,205 0,158 0,047
COR 19.336 1.106 0 0 0 0 0 0 0 0 0 0 0 0 0 0,001 0,013 0,024 0,039 0,094 0,192 0,637
Referências
Araújo, C. T. P., Tavares, L., Alvares, L. G., Louzada, F. & Suzuki, A. K. (2015). Modelagem estatı́stica para
previsão de jogos de futebol: uma aplicação no campeonato brasileiro de futebol 2014. Revista da Estatı́stica
UFOP, (4), 12–20.

Conceicao, K., Andrade, M. & Louzada, F. (2013). Zero-modified poisson model: Bayesian approach, influence
diagnostics, and an application to a brazilian leptospirosis notification data. Biometrical Journal, 55(5), 661–678.
De Finetti, B. (1972). Probability, Induction and Statistics: The Art of Guessing. J. Wiley, London. ISBN
9780471201403.

Karlis, D. & Ntzoufras, I. (2003). Analysis of sports data by using bivariate poisson models. Statistician, 52,
381–393.
Keller, J. B. (1994). A characterization of the poisson-distribution and the probability of winning a game.
American Statistician, 48(4), 294–298. Times Cited: 5 5.
Lee, A. (1997). Modeling scores in the Premier League: Is Manchester United really the best? Chance, 10(1),
15–19.
Leoncini, M. P. & Silva, M. d. (2005). Entendendo o futebol como um negócio: um estudo exploratório. Gestão
& Produção, 12(1), 11–23.
Pollard, R. (1986). Home advantage in soccer: A retrospective analysis. Journal of Sports Sciences, 4(3), 237–248.
Times Cited: 86 90.
Suzuki, A. K., Salasar, L. E. B., Louzada-Neto, F. & Leite, J. G. (2009). A bayesian approach for predicting match
outcomes: The 2006 (association) football world cup. Journal of the Operational Research Society, 61, 1530–1539
(October 2010).
Tavares, L. E SUZUKI, A. K. (2015). Modelagem estatı́stica para previsão esportiva: Uma aplicação no futebol.
Matemática e Estatı́stica em Foco.

19

You might also like