Universidade Federal de Santa Maria

Ci. e Nat., Santa Maria, v. 41, e27, 2019.

DOI: http://dx.doi.org/10.5902/2179460X36214

Received: 28/12/2018 Accepted: 30/05/2019

 

 

Section Statistics

 

 

A distribuição Half-Normal generalizada discreta: uma distribuição alternativa para a análise de dados de contagem

 

The generalized discrete Half-Normal distribution: an alternative distribution for analysing count data

 

Josmar Mazucheli I

Ricardo Puziol de Oliveira II

Jean Carlos Cardoso III

 

I   Departamento de Estatística, Universidade Estadual de Maringá, Maringá, PR, Brasil.

II  Departamento de Medicina Social, Universidade de São Paulo, Ribeirão Preto, SP, Brasil.

III Departamento de Estatística, Universidade Estadual de Maringá, Maringá, PR, Brasil.

 

 

Resumo

Geralmente, dados que são obtidos por processos de contagem, estritamente discretos ou discretizados (provenientes de trunca- mentos e/ou arredondamentos), são analisados, sem exaustão, pelas distribuições Geométrica, Logarítmica, Poisson e Binomial negativa. Nos últimos anos um grande número de distribuições discretas vêm sendo propostas na literatura a partir da discretização de variáveis aleatórias contínuas. Muitos dos métodos de discretização preservam uma ou mais características da versão contínua, sendo que a proposta de Nakagawa e Osaki (1975) é a mais utilizada. Neste artigo, a partir dessa metodologia, a qual faz uso da função de sobrevivência, é proposta a versão discreta da distribuição Half-Normal generalizada contínua, introduzida na literatura por Cooray e Ananda (2008). Discute-se algumas de suas propriedades e via simulações Monte Carlo avalia-se o viés e a acurácia das estimativas obtidas pelo método da máxima verossimilhança e pelo método dos momentos. Alguns conjuntos de dados discretos da literatura são considerados para illustrar a aplicabilidade da distribuição proposta.

Palavras-chave: Discretização, distribuição Half-Normal generalizada, método dos momentos, simulação Monte Carlo, verossimilhança.

 

 

Abstract

In general, data that are obtained by counting processes, strictly discrete or discretized (from truncations and/or rounding), are analyzed, without exhaustion, by the Geometric, Logarithmic, Poisson and Negative Binomial distributions. In recent years a large number of discrete distributions have been proposed in the literature from the discretization of continuous random variables. Many of the discretization methods preserve one or more characteristics of the continuous version, with the proposal of Nakagawa e Osaki (1975) being the most used. In this paper, from this methodology, which makes use of the survival function, we propose the discrete version of the continuous generalized Half-Normal distribution, introduced in the literature by Cooray e Ananda (2008). Some of its properties are discussed and Monte Carlo simulations evaluate the bias and accuracy of the estimates obtained by the maximum likelihood method and method of moments. Some discrete data sets found in the literature are considered to illustrate the applicability of the proposed distribution.

Keywords: Discretization, generalized Half-Normal distribution, method of moments, Monte Carlo simulation, likelihood.

 

 

1 Introdução

O número de vezes que um dispositivo eletrônico é ligado antes de apresentar algum defeito, o número de dias  que um paciente permanece internado na UTI antes de receber alta e o número de semanas,  meses ou anos que  um transplantado sobrevive são exemplos de dados de sobrevivência discretos na maioria das vezes analisados por meio de distribuições contínuas. Klein e Moeschberger (1997) traz em seu primeiro capítulo exemplos de dados de sobrevivência discretos, entretanto, analisados no decorrer do texto via distribuições contínuas. O mesmo ocorre com os vários exemplos apresentados, entre outros, em Collett (2003), Lawless (2003) e Lee e Wang (2003).

Nos últimos anos várias distribuições discretas têm sido propostas na literatura, e, apesar de suas atraentes potencialidades, não são muito usadas na análise de dados de sobrevivência discretos por natureza, discretizados ou em dados de contagem. Um dos primeiros, senão o primeiro artigo científico que propõe uma distribuição discreta (derivado da distribuição Weibull) data da década de 1970. Desde então uma infinidade de novas distribuições discretas veem sendo propostas. Uma revisão dos vários métodos de discretização e das distribuições discretizadas por eles pode ser encontrada em Chakraborty (2015), Lai (2013) e Bracquemond e Gaudoin (2003). Nestes trabalhos são discutidos os métodos baseado na função de sobrevivência (Nakagawa e Osaki, 1975), o baseado em uma série infinita (Good, 1953), o baseado na função de risco (Stein e Dattero, 1984), o composto por dois estágios (Chakraborty, 2015), o baseado na função de risco reversa (Ghosh et al., 2013), o via função de distribuição acumulada (Roy e Dasgupta, 2001) e o método análogo ao de Pearson (Pearson, 1895).

O objetivo deste artigo é, a partir do método de discretização baseado na função de sobrevivência (Nakagawa e Osaki, 1975), introduzir a distribuição discreta análoga a distribuição Half-Normal generalizada contínua, introduzida na literatura por Cooray e Ananda (2008). Na Seção 2 o método de discretização é brevemente descrito. A Seção 3 apresenta a versão contínua da distribuição Half-Normal generalizada (HNG) e logo em seguida é introduzida a versão discreta. Na Seção 4 o método da máxima verossimilhança e o método dos momentos são apresentados. Um estudo de simulação Monte Carlo na Seção 5 é usado para avaliar o viés e a acurácia das estimativas obtidos por esses dois métodos. A Seção 6 apresenta três aplicações considerando dados reais da literatura e a Seção 7 encerra este artigo com algumas conclusões.

 

 

2 Discretização via Função de Sobrevivência

Um dos principais métodos disponível na literatura para se obter a distribuição discreta análoga a distribuição de uma variável aleatória contínua é o que utiliza a função de sobrevivência. Este método foi proposto por Nakagawa e Osaki (1975) e tem como principal característica a preservação da expressão da função de sobrevivência original  em sua parte inteira (Kemp, 2004; Chakraborty, 2015). Alguns exemplos de distribuições discretas geradas por este método são: a distribuição Weibull discreta (Nakagawa e Osaki, 1975), a distribuição Weibull geométrica discreta (Bracquemond e Gaudoin, 2003), a distribuição Gumbel discreta (Chakraborty e Chakravarty, 2014), a distribuição gama discreta (Chakraborty e Chakravarty, 2012), a distribuição Lindley discreta (Gómez-Déniz e Calderín-Ojeda, 2011; Bakouch et al., 2014; Oliveira et al., 2017), a distribuição Rayleigh inversa discreta (Hussain e Ahmad, 2014), a distribuição Weibull inversa discreta (Aghababaei Jazi et al., 2010), a distribuição Maxwell discreta (Krishna e Pundir, 2007), e as distribuições Burr e Pareto discretas (Krishna e Pundir, 2009; Mazucheli et al., 2018).

 

Definicão 2.1. Seja X uma variável aleatória contínua. Se X tem função de sobrevivência , então a variável aleatória , em que  indica a parte inteira menor ou igual a X, tem função de probabilidade definida por:

 

(1)

 

As principais vantagens desse método de discretização é que o mesmo mantém, em termos de estrutura, boa parte das propriedades da distribuição contínua após a discretização. Por exemplo, na distribuição obtida por (1) tem-se  e, por consequência, a função de distribuição acumulada é dada por . Além disso, o quantil da distribuição discreta, neste caso, é dado por , ou seja, a amplitude interquartílica e a mediana são as mesmas nas versões discretas e contínuas. Por fim, a função de risco por este método é definida por:

 

Definicão 2.2. Seja  uma variável aleatória discreta, com função de probabilidade e de sobrevivência e , respectiva- mente. A função de risco de  é definida como a probabilidade condicional de que a falha é observada em , dado que esta não ocorreu antes de , e é escrita na forma:

 

(2)

 

sendo limitada ao intervalo (0,1) para todo .

A proposta neste artigo é usar em (1) a função de sobrevivência da distribuição Half-Normal generalizada (HNG) e assim obter a função de probabilidade Half-Normal generalizada discreta (HNGD). A distribuição HNG têm várias propriedades interessantes e no melhor de nosso conhecimento sua versão discreta não foi explorada na literatura.

 

 

3 A Distribuição Half-Normal Generalizada

3.1 Versão Contínua

Cooray e Ananda (2008) introduziram a distribuição HNG com dois parâmetros que tem como caso particular a distribuição Half-Normal (HN). Para uma variável aleatória X não negativa que segue a distribuição HNG com parâmetro de escala θ > 0 e de forma α > 0 tem-se que a função densidade de probabilidade e a função distribuição acumulada são escritas, respectivamente, como:

 

(3)

 

em que ;  e  são, respectivamente, a função densidade de probabilidade e de distribuição acumulada de uma variável aleatória com distribuição normal padrão. Para  se tem distribuição HN como caso particular.

Outras características da distribuição HNG são discutidas em Cooray e Ananda (2008). Estes autores também apresentaram o método da máxima verossimilhança e estudaram, por meio de simulações, as probabilidades de cobertura dos intervalos de confiança assintóticos. Recentemente, os autores Mazucheli e Dey (2018) deduziram, pela metodologia de Cox e Snell (1968), as expressões analíticas para a correção do viés das estimativas de α e θ obtidas pelo método da máxima verossimilhança. Cooray e Ananda (2008) também mostraram que a função no lado esquerdo de (3) é monotonicamente decrescente para  e unimodal para  com ponto de inflexão em . A função de risco, escrita como:

 

(4)

 

pode ser monotonicamente crescente, monotonicamente decrescente ou assumir a forma de banheira. Essas formas da função de risco fazem com que a distribuição HNG seja uma boa alternativa a distribuição Weibull para à análise de dados de sobrevivência.

 

 

3.2 Versão Discreta

Definicão 3.1. Uma variável aleatória X que toma valores no conjunto  segue a distribuição HNGD com parâmetro de escala α e forma θ se sua função de probabilidade é escrita na forma:

 

(5)

 

O comportamento de (5) para alguns valores de α e θ é ilustrado na Figura 1 em que pode-se notar que (5) é monótona decrescente para α < 1 e unimodal caso contrário.

 

Figura 1Comportamento da função de probabilidade da distribuição HNGD.

 

As funções de distribuição acumulada e de sobrevivência são dadas, respectivamente, por:

 

(6)

 

É importante mencionar que para uma variável aleatória discreta a função de risco é limitada, , logo ela não é equivalente a  como no caso contínuo (Hussain e Ahmad, 2014). Neste caso, foi considerado neste artigo uma segunda função de risco à distribuição HNGD dada por:

 

(7)

 

O comportamento de (7) para alguns valores de α e θ é ilustrado na Figura 2 em que pode-se notar que (7) é monótona decrescente, monótona crescente e em forma de banheira. Isto é, a função de risco da distribuição proposta possui uma flexibilidade maior comparada aos modelos tradicionais apresentados na literatura como Geométrico, Poisson e Binominal Negativa.

 

Figura 2Comportamento da função de risco da distribuição HNGD.

 

Para a distribuição HNGD a função quantil é obtida pela transformação inversa como no caso contínuo com restrição aos números inteiros, isto é, . Logo, a função quantil é escrita como:

 

 

em que . Neste caso, se p = 0.5, a mediana é dada por:

 

 

 

3.3 Função Geradora de Momentos

Seja X uma variável aleatória discreta com distribuição HNGD. Por definição, a função geradora de momentos é escrita como:

 

(8)

 

Embora a série em (8) não tenha forma analítica fechada sua convergência pode ser verificada observando que , em que  é uma série de Maclaurin. A esperança e variância, neste caso, são dadas, respectivamente, por:

 

 

e

 

 

que também não possuem forma analítica fechada, porém podem ser calculadas numericamente. Estas quantidades existem e são ilustradas na Tabela 1 por meio do cálculo do índice de dispersão que é uma medida usada para verificar a subdispersão, equidispersão e superdispersão. Dados com superdispersão são comuns em aplicações. Um número reduzido de modelos comportam a subdispersão, no caso, da distribuição HNGD verifica-se que a mesma pode ser uma alternativa para modelar dados com subdispersão, equidispersão ou superdispersão uma vez que seu índice de dispersão pode ser menor que 1 (subdispersão), igual a 1 (equidispersão) e maior que 1 (superdispersão).

 

Tabela 1Índice de dispersão da distribuição HNGD para alguns valores de α e θ.

    α

θ

0.5

1.0

1.5

2.0

2.5

3.0

3.5

4.0

4.5

5.0

5.5

6.0

0.5

1.66

0.96

1.00

1.00

0.61

0.00

0.00

0.00

0.00

0.00

0.00

0.00

1.0

2.68

0.91

0.71

0.68

0.68

0.68

0.68

0.68

0.68

0.68

0.68

0.68

1.5

3.70

1.07

0.66

0.47

0.35

0.26

0.20

0.16

0.13

0.10

0.09

0.07

2.0

4.72

1.27

0.72

0.50

0.37

0.30

0.26

0.23

0.21

0.20

0.19

0.18

2.5

5.74

1.48

0.81

0.54

0.40

0.30

0.24

0.19

0.16

0.13

0.11

0.10

3.0

6.75

1.69

0.91

0.60

0.43

0.33

0.27

0.23

0.20

0.18

0.16

0.15

3.5

7.77

1.92

1.02

0.66

0.47

0.36

0.29

0.24

0.20

0.16

0.14

0.12

4.0

8.78

2.14

1.13

0.73

0.52

0.39

0.31

0.26

0.22

0.19

0.17

0.15

4.5

9.78

2.36

1.24

0.80

0.57

0.43

0.34

0.28

0.23

0.20

0.17

0.15

5.0

10.79

2.59

1.35

0.87

0.62

0.46

0.37

0.30

0.25

0.21

0.18

0.16

5.5

11.80

2.81

1.46

0.94

0.66

0.50

0.39

0.32

0.27

0.23

0.19

0.17

6.0

12.80

3.04

1.58

1.01

0.71

0.54

0.42

0.34

0.28

0.24

0.21

0.18

 

O comportamento da média, variância, assimetria e curtose, em função de α é ilustrado na Figura 3. Pode-se observar que o coeficiente de assimetria assume valores positivos ou negativos que é uma propriedade importante na análise de dados com assimetria negativa ou positiva.

 

Figura 3Comportamento da média, variância, assimetria e curtose da distribuição HNGD. θ = 1.0 (—), θ = 2.0 (- - -), θ = 5 (· · · ) e θ = 10.0 (-·-·-).

 

 

4 Métodos de Estimação

4.1 Estimação Via O Método da Máxima Verossimilhança

Seja  uma amostra aleatória de tamanho n da distribuição HNGD com parâmetros α e θ e função de probabilidade dada por (5). A função de verossimilhança pode ser escrita na forma:

 

(9)

 

cujo o logaritmo da função de verossimilhança é dado por:

 

(10)

 

As estimativas de máxima verossimilhança de α e θ são obtidos como soluções das equaçõs não-lineares  e  em que:

 

 

 

As estimativas de máxima verossimilhança  e  de α e θ não podem ser obtidas analiticamente. Ainda, a matrix informação de Fisher é aproximada pelas segundas derivadas do logaritmo da função de verossimilhança com respeito a α e θ localmente nas estimativas de máxima verossimilhança  e .

 

 

4.2 Estimação Via o Método dos Momentos

Para aplicar o método de momentos para estimar α e θ temos que equacionar os momentos da população com os momentos amostrais e resolver duas equações simultaneamente. Denotemos então por µ1 e µ2 o primeiro e segundo momento em torno da origem, respectivamente. Logo:

 

(11)

 

Os momentos amostrais correspondentes aos momentos populacionais, são dados por:

 

(12)

 

Para obtermos as estimativas de α e θ, podemos utilizar a proposta em Khan et al. (1989), que consiste em encontrar α e θ, que minimizem a função:

 

(13)

 

 

5 Estudo de Simulação

Nesta seção são apresentados os resultados de um estudo de simulação Monte Carlo usado para avaliar o viés e o erro-quadrático médio das estimativas obtidas pelo método da máxima verossimilhança e pelos métodos dos momentos. Foram gerados amostras de tamanho n = 20, 50, . . . , 170, 200, α = 0.5, 1.0, 3.0, 5.0, 10.0 e θ = 1.0 e 10.0. Para cada uma das combinações de n, α e θ foram simuladas, pelo método da transformação inversa, N = 10000 amostras pseudo-aleatória da distribuição HNGD. Foram estimados o viés e a raiz quadrada do erro quadrático médio. Estas estimativas são apresentadas nas Tabelas 2 e 3.

Ao observarmos o vício de , percebemos que θ exerce influência sobre o mesmo. Para θ = 1.0 e α > 1, temos oscilações na estimativa do vício de α para ambos os métodos de estimação, fazendo com que o vício se torne instável, isto é, decresça e cresça a cada acréscimo no tamanho da amostra. De forma semelhante, o vício de  também oscila, entretanto, a amplitude dessa oscilação é pequena e centrada em zero. Mediante isto, podemos perceber que a influência de α em θ é mínima.

Já para θ = 1.0 e α > 1, o REQM de  possui oscilações em suas estimativas. Para θ = 10 e α > 1, podemos observar que a convergência do REQM para zero é mais demorada. No entanto, se θ = 10 e α 1 o REQM de  não convergiu diretamente para zero, mesmo com tamanho amostral 200.

Em geral, o comportamento do vício de  foi o mesmo em ambos os métodos, tendo como única diferença as amplitudes. Apesar do vício de  ser menor no método da máxima verossimilhança, temos mais cenários convergindo para zero nos métodos dos momentos. O REQM de  tem comportamento idêntico em ambos os métodos, sendo a convergência para zero mais rápida no método da máxima verossimilhança. Para o REQM de , novamente, temos um comportamento muito semelhante entre os dois métodos, sendo a convergência para zero pelo método da máxima verossimilhança pouca coisa mais rápida em quase todos os cenários.

 

Tabela 2Estimativas do viés e da raiz quadrada do erro-quadrático médio (REQM) dos estimadores de máxima verossimilhança (MV) e dos estimadores obtidos pelo método dos momentos (MM) para θ = 1.0.

 

 

MV

 

MM

 

 

Viés

REQM

 

Viés

REQM

α

n

α

θ

α

θ

 

α

θ

α

θ

 

20

0.0747

0.0282

0.0407

0.1451

 

0.1139

0.0960

0.0417

0.1319

 

50

0.0317

0.0150

0.0129

0.0689

 

0.0526

0.0511

0.0141

0.0689

 

80

0.0189

0.0093

0.0070

0.0436

 

0.0333

0.0336

0.0080

0.0451

0.5

110

0.0135

0.0067

0.0048

0.0320

 

0.0247

0.0252

0.0057

0.0337

 

140

0.0106

0.0057

0.0037

0.0252

 

0.0197

0.0205

0.0044

0.0270

 

170

0.0087

0.0045

0.0030

0.0207

 

0.0164

0.0169

0.0036

0.0224

 

200

0.0075

0.0041

0.0025

0.0176

 

0.0141

0.0147

0.0030

0.0193

 

20

-0.0134

0.0300

0.0716

0.0532

 

0.0145

0.0278

0.0794

0.0494

 

50

0.0321

0.0024

0.0389

0.0186

 

0.0326

0.0030

0.0380

0.0181

 

80

0.0355

-0.0010

0.0289

0.0114

 

0.0349

-0.0009

0.0283

0.0113

1.0

110

0.0308

-0.0012

0.0222

0.0083

 

0.0302

-0.0012

0.0218

0.0082

 

140

0.0257

-0.0012

0.0176

0.0065

 

0.0251

-0.0013

0.0173

0.0064

 

170

0.0215

-0.0009

0.0142

0.0054

 

0.0209

-0.0011

0.0140

0.0053

 

200

0.0180

-0.0008

0.0118

0.0046

 

0.0175

-0.0009

0.0116

0.0045

 

20

0.0619

-0.0029

0.0095

0.0046

 

0.0716

0.0011

0.0150

0.0052

 

50

0.0175

0.0007

0.0013

0.0021

 

0.0175

0.0007

0.0013

0.0021

 

80

0.0618

0.0004

0.0092

0.0012

 

0.0618

0.0004

0.0092

0.0012

3.0

110

-0.0096

0.0004

0.0003

0.0010

 

-0.0112

0.0004

0.0004

0.0010

 

140

0.0126

-0.0017

0.0102

0.0006

 

0.0114

0.0011

0.0097

0.0007

 

170

0.0491

0.0002

0.0057

0.0006

 

0.0492

0.0002

0.0057

0.0006

 

200

0.0139

0.0002

0.0006

0.0005

 

0.0137

0.0002

0.0006

0.0005

 

20

-0.0006

0.0003

0.0001

0.0016

 

-0.0005

0.0008

0.0005

0.0022

 

50

-0.0160

0.0003

0.0052

0.0010

 

-0.0160

0.0006

0.0072

0.0008

 

80

-0.0079

0.0001

0.0005

0.0006

 

-0.0079

0.0002

0.0002

0.0005

5.0

110

0.0494

0.0001

0.0046

0.0002

 

0.0494

0.0002

0.0066

0.0003

 

140

0.0148

0.0001

0.0004

0.0002

 

0.0148

0.0002

0.0007

0.0003

 

170

-0.0211

0.0001

0.0018

0.0001

 

-0.0211

0.0002

0.0011

0.0002

 

200

-0.0260

0.0002

0.0047

0.0001

 

-0.0260

0.0004

0.0082

0.0002

 

20

-0.0002

0.0001

0.0001

0.0005

 

-0.0002

0.0005

0.0003

0.0015

 

50

-0.0301

0.0001

0.0024

0.0002

 

-0.0301

0.0005

0.0035

0.0012

 

80

-0.0042

0.0001

0.0000

0.0001

 

-0.0042

0.0004

0.0003

0.0011

10.0

110

0.0270

0.0000

0.0022

0.0001

 

0.0270

0.0004

0.0032

0.0008

 

140

0.0078

0.0002

0.0002

0.0001

 

0.0078

0.0003

0.0005

0.0008

 

170

-0.0114

0.0000

0.0004

0.0001

 

-0.0114

0.0001

0.0001

0.0004

 

200

-0.0309

0.0000

0.0028

0.0000

 

-0.0311

0.0001

0.0018

0.0001

 

 

Tabela 3 Estimativas do viés e da raiz quadrada do erro-quadrático médio (REQM) dos estimadores de máxima verossimilhança (MV) e dos estimadores obtidos pelo método dos momentos (MM) para θ = 10.0.

 

 

MV

 

MM

 

 

Viés

REQM

 

Viés

REQM

α

n

α

θ

α

θ

 

α

θ

α

θ

 

20

0.0477

-0.0243

0.0148

0.3315

 

0.0818

-0.0123

0.0210

0.3284

 

50

0.0173

-0.0252

0.0044

0.3225

 

0.0361

-0.0101

0.0065

0.3232

 

80

0.0108

-0.0252

0.0025

0.3206

 

0.0238

-0.0074

0.0038

0.3196

0.5

110

0.0077

-0.0282

0.0018

0.3147

 

0.0179

-0.0059

0.0027

0.3141

 

140

0.0058

-0.0224

0.0014

0.3087

 

0.0142

-0.0040

0.0021

0.3120

 

170

0.0046

-0.0243

0.0011

0.3045

 

0.0116

-0.0054

0.0017

0.3039

 

200

0.0038

-0.0244

0.0009

0.2992

 

0.0098

-0.0063

0.0015

0.3021

 

20

0.0817

-0.0201

0.0503

0.3182

 

0.0825

-0.0178

0.0484

0.3168

 

50

0.0309

-0.0210

0.0157

0.2987

 

0.0319

-0.0202

0.0158

0.2992

 

80

0.0188

-0.0157

0.0093

0.2781

 

0.0195

-0.0161

0.0095

0.2788

1.0

110

0.0133

-0.0146

0.0066

0.2587

 

0.0139

-0.0134

0.0068

0.2602

 

140

0.0103

-0.0139

0.0052

0.2417

 

0.0107

-0.0142

0.0054

0.2428

 

170

0.0082

-0.0131

0.0042

0.2256

 

0.0086

-0.0128

0.0044

0.2263

 

200

0.0069

-0.0104

0.0036

0.2106

 

0.0072

-0.0101

0.0038

0.2117

 

20

0.0830

-0.0431

0.2107

0.2194

 

0.0458

-0.0433

0.2228

0.2220

 

50

0.0726

-0.0214

0.1278

0.1261

 

0.0585

-0.0248

0.1410

0.1282

 

80

0.0543

-0.0122

0.0863

0.0831

 

0.0482

-0.0144

0.0986

0.0846

3.0

110

0.0403

-0.0085

0.0624

0.0608

 

0.0372

-0.0100

0.0726

0.0619

 

140

0.0321

-0.0070

0.0487

0.0479

 

0.0301

-0.0082

0.0570

0.0487

 

170

0.0267

-0.0051

0.0397

0.0392

 

0.0252

-0.0060

0.0468

0.0399

 

200

0.0223

-0.0042

0.0334

0.0333

 

0.0210

-0.0050

0.0394

0.0339

 

20

0.0187

-0.0497

0.2859

0.1139

 

-0.0028

-0.0524

0.2991

0.1219

 

50

0.0368

-0.0228

0.2284

0.0487

 

0.0147

-0.0242

0.2507

0.0517

 

80

0.0464

-0.0133

0.1854

0.0307

 

0.0309

-0.0148

0.2131

0.0323

5.0

110

0.0444

-0.0092

0.1524

0.0225

 

0.0341

-0.0106

0.1812

0.0235

 

140

0.0422

-0.0064

0.1275

0.0177

 

0.0365

-0.0079

0.1564

0.0184

 

170

0.0380

-0.0047

0.1083

0.0146

 

0.0348

-0.0060

0.1360

0.0152

 

200

0.0342

-0.0037

0.0933

0.0124

 

0.0331

-0.0046

0.1189

0.0129

 

20

-0.0084

-0.0370

0.3083

0.0363

 

-0.0073

-0.0333

0.3097

0.0384

 

50

0.0000

-0.0127

0.3091

0.0140

 

-0.0134

-0.0143

0.3108

0.0159

 

80

-0.0029

-0.0082

0.2933

0.0088

 

0.0034

-0.0088

0.3118

0.0098

10.0

110

0.0072

-0.0058

0.2804

0.0064

 

-0.0010

-0.0060

0.2966

0.0072

 

140

0.0145

-0.0048

0.2677

0.0050

 

0.0059

-0.0050

0.2876

0.0056

 

170

0.0171

-0.0040

0.2549

0.0042

 

0.0080

-0.0040

0.2774

0.0047

 

200

0.0200

-0.0036

0.2417

0.0036

 

0.0107

-0.0035

0.2699

0.0040

 

 

6 Aplicações

Nesta seção, utilizando dados da literatura, verificamos a primazia da distribuição HNGD em relação às tradicionais distribuições Poisson, Binomial negativa (Bin. Neg.) e Weibull discreta (DWeibull) como distribuição candidata para à análise de dados de contagem. São considerados três conjuntos de dados e os parâmetros das distribuições candidatas estimados pelo método de máxima verossimilhança. Para comparar os desempenhos das várias distribuições, além do teste χ2 de aderência, também é utilizado o AIC (Akaike Information Criterion) e o BIC (Bayesian Information Criterion), dados, respectivamente, por:  e , em que  é o número de parâmetros,  é o valor da função log-verossimilhança maximizada e  o tamanho da amostra.

O primeiro conjunto de dados se refere ao número de gols por partida considerando os jogos “em casa” e os jogos “fora de casa” na temporada 2013 2014 da Premier League. As Tabelas  4 e 5 mostram a distribuição do  número de gols observado em comparação com o número de gols esperados segundo as distribuições Half-Normal generalizada discreta, Weibull Discreta,  Poisson e Binomial Negativa.  A média e a variância do número de gol  são, respectivamente, 1.56 gols e 1.77 gols2 para os jogos “em casa” e 1.19 gols e 1.42 gols2 para os jogos “fora de casa”. Dos resultados apresentados, de acordo com o teste qui-quadrado, os modelos HNGD, DWeibull e Binomial Negativa podem ser usados na análise desse conjunto de dados em relação aos gols “em casa” e apenas o modelo HNGD em relação aos gols “fora de casa”. Além disso, com base nos critérios AIC e BIC, nota-se que o modelo HNGD possui o menor valor em ambos os critérios e pode-se notar também que o modelo HNGD também possui os valores das frequências esperadas bem mais próximo aos valores das frequências observadas quando comparado aos outros modelos. Sendo assim, concluímos que a distribuição HNGD fornece um ajuste semelhante aos outros modelos considerados na análise do conjunto de dados e pode ser usada como alternativa na modelagem de dados discretos.

O segundo exemplo utiliza os dados retirado de Almalki e Nadarajah (2014) que foram coletado pelo Ministério da Saúde Hospitalar na Arábia Saudita. Os mesmos indicam o tempo de vida em dias de 43 pacientes que foram diagnosticados com Leucemia (ver, Tabela 6).  A média e variância são dadas, respectivamente, por 1191.63 dias e 256679 dias2. Os resultados são apresentados na Tabela 7 em que, novamente, pode-se notar que a distribuição HNGD apresenta ajuste semelhante de acordo com os critérios adotados na análise.

 

Tabela 4 – Distribuição do número de gols “em casa” observados e esperados por partida na Premier League.

 

 

Frequência Esperada

Número

de Gols

Frequência

Observada

HNGD

DWeibull

Bin. Neg.

Poisson

0

95

95.1

90.2

90.0

80.4

1

113

110.6

122.4

121.7

125.3

2

85

89.1

88.8

90.3

97.6

3

49

53.8

48.6

48.7

50.7

4

28

23.8

21.8

21.3

19.9

5

10

7.6

8.2

8.0

6.1

Total

380

380

380

380

380

χ2

 

1.4

3.3

3.6

9.4

valor-p

 

0.705

0.352

0.305

0.051

AIC

 

1221.6

1226.1

1226.8

1228.2

BIC

 

1229.5

1234.0

1234.7

1232.2

 

 

Tabela 5Distribuição do número de gols “fora de casa” observados e esperados por partida na Premier League.

 

 

Frequência Esperada

Número

de Gols

Frequência

Observada

HNGD

DWeibull

Bin. Neg.

Poisson

0

137

133.7

131.0

130.7

115.5

1

114

117.3

126.4

126.6

137.7

2

66

75.6

72.3

73.2

82.1

3

49

36.6

33.3

32.7

32.6

4

10

13.3

12.6

12.5

9.7

5

4

3.5

4.4

4.3

2.4

Total

380

380

380

380

380

χ2

 

6.3

11.3

11.6

19.6

valor-p

 

0.052

0.003

0.003

<0.01

AIC

 

1106.8

1112.4

1112.8

1117.7

BIC

 

1114.7

1120.2

1120.6

1121.7

 

 

Tabela 6 – Dados de Leucemia.

115

181

255

418

441

461

516

739

743

789

807

865

924

983

1025

1062

1063

1165

1191

1222

1222

1251

1277

1290

1357

1369

1408

1455

1478

1519

1578

1578

1599

1603

1605

1696

1735

1799

1815

1852

1899

1925

1965

 

 

 

Tabela 7Estimativas de máxima verossimilhança (erros-padrão), valor da estatística do teste qui-quadrado de aderência e os valores de AIC e BIC.

Distribuições

α

θ

χ2

valor-p

AIC

BIC

HNGD

2.15

(0.29)

1431.70

(75.88)

3.25

0.661

657.99

661.51

DWeibull

2.56

(0.33)

1335.05

(82.53)

5.26

0.385

662.83

666.36

Bin. Neg.

3.61

(0.75)

1191.47

(95.82)

8.06

0.153

671.66

675.19

Poisson

1191.63

(5.26)

 

Inf.

<0.001

11069.55

11071.31

 

 

 

7 Conclusões

Neste artigo foi introduzida a distribuição HNGD formulada a partir do método baseado na função de sobrevivência proposto por Nakagawa e Osaki (1975). Algumas características e propriedades matemáticas da distribuição proposta foram estudadas. Além disso, a distribuição HNGD pode ser usada na análise de dados com subdispersão e superdispersão. Um estudo de simulação Monte Carlo evidenciou que os parâmetros são assintoticamente não viesados considerando o método da máxima verossimilhança e também o método dos momentos. Nas aplicações consideradas, a discriminação entre as distribuições Weibull discreta, Binomial Negativa e Poisson foi realizada utilizando os critérios AIC e BIC. A qualidade do ajuste foi avaliada pela estatística dos teste qui-quadrado de aderência. Os resultados obtidos mostraram que a distribuição de Poisson não se adequou aos dados o que era esperado uma vez que os dados não possuem equidispersão. Além disso, verificou-se que a distribuição HNGD possui um ajuste semelhante aos das distribuições supracitadas o que evidencia sua utilização na análise de dados de contagem e de sobrevivência.

 

 

Agradecimentos

Os autores são gratos aos pareceristas por suas contribuições. Josmar Mazucheli agradece o apoio financeiro parcial da Fundação Araucária (Protocolo nº 49353, Convênio nº 064/2019 – UEM/Fundação Araucária).

 

 

Referências

JAZI, M. A., LAI, C. D., ALAMATSAZ, M. H., (2010). A discrete inverse Weibull distribution and estimation of its parameters. Statistical Methodology, 7, 121–132.

ALMALKI, S. J., NADARAJAH, S. (2014). A new discrete modified Weibull distribution. IEEE Transactions on Reliability, 63(1), 68–80.

BAKOUCH, H. S., JAZI, M. A., NADARAJAH, S. (2014). A new discrete distribution. Statistics, 48(1), 200–240.

BRACQUEMOND, C., GAUDOIN, O. (2003). A survey on discrete lifetime distributions. International Journal of Reliability, Quality and Safety Engineering, 10(1), 69–98.

CHAKRABORTY, S. (2015). Generating discrete analogues of continuous probability distributions - A survey of methods and constructions. Journal of Statistical Distributions and Applications, 1(1), 1–30.

CHAKRABORTY, S., CHAKRAVARTY, D. (2012). Discrete gamma distributions: Properties and parameter estimations. Communications in Statistics-Theory and Methods, 41(18), 3301–3324.

CHAKRABORTY, S., CHAKRAVARTY, D. (2014). A discrete Gumbel distribution. arXiv preprint arXiv:14107568.

COLLETT, D. (2003). Modelling Survival Data in Medical Research, 2o edn. Chapaman and Hall, New York.

COORAY, K., ANANDA, M. M. A. (2008). A generalization of the Half-Normal distribution with applications to lifetime data. Communications in Statistics - Theory and Methods, 37(9), 1323–1337.

COX, D. R., SNELL, E. J. (1968). A general definition of residuals. Journal of the Royal Statistical Society Series B (Methodological), 30(2), 248–275.

GHOSH, T., ROY, D., CHANDRA, N. K. (2013). Reliability approximation through the discretization of random variables using reversed hazard rate function. International Journal of Mathematical, Computational, Statistical, Natural and Physical Engineering, 7(4), 96 – 100.

GÓMEZ-DÉNIZ, E., CALDERÍN-OJEDA, E. (2011). The discrete Lindley distribution: properties and applications. Journal of Statistical Computation and Simulation, 81(11), 1405–1416.

GOOD, I. J. (1953). The population frequencies of species and the estimation of population parameters. Biometrika, 40(3-4), 237–264.

HUSSAIN, T., AHMAD, M. (2014). Discrete inverse Rayleigh distribution. Pakistan Journal of Statistics, 30(2), 203–222.

KEMP, A. W. (2004). Classes of discrete lifetime distributions. Communications in Statistics - Theory and Methods, 33(12), 3069–3093.

KHAN, M., KHALIQUE, A., ABOUAMMOH, A. (1989). On estimating parameters in a discrete Weibull distribution. IEEE Transactions on Reliability, 38, 348–350.

KLEIN, J. P., MOESCHBERGER, M. L. (1997). Survival Analysis: Techniques for Censored and Truncated Data. Springer-Verlag, New York.

KRISHNA, H., PUNDIR, P. S. (2007). Discrete Maxwell distribution. Interstat.

KRISHNA, H., PUNDIR, P. S. (2009). Discrete Burr and discrete Pareto distributions. Statistical Methodology, 6(2), 177–188.

LAI, C. D. (2013). Issues concerning constructions of discrete lifetime models. Quality Technology & Quantitative Management, 10(2), 251–262.

LAWLESS, J. F. (2003). Statistical Models and Methods for Lifetime Data, 2o edn. Wiley Series in Probability and Statistics, John Wiley & Sons, Hoboken, NJ.

LEE, E. T., WANG, J. W. (2003). Statistical Methods for Survival Data Analysis, 3o edn. Wiley Series in Probability and Statistics, Wiley-Interscience [John Wiley & Sons], Hoboken, NJ.

MAZUCHELI, J., DEY, S. (2018). Bias-corrected maximum likelihood estimation of the parameters of the generalized Half-Normal distribution. Journal of Statistical Computation and Simulation, 88(6), 1027–1038.

MAZUCHELI, J., OLIVEIRA, R. P., PERALTA, D., EMANUELLI, I. P. (2018). Application of discrete Burr XII distribution in the analysis of animal production data. Ciência & Natura, 40(1), 1–10.

NAKAGAWA, T., OSAKI, S. (1975). The discrete Weibull distribution. IEEE Transactions on Reliability, R-24(5), 300–301.

OLIVEIRA, R. P., MAZUCHELI, J., ACHCAR, J. A. (2017). A comparative study between two discrete Lindley distributions. Ciência e Natura, 39(3), 539–552.

PEARSON, K. (1895). Contributions to the mathematical theory of evolution. II. Skew variation in homogeneous material. Philosophical Transactions of the Royal Society of London A, 186, 343–414.

ROY, D., DASGUPTA, T. (2001). A discretizing approach for evaluating reliability of complex systems under stress- strength model. IEEE transactions on reliability, 50(2), 145–150.

STEIN, W. E., DATTERO, R. (1984). A new discrete Weibull distribution. IEEE Transactions on Reliability, 33(2), 196–197.