Universidade Federal de Santa Maria

Ci. e nat., Santa Maria, v. 42

Commemorative Edition: Statistic, e56, 2020

DOI: http://dx.doi.org/10.5902/2179460X40501

Received: 11/10/2019 Accepted: 03/03/2020

 

 


Bacharelado

 

Inferência bootstrap para intervalo de confiança de modelo de regressão quadrática

Bootstrap inference for quadratic regression model confidence interval

 

Nicásio Gouveia I

Ana Lúcia Souza Silva Mateus II

Augusto Maciel da Silva III

Leandro Ferreira IV

Suelen Carpenedo Aimi V

 

I Universidade Federal de Santa Maria, Santa Maria, Brasil. E-mail: nicasiogouveia@yahoo.com.br.

II Universidade Federal de Santa Maria, Santa Maria, Brasil. E-mail: analucia.stat@gmail.com.

III Universidade Federal de Santa Maria, Santa Maria, Brasil. E-mail: augustolavras@gmail.com.

IV Universidade Federal de Alfenas, Alfenas, Brasil. E-mail: le.ferreira@gmail.com.

V Universidade Federal do Pampa, Bagé, Brasil. E-mail: suaimi@gmail.com.  

 

 

RESUMO

Este estudo foi realizado, com objetivo de propor a construção de intervalos de confiança para o ponto crítico de um modelo de regressão de segundo grau, utilizando a metodologia bootstrap paramétrico. Para obtenção da distribuição do ponto crítico, foram utilizados dados de crescimento em altura das plantas C. canjerana em função das doses crescentes de fertilizantes. A partir da análise bootstrap paramétrico, foram consideradas diferentes variâncias teóricas para o erro e intervalos de confiança foram construídos. Além disso, foram examinadas diferentes expressões de variâncias com a finalidade de encontrar intervalo de confiança bootstrap-t. A estimativa pontual do ponto crítico foi de 10,7423 gL-1  de doses de fertilizantes no crescimento das plantas de C. canjerana. Verificou-se que os intervalos de confiança que consideraram a expressão da variância com covariância entre os parâmetros do modelo de regressão, apresentaram resultados mais satisfatórios, ou seja, resultados com maior precisão.

Palavras-chave: Bootstrap paramétrico; C. canjerana; Variância teórica.

 

ABSTRACT

This study was carried out with the purpose of proposing a construction of confidence intervals for the critical point of a second degree regression model using a parametric bootstrap methodology. To obtain the distribution of the critical point, height growth data of the plants were used. From the analysis, the theoretical variables for the error and the confidence intervals were constructed. In addition, we examined different variance expressions with the purpose of the bootstrap-t confidence interval. The point estimate of the critical point was 10.7423 g L-1 of fertilizer doses without growth of C. canjerana plants. It was verified that the confidence intervals that considered the expression of the variance with the covariance between the regression models, present more satisfactory results, that is, results with more precision.

Keywords: Parametric bootstrap; C. canjerana; Theoretical variance.

 

1 INTRODUÇÃO

Em pesquisas acadêmicas, quando existe o interesse em obter a estimativa do parâmetro a ser analisado, isso pode ser feito de duas formas: pontual ou intervalar. O problema da estimação pontual é que ela não avalia a precisão da estimativa obtida. Dessa forma, é importante obter um intervalo que nos dê uma ideia da confiança que se pode depositar na estimativa pontual.

Quando o interesse está em avaliar a produção de uma determinada cultura em função de diferentes doses de nutrientes, considerando que o comportamento dos dados possa ser descrito por meio de um modelo de regressão quadrática, um dos resultados a ser analisado é a estimativa pontual do ponto de máximo ou de mínimo do modelo, denominado de ponto crítico. Essa quantidade é a estimativa da dose de nutriente que proporciona uma produção máxima ou mínima da cultura. Entretanto, o maior desafio está em associar incertezas a essa estimativa, medidas como erro padrão e intervalos de confiança podem ser úteis para traduzir essas incertezas existentes na estimação pontual.

Para a construção do intervalo de confiança é necessário a estimativa da variância do ponto crítico.  Conforme Nunes et al. (2004) e Freitas (1978) o conhecimento da variância de um ponto crítico pode ser de muita importância, pois possibilita construir intervalos de confiança para o verdadeiro valor do ponto crítico e testar sua validade ou não por meio de uma hipótese de interesse a seu respeito.  Logo, um dos maiores desafios está em encontrar uma variância para o estimador do ponto critico, pois o mesmo envolve um quociente de variáveis aleatórias.

Na literatura é comum o uso de várias metodologias para a construção dos intervalos de confiança para o ponto crítico de modelos de regressão quadrática, como o método Delta utilizado por Hirschberg e Lye (2005), lógica fuzzy e análise bayesiana por Ferreira (2012).

Nesse contexto, surge também a metodologia bootstrap, desenvolvida por Efron (1979), que consiste em admitir a amostra original como se fosse a própria população, as novas amostras com reposição são obtidas a partir de reamostragem da amostra original, denominadas de amostras bootstrap, na qual representam diferentes situações experimentais com a idéia de que o experimento é repetido por diversas vezes. Essa metodologia pode ser praticada tanto de forma paramétrica quanto de forma não paramétrica. No caso do bootstrap paramétrico, a amostragem é realizada com base numa distribuição ajustada às observações amostrais.

De acordo com Efron e Tibshirani (1993) para cada amostra bootstrap, é calculada uma estimativa para a estatística de interesse. Ao final do processo de reamostragem, o conjunto das estimativas obtidas, denominadas de estimativas bootstrap, dá origem à distribuição bootstrap, que tem aproximadamente a mesma forma e dispersão da distribuição amostral da estatística, porém está centrada no valor da estatística original e não no valor do parâmetro de interesse. Com isso, tal técnica pode geralmente fornecer resultados mais precisos.

Dito isso, este trabalho tem por objetivo construir intervalos de confiança para o ponto crítico de um modelo de regressão quadrática, utilizando a metodologia bootstrap paramétrico de acordo com diferentes variâncias teóricas para o erro e formas distintas de cálculo das variâncias do ponto crítico.

 

2 MATERIAL E MÉTODOS

2.1 Ponto crítico de modelo de regressão quadrática

Seja o modelo de regressão quadrática, com uma variável independente dado por:

(1)

em que:

 representa o i-ésimo valor observado de uma variável dependente;

são os parâmetros a serem estimados;

 representa o i-ésimo valor fixo de uma variável independente;

representa o i-ésimo erro aleatório, associado à observação  que, em geral, são considerados independentes e normalmente distribuídos com média zero e variância constante .

A obtenção de um ponto crítico de uma dada função é feita conforme Guidorizzi (2001), derivando-se o modelo (1) em relação à  e igualando a zero é dada por:

(2)

O estimador do ponto crítico será a abscissa de um ponto de máximo se  for negativo e será de mínimo se  for positivo.

 

2.2 Intervalo de confiança para o ponto crítico

A Tabela 1 apresenta os intervalos de confiança  propostos para o ponto crítico , considerando as fórmulas das variâncias apresentadas por Mood, Graybill e Boes (1974), representada por , D'Aulísio, Pimentel-Gomes e Nogueira (1976), representada por  e a fórmula comum da variância, representada por .

 

Tabela 1 – Intervalos de confiança propostos para o ponto crítico

Intervalo de confiança

Fórmula da variância

Fonte: Elaborado pelo autor.

 

Para a construção dos intervalos  e , foram encontrados os intervalos e , referentes a cada reamostragem , considerando as fórmulas das variâncias  e , respectivamente, com 95% de confiança e  reamostragens. Em cada reamostragem , foram encontradas as estimativas do ponto crítico , sendo  o valor crítico da distribuição  de Student com 45 graus de liberdade  e .

Ao término das 3000 reamostragens, a média dos limites dos intervalos  foi encontrada, obtendo , em que e  são, respectivamente, as médias dos limites inferiores e superiores, com base nos intervalos . O mesmo procedimento foi realizado para a construção do intervalo , obtendo , em que e  são, respectivamente, as médias dos limites inferiores e superiores com base nos intervalos .

Para  e, as médias e  e as variâncias  e , referentes aos estimadores e , foram encontradas em cada reamostragem , obtendo  e .

Para a construção do intervalo , intervalo bootstrap padrão, foi encontrada a média das 3000 estimativas do ponto crítico , obtidas em cada reamostragem. Para tanto, foi utilizada a fórmula da variância comum , em que , e o valor crítico da distribuição  de Student , para  e

Intervalos de confiança bootstrap-t foram encontrados de acordo com Efron e Tibshirani (1993), considerando as variâncias  e , obtendo, respectivamente, os intervalos  e , com 95% de confiança. Para tanto, em cada reamostragem , foram obtidas as seguintes quantidades pivotais:

(3)

(4)

em que  representa a estimativa do ponto crítico considerando a amostra original, representa a estimativa do ponto crítico referente a reamostragem  e,  e são as variâncias referentes a cada reamostragem , sendo . Com base nas distribuições das quantidades pivotais  e , foram obtidos os percentis e , respectivamente.

 

2.3 Análise bootstrap

            A análise bootstrap paramétrico foi efetuada, supondo as estimativas alcançadas via métodos dos mínimos quadrádos, e , como os verdadeiros valores de  e , sendo , o estimador do ponto crítico. Desse modo, 3000 reamostragens foram realizadas, definindo diferentes cenários experimentais, nos quais os erros assumiram uma distribuição normal com média zero e as subsequentes variâncias teóricas: /9, /7, /5, /3, e 1,5.

Os cinco intervalos de confiança descritos forão comparados e avaliados. Além disso, foram contruídos também histogramas dos pontos críticos reamostrados a fim de verificar a forma de distribuição de frequência dos mesmos. As análises estatísticas foram realizadas com a utilização do software R (R Development Core Team, 2018).

Para que as oscilações provocadas pela aleatoriedade do método bootstrap sejam minimizadas durante o processo de reamostragens, Ferreira (2009) sugere um mínimo de 1000 reamostragens. Conforme o autor, para a grande maioria das situações, um número de reamostragem igual a 2000 fornece excelentes resultados. Com base nessas informações, o seguinte artigo adotou-se o valor de 3000.

 

2.4 Dados experimentais

Para a realização deste manuscrito, foi utilizado os dados experimentados por Aimi et al. (2016), na qual avaliaram a altura das plantas Cabralea canjenara em função de doses de fertilizante e de tubetes de polipropileno. O experimento foi conduzido em um delineamento experimental inteiramente casualizado (DIC) em esquema fatorial (6x2), com quatro repetições. Os tratamentos foram constituídos de seis doses de fertilizante de liberação controlada (FLC): 0 (controle); 2,5; 5,0; 7,5; 10,0 e 12,5 g L-1 substrato em dois tubetes de polipropileno em formato cônico com volume de 110 cm3 e 180 cm3.  

A variável analisada altura (cm) foi influenciada significativamente pelas doses de fertilizante nos dois tubetes analisados. Dessa maneira, foi considerado o seguinte modelo de regressão quadrática:

(5)

em que:

 representa o i-ésimo valor observado da altura da planta;

são os parâmetros a serem estimados;

 representa o i-ésimo valor fixo da dose fertilizante;

representa o i-ésimo erro aleatório, associado à observação , onde .

 

3 RESULTADOS E DISCUSSÃO

Em conformidade com o método dos mínimos quadrados, o modelo de regressão quadrática ajustada foi igual a , com R2 = 0,8064 que explica 80,64% da variabilidade dos dados, mostrando um modelo adequado para os dados de crescimento em altura (y) em função das doses crescentes (x) de fertilizantes, e a variância  σ2 =2,31.  A estimativa pontual do ponto crítico foi de 10,7423 g L-1 de doses de fertilizantes, ocasionando no crescimento máximo de altura das plantas C. canjerana.

 

3.1 Análises Bootstrap

A partir dos resultados do processo de reamostragem bootstrap, a Tabela 2 apresenta os valores médios das estimativas obtidas nas 3000 reamostragens para o ponto crítico (η) e para os cinco diferentes intervalos de confiança apresentados (ICa, ICb, ICc, ICd , e ICe) em função das diferentes variâncias teóricas do erro experimental.

Os valores dos pontos críticos, considerando as diferentes variâncias, encontram-se em média em torno de 10,0766 (Tabela 2). Percebe-se que há uma leve tendência de crescimento nas estimativas do ponto crítico com o acréscimo da variância teórica.

Ao analisarmos a Tabela 2, podemos verificar que os resultados mostram que a variância residual afeta bastante na estimação dos IC para o ponto crítico. Desse modo, à medida que a variância aumenta, os IC tendem a apresentar maior amplitude, indicando a presença de menor precisão entre os limites de confiança. Análogo resultado também foi averiguado por Ferreira (2012) em um estudo com diferentes fórmulas de variância na estimação do ponto crítico na análise da produção máxima de matéria seca.

Semelhante resultado também foi verificado por Nunes et al. (2004), ao estudarem com diferentes fórmulas de variância do ponto crítico, por meio de simulação de Monte Carlo, na avaliação da produção máxima para a cultura do algodão.

 

Tabela 2 – Valores médios do ponto crítico e dos intervalos de confiança, em função de diferentes variâncias teóricas consideradas, utilizando o método de reamostragem

Variâncias teóricas

ICa

ICb

ICc

ICd

ICe

0,26

10,0766

[9,6900; 10,4584]

[8,9894; 11,1590]

[9,6007; 10,5477]

[3,0410; 21,7459]

[2,6934; 21,5215]

0,33

10,0722

[9,6290; 10,5320]

[8,8072; 11,3538]

[9,5385; 10,6225]

[2,9506; 20,3013]

[2,6083; 19,9060]

0,46

10,0807

[9,5681; 10,6016]

[8,6304; 11,5393]

[9,4453; 10,7245]

[1,5515; 23,0786]

[0,8149; 22,5788]

0,77

10,1147

[9,4210; 10,7768]

[8,1984; 11,9994]

[9,2719; 10,9259]

[2,0705; 18,4853]

[1,1253; 17,9980]

2,31

10,1765

[8,9156; 11,4135]

[6,7380; 13,5911]

[8,5900; 11,7391]

[3,1923; 19,2932]

[2,3314; 18,3497]

3,47

10,2537

[8,6436; 11,8833]

[5,9417; 14,5851]

[8,1904; 12,3364]

[3,1135; 21,2189]

[1,5468; 19,7775]


 

Considerando as análises feitas por meio das amostras bootstrap, para obtenção dos intervalos de confiança, percebe-se que ICa, que assume a fórmula da variância do ponto crítico sugerido por Mood, Graybill e Boes (1974), apresenta maior precisão nas diferentes variâncias teóricas. Desse modo, isso ocorre pelo fato de apresentar menor amplitude do intervalo e provavelmente pelo seu estimador levar em consideração a covariância entre b1 e b2. Semelhantemente ocorreu para ICc, que considera a fórmula da variância comum e apresentou uma precisão similar ao ICa, com leve diferença na amplitude do intervalo.

Em concordância com o método bootstrap-t, os intervalos de confiança ICd  e ICe obtiveram menor precisão nas diferentes variâncias teóricas, apresentando maior amplitude do intervalo. Este resultado corrobora com os trabalhos de Nunes et al. (2004) e Ferreira  (2012).

As Figuras 1(a), 1(b), 1(c), 1(d), 1(e) e 1(f) apresentam os histogramas dos valores simulados do ponto crítico, considerando as diferentes variâncias teóricas 0,26; 0,33; 0,47; 0,77; 2,3 e 3,47 respectivamente. Pode-se observar que os valores dos pontos críticos obtido nas menores variâncias teóricas (Figuras 1(a), 1(b) e 1(c)) apresentaram certa aproximação da curva normal. Além disso, nas Figuras 1(d), 1(e) e 1(f) à medida que a variância cresce, o ponto crítico vai apresentando uma leve tendência a uma distribuição de frequência com assimetria à direita, sendo que este cenário ocorre mais fortemente na Figura 1(f).

 

Figura 1 – Histograma dos valores simulados do ponto crítico para variância teórica igual a 0,26; 0,33.;0,47; 0,77; 2,3 e 3,47

(a)

(b)

(c)

(d)

(e)

(f)

Fonte: Elaborado pelo autor.

 

4 CONCLUSÃO

Em virtude dos fatos mencionados, a metodologia bootstrap paramétrico evidenciou-se como uma excelente alternativa para a construção de intervalos de confiança para o ponto crítico.

 A variância do ponto crítico avaliado utilizando a expressão proposta por Mood, Graybill e Boes (1974) apresentou-se como a mais satisfatória, visto que leva em consideração a covariância entre os coeficientes de regressão.

Os intervalos de confiança para o ponto crítico demonstram menor precisão com aumento das variâncias teóricas em todos os cinco casos analisados.

Diante das simulações realizadas sugere-se o uso de intervalos de confiança que consideram a covariância entre os parâmetros do modelo, por apresentar menor amplitude.

 

REFERÊNCIAS

AIMI SC, ARAUJO MM, LEON EB, OLIVEIRA GG, CUNHA FS. Volumen de contenedores y dosis de fertilizante de liberación controlada enelcrecimiento de plantas de Cabralea canjerana producidas em vivero. Bosque (Valdivia). 2016; 37(2): 401-407.

D’AULISIO MBG, PIMENTEL-GOMES F, NOGUEIRA IR. Estudo da distribuição dos pontos de máximo ou de mínimo de equações de regressão de segundo grau. In: XXXIII Anais da Escola Superior de Agricultura "Luiz de Queiroz"; 1976 out. São Paulo, Brasil. p. 291-307.

EFRON B. Bootstrap methods: Another look at the Jackkinef. The annals of statistics, Stanford, 1979; 7(1): 1-26.

EFRON B, TIBSHIRANI R. An introduction to the Bootstrap. London: Chapman & Hall, 1993.

FERREIRA D. Estatística Básica. 2 ed.  Lavras: UFLA, 2009.

FERREIRA L. Intervalos de confiança para o ponto crítico de modelos de regressão quadrática: abordagens bootstrap, bayesiana e fuzzy, em Lavras/MG. [Tese]. Lavras: Universidade Federal de Lavras/UFLA; 2012. 116 p.

FREITAS ARA. Variância dos pontos de máximo ou de mínimo de equações de regressão de segundo grau, em Piracicaba/SP. [Dissertação]. Piracicaba: Escola Superior de Agricultura Luiz de Queiroz/ESALQ; 1978. 81 p.

GUIDORIZZI HL. Um curso de cálculo. Volume 1. 5 ed. Rio de Janeiro: LTC, 2001.

HIRSCHBERG JG, LYE JN. Inferences for the extremum of quadratic regression. Melbourne, 2005.

MOOD AM, GRAYBILL FA, BOES DC. Introduction to the theory of statistics. 3. ed. Tokio: McGraw-Hill, 1974.

NUNES CCF, MORAIS AR, MUNIZ JA, SÁFADI T. Variâncias do ponto crítico de equações de regressão quadrática. Ciência e Agrotecnologia, Lavras, 2004; 28(2): 389-396.

R DEVELOPMENT CORE TEAM (2018). R: A language and enviroment for Statistical computing. Disponível em: https://www.R-project.org/. Acesso em: 20 Mai. 2018.