Anotações & Informações | Índice | Fim pág | Voltar |


Probabilidades e Estatística V-00

| Índice do grupo | Página anterior | Próxima página |

Tópicos: Regressão Linear | Correlação |


1) Regressão Linear

(Topo | Fim pág)

Em vários fenômenos físicos ocorre uma relação linear entre duas grandezas. Exemplos: tensão e corrente elétrica em um material condutor, comprimento de uma barra e temperatura, etc. Entretanto, medições reais apresentam dispersões e erros de observações e de instrumentos. O objetivo da regressão linear é obter os parâmetros de uma reta que melhor define o comportamento físico a partir de medições práticas.

Seja { x1 ... xn } uma série de valores da variável x, considerada independente. Para cada valor xi dessa série é medido um valor yi, formando a série { y1 ... yn } de valores da variável dependente y. Dispostos em um gráfico, esses valores formam um conjunto de pontos (xi, yi). Considera-se a reta dada por sua equação:

$$y = a + bx \tag{1A}$$
Regressão Linear
Fig 1-I

O objetivo é determinar os coeficientes a e b tais que ela seja reta que melhor representa o conjunto de pontos. Conforme Figura 1-I, o erro ε para um ponto genérico é:

$$\epsilon_i = (a + bx_i) - y_i \tag{1B}$$
O método da regressão linear usa os quadrados mínimos, ou seja, é a linha reta que minimiza a soma dos quadrados dos erros. Usando a fórmula anterior, a soma S é dada por:

$$S = \sum \epsilon_i^2 = \sum[ (a + bx_i) - y_i ]^2 \tag{1C}$$

Para o menor valor de S, as derivadas parciais em relação a "a" e em relação a "b" devem ser nulas. Resolvendo o sistema de equações formado, o resultado é:

$$b = \frac{n \sum x_i y_i - \sum x_i \sum y_i}{n \sum x_i^2 - (\sum x_i)^2} \tag{1D}$$

$$a = \frac{\sum y_i - b \sum x_i}{n} = y - bx \tag{1E}$$

Exemplo 1-I: os comprimentos medidos de uma barra metálica (y) em oito temperaturas diferentes (x) resultaram nos valores da tabela abaixo:

y (mm) 100,07 100,12 100,16 100,21 100,26 100,30 100,35 100,40
x (°C) 25,00 50,00 75,00 100,0 125,0 150,0 175,0 200,0

Portanto, n = 8. Calculando as somas: ∑xiyi=90259,5 | ∑xi=900 | ∑yi=801,87 | ∑xi2=127500 | (∑xi)2 = 810000. Segundo (1D) e (1E),

b = (8 90259,5 − 900 801,87) / (8 127500 − 810000) ≈ 0,001871

a = (801,87 − 0,001871 900) / 8 ≈ 100,02

Portanto,

$$y = 100,02 + 0,001871 x \tag{1F}$$
Na prática, esse resultado indica a dilatação linear da barra. Em geral, usa-se a formulação para variações de comprimento e de temperatura:

$$y_1 = a + b x_1\\y_0 = a + b x_0\\y_1 = y_0 + b \Delta x\\y_1 = y_0 (1 + \tfrac{b}{y_0} \Delta x) \tag{1G}$$
Usando símbolos mais comuns para comprimento e temperatura e substituindo o multiplicador de Δt por α:

$$L = L_0 (1 + \alpha \Delta t) \tag{1H}$$
Nessa fórmula, α tem dimensão de inverso de temperatura, não depende do comprimento da barra. É, portanto, uma característica do material, denominada coeficiente de dilatação linear.


2) Correlação

(Topo | Fim pág)

Nas premissas da relação (1A) do tópico anterior, consideram-se as duas possibilidades de dependência | independência, isto é x | y ou y | x, gerando duas equações e respectivos coeficientes:

$$y = a_{yx} + b_{yx} x\\x = a_{xy} + b_{xy} y \tag{2A}$$
Aplicando (1D),

$$b_{yx} = \frac{n \sum x_i y_i - \sum x_i \sum y_i}{n \sum x_i^2 - (\sum x_i)^2}\\b_{xy} = \frac{n \sum x_i y_i - \sum x_i \sum y_i}{n \sum y_i^2 - (\sum y_i)^2} \tag{2B}$$

Desde que, na equação de uma reta, o coeficiente b é a tangente trigonométrica da inclinação, as seguintes igualdades são válidas (ver figura seguinte):

$$b_{yx} = \tan \phi_{yx}\\b_{xy} = \tan \phi_{xy} \tag{2C}$$
Correlação
Fig 2-I

O Coeficiente de Correlação entre as variáveis X e Y é dado por:

$$r = \sqrt{ b_{yx}\ b_{xy} } \tag{2D}$$
Com alguns procedimentos aritméticos (aqui não demonstrados), chega-se à formulação usual para o coeficiente de correlação:

$$r = \sum \frac{(x_i - \overline x)(y_i - \overline y)}{(n-1) s_x s_y} \tag{2E}$$
Onde {$\overline x,\overline y$} e {$s_x,s_y$} são, respectivamente, médias e desvios-padrão.

A seguir, uma fórmula mais complexa, entretanto mais fácil de calcular manualmente:

$$r = \frac{n\sum x_i y_i - \sum x_i \sum y_i}{\sqrt{n \sum x_i^2 - (\sum x_i)^2} \sqrt{n \sum y_i^2 - (\sum y_i)^2}} \tag{2F}$$

O coeficiente de correlação indica a qualidade da aproximação pelos quadrados mínimos segundo tópico anterior. Se r2 = 1, as retas da Figura 2-I são coincidentes. Outro exemplo é dado na Figura 2-II: se r2 = 1, os pontos estão na reta de regressão e se afastam dela à medida que esse valor diminui.

Exemplo de Variação de Coeficiente de Correlação
Fig 2-II

Algumas propriedades do coeficiente de correlação r:

• r é um número adimensional.
• o valor é invariável com a mudança da unidade de medida.
• é sempre um número entre −1 e 1.

Algumas vezes, a qualificação da correlação entre variáveis é dada segundo faixas de valores conforme Tabela 2-I. Para o exemplo do tópico anterior, o valor calculado é r ≈ 0,999, demonstrando um elevado grau de correlação entre as variáveis.

Tabela 2-I
Grau de correlação | r |
Perfeito 1
Alto 0,75 a 1
Médio 0,25 a 0,75
Baixo 0 a 0,25
Ausente 0

Exemplo 2-I (questão de prova): uma amostra aleatória de 4 peças produzidas por uma fábrica foi retirada de determinado lote por um técnico de controle de qualidade. A tabela abaixo apresenta os pesos (em kg) e os comprimentos (em cm) das peças selecionadas.

Peça (i) 1 2 3 4
Peso Wi 29 28 32 31
Comprimento Li 0,6 0,5 0,5 0,6

Para o monitoramento do processo, a média amostral dos pesos será posta em um gráfico (carta) de controle. Com base nessas informações, julgue os itens seguintes.

(a) A variância amostral dos pesos é inferior a 3,5.
(b) A correlação entre os pesos e os comprimentos é positiva.
(c) Para a construção de um gráfico (carta) de controle, a média do processo será estimada pela média amostral,
(W1+W2+W3+W4)/4.
(d) Um intervalo de 100% de confiança para o comprimento médio é igual a 0,55 ± 0,5.

Para a solução manual das questões, é conveniente montar a tabela a seguir.

i 1 2 3 4
Wi 29 28 32 31 120
Wi2 841 784 1024 961 3610
Li 0,6 0,5 0,5 0,6 2,2
Li2 0,36 0,25 0,25 0,36 1,22
Wi Li 17,4 14 16 18,6 66

A variância de uma amostra é dada por $s^2 = \left[ \sum y_i^2 - (\sum y_i)^2/n \right] \big/ (n-1)$. Substituindo os valores para W,

s2 = (3610 − 3600) / (4 − 1) ≈ 3,33 < 3,5. Portanto, (a) tem resposta certo.

O numerador da fórmula já vista para o coeficiente de correlação é $n\sum x_i y_i - \sum x_i \sum y_i$. Substituindo os valores,

4 66 − 120 2,2 = 0. A correlação é, portanto, nula e a questão (b) tem resposta errado.

Para a questão (c), a média do processo não pode ser considerada a média de apenas 4 peças. Resposta errado.

Conforme matéria da página Probabilidades e Estatística III-62, o intervalo de confiança para a média supondo conhecido o desvio-padrão é $\overline L \pm z_{\alpha/2}\ \sigma \big/\sqrt n$. Da tabela anterior, $\overline L = 2,2/4 = 0,55$. Mas zα/2 teria de ser infinito para 100% de confiança. Questão (d) tem resposta errado.
Referências
BOUCHÉ, Ch; LEITNER, A; SASS, F. Dubbel - Manual da Construção de Máquinas. São Paulo: Hemus, 1979.
GRINSTEAD, Charles M. SNELL, J. Laurie. Introduction to Probability.
HERIOT-WATT UNIVERSITY. Regression and Correlation. 2003.
NIST/SEMATECH e-Handbook of Statistical Methods. http://www.itl.nist.gov/div898/handbook/.
WOLFRAM MATHWORLD. http://mathworld.wolfram.com/.

Topo | Rev: Mar/2018