Regressão linear
| Topo pág | Fim pág |
Em vários fenômenos físicos ocorre uma relação claramente linear entre duas grandezas. Exemplos: tensão e corrente elétrica em um material condutor, comprimento de uma barra e temperatura e muitos outros. Entretanto, medições reais sempre apresentam dispersões devidos aos erros inerentes das observações e instrumentos. O objetivo da regressão linear é obter os parâmetros de uma reta que melhor define o comportamento físico a partir de medições práticas.
Seja
x1 ... xn uma série de valores da variável x, considerada independente. Para cada valor x
i dessa série é medido um valor y
i, formando a série
y1 ... yn de valores da variável dependente y. Dispostos em um gráfico, esses valores formam um conjunto de pontos
(xi, yi).
|
| Figura 01 |
Seja a reta
y = a + bx #A.1#.
O objetivo é determinar os coeficientes a e b tais que ela seja reta que melhor representa o conjunto de pontos.
Do exemplo da Figura 01, o erro ε para um ponto genérico é:
εi = (a + bxi) − yi #B.1#.
O método da regressão linear usa os quadrados mínimos, ou seja, é a linha reta que minimiza a soma dos quadrados dos erros. Usando a fórmula anterior, a soma S é dada por:
S = ∑εi2 = ∑[ (a + bxi) − yi ]2 #B.2#.
Para o menor valor de S, as derivadas parciais em relação a "a" e em relação a "b" devem ser nulas. Resolvendo o sistema de equações formado, o resultado é:
| b = |
n ∑xiyi − ∑xi ∑yi |
|
#C.1# |
| n ∑xi2 − (∑xi)2 |
| a = |
∑yi − b ∑xi |
= y − bx |
#D.1# |
| n |
Exemplo: os comprimentos medidos de uma barra metálica (y) em oito temperaturas diferentes (x) resultaram na tabela abaixo:
| y (mm) |
100,07 |
100,12 |
100,16 |
100,21 |
100,26 |
100,30 |
100,35 |
100,40 |
| x (ºC) |
25,00 |
50,00 |
75,00 |
100,0 |
125,0 |
150,0 |
175,0 |
200,0 |
Portanto, n = 8. Calculando as somas,
∑xiyi = 90259,5 ∑xi = 900 ∑yi = 801,87 ∑xi2 = 127500 (∑xi)2 = 810000
Segundo #C.1# e #D.1#,
b = (8 90259,5 − 900 801,87) / (8 127500 − 810000) ≈ 0,001871.
a = (801,87 − 0,001871 900) / 8 ≈ 100,02.
Portanto, y = 100,02 + 0,001871 x.
Na prática, a regressão acima calcula a
dilatação linear do material da barra. Em geral, é dada
pela fórmula:
ℓ = ℓ0 (1 + α t) #E.1#. Onde,
ℓ
0: comprimento na temperatura t = 0.
α: coeficiente de dilatação linear do material da barra.
Na fórmula encontrada, substituindo y por ℓ e x por t,
ℓ = 100,02 + 0,001871 t.
Assim,
l0 = 100,02 e o valor de b (0,001871) deve ser igual a
l0 α.
Ou
100,02 α = 0,001871 e, portanto, α ≈ 1,87 10
-5 / ºC.
Correlação
| Topo pág | Fim pág |
Conforme tópico anterior (substituindo a e b por a
yx e b
yx), se Y é a variável independente, a reta de regressão é:
|
| Figura 01 |
y = ayx + byxx #A.1#.
E o coeficiente b
yx é dado por:
byx = (n∑xiyi−∑xi∑yi)/[n∑xi2−(∑xi)2] #A.2#.
Se considerada X a variável independente,
x = axy + bxy y #B.1#. Portanto,
byx = (n∑xiyi−∑xi∑yi)/[n∑yi2−(∑yi)2] #B.2#.
Desde que, na equação de uma reta, o coeficiente b é a tangente trigonométrica da inclinação, as seguintes igualdades são válidas (ver Figura 01):
byx = tan φyx #C.1#
bxy = tan φxy #C.2#
O
coeficiente de correlação entre as variáveis X e Y é dado por:
r2 = byx bxy #D.1#.
Com alguns procedimentos aritméticos (aqui não demonstrados), chega-se à formulação usual para o coeficiente de correlação:
| r = ∑ |
(xi − x) (yi − y) |
|
#E.1#. Onde: |
| (n − 1) sx sy |
x, y: médias.
sx, sy: desvios-padrão.
Uma fórmula mais complexa, entretanto mais fácil de calcular manualmente, é:
| r = |
n ∑xiyi − ∑xi ∑yi |
|
#F.1#. |
| [ n ∑xi2 − (∑xi)2 ]1/2 [ n ∑yi2 − (∑yi)2 ]1/2 |
|
| Figura 02 |
O coeficiente de correlação indica a qualidade da aproximação pelos quadrados mínimos segundo tópico anterior.
Se r
2 = 1, as retas da Figura 01 são coincidentes.
Outro exemplo é dado na Figura 02: se r
2 = 1, os pontos estão na reta de regressão e se afastam dela à medida que esse valor diminui.
Algumas propriedades do coeficiente de correlação r são dadas a seguir.
Tabela 01
| Grau de correlação |
| r | |
| Perfeito |
1 |
| Alto |
0,75 a 1 |
| Médio |
0,25 a 0,75 |
| Baixo |
0 a 0,25 |
| Ausente |
0 |
• r é um número adimensional.
• o valor é invariável com a mudança da unidade de medida.
• é sempre um número entre −1 e 1.
Algumas vezes, a qualificação da correlação entre variáveis é dada segundo faixas de valores conforme Tabela 01. Para o exemplo do tópico anterior, o valor calculado é r ≈ 0,999, demonstrando um elevado grau de correlação entre as variáveis.
Topo |
Índice do grupo |
Página anterior |
Próxima página |
Última revisão ou atualização: Abr/2008
Exemplo de questões de prova (fonte: Inmetro 2007, com adaptações):
Uma amostra aleatória de 4 peças produzidas por uma fábrica foi retirada de determinado lote por um técnico de controle de qualidade. A tabela abaixo apresenta os pesos (em kg) e os comprimentos (em cm) das peças selecionadas.
| Peça (i) |
1 |
2 |
3 |
4 |
| Peso Wi |
29 |
28 |
32 |
31 |
| Comprimento ℓi |
0,6 |
0,5 |
0,5 |
0,6 |
Para o monitoramento do processo, a média amostral dos pesos será posta em um gráfico (carta) de controle. Com base nessas informações, julgue os itens seguintes.
113) A variância amostral dos pesos é inferior a 3,5.
114) A correlação entre os pesos e os comprimentos é positiva.
115) Para a construção de um gráfico (carta) de controle, a média do processo será estimada pela média amostral,
(W1 + W2 + W3 + W4)/4.
116) Um intervalo de 100% de confiança para o comprimento médio é igual a 0,55 ± 0,5.
| i |
1 |
2 |
3 |
4 |
∑ |
| Wi |
29 |
28 |
32 |
31 |
120 |
| Wi2 |
841 |
784 |
1024 |
961 |
3610 |
| ℓi |
0,6 |
0,5 |
0,5 |
0,6 |
2,2 |
| ℓi2 |
0,36 |
0,25 |
0,25 |
0,36 |
1,22 |
| Wi ℓi |
17,4 |
14 |
16 |
18,6 |
66 |
Para a solução manual das questões, é conveniente montar a tabela ao lado.
A variância de uma amostra é dada por:
| s2 = |
∑ yi2 − (∑ yi)2/n |
| n − 1 |
Substituindo os valores para W,
| s2 = |
3610 − 3600 |
≈ 3,33 < 3,5 |
Portanto, questão 113 tem resposta Certo. |
| 4 − 1 |
O numerador da fórmula já vista para o coeficiente de correlação é
n ∑xiyi − ∑xi ∑yi. Substituindo os valores,
4 66 − 120 2,2 = 0 . A correlação é, portanto, nula e a questão 114 tem resposta Errado.
Para a questão 115, a média do processo não pode ser considerada a média de apenas 4 peças. Resposta: Errado.
Conforme matéria da página
Probabilidades e estatística III-62, o intervalo de confiança para a média supondo conhecido o desvio-padrão é:
Da tabela anterior,
ℓ = 2,2/4 = 0,55. Mas z
α/2 teria de ser infinito para 100% de confiança. Questão 116 tem resposta Errado.
Referências:
BOUCHÉ, Ch; LEITNER, A; SASS, F. Dubbel - Manual da Construção de Máquinas. São Paulo: Hemus, 1979.
|
HERIOT-WATT UNIVERSITY. Regression and Correlation. 2003.
NIST/SEMATECH e-Handbook of Statistical Methods. http://www.itl.nist.gov/div898/handbook/.
WOLFRAM MATHWORLD. http://mathworld.wolfram.com/.
|