MSPC

   Informações técnicas
| Mapa | Fim pág |

 

Probabilidades e estatística V-00



Índice do grupo | Página anterior | Próxima página |

Regressão linear |
Correlação |
Índices

Ciência dos materiais
Eletricidade e eletromagnetismo
Eletrônica digital
Eletrônica em geral
Fluidos, calor, frio, etc
Informática
Matemática
Mecânica teórica
Resistência dos materiais
Temas técnicos diversos
Temas diversos
Termodinâmica / transmissão de calor


Regressão linear

  | Topo pág | Fim pág |

Em vários fenômenos físicos ocorre uma relação claramente linear entre duas grandezas. Exemplos: tensão e corrente elétrica em um material condutor, comprimento de uma barra e temperatura e muitos outros. Entretanto, medições reais sempre apresentam dispersões devidos aos erros inerentes das observações e instrumentos. O objetivo da regressão linear é obter os parâmetros de uma reta que melhor define o comportamento físico a partir de medições práticas.

Seja x1 ... xn uma série de valores da variável x, considerada independente. Para cada valor xi dessa série é medido um valor yi, formando a série y1 ... yn de valores da variável dependente y. Dispostos em um gráfico, esses valores formam um conjunto de pontos (xi, yi).

Regressão linear
Figura 01
Seja a reta y = a + bx #A.1#.

O objetivo é determinar os coeficientes a e b tais que ela seja reta que melhor representa o conjunto de pontos.

Do exemplo da Figura 01, o erro ε para um ponto genérico é:

εi = (a + bxi) − yi #B.1#.

O método da regressão linear usa os quadrados mínimos, ou seja, é a linha reta que minimiza a soma dos quadrados dos erros. Usando a fórmula anterior, a soma S é dada por:

S = εi2 = [ (a + bxi) − yi ]2 #B.2#.

Para o menor valor de S, as derivadas parciais em relação a "a" e em relação a "b" devem ser nulas. Resolvendo o sistema de equações formado, o resultado é:

b =  n xiyixi yi   #C.1#
n xi2 − (xi)2

a =  yi − b xi  = y − bx  #D.1#
n

Exemplo: os comprimentos medidos de uma barra metálica (y) em oito temperaturas diferentes (x) resultaram na tabela abaixo:

y (mm) 100,07 100,12 100,16 100,21 100,26 100,30 100,35 100,40
x (ºC) 25,00 50,00 75,00 100,0 125,0 150,0 175,0 200,0

Portanto, n = 8. Calculando as somas,

xiyi = 90259,5 xi = 900  yi = 801,87  xi2 = 127500 (xi)2 = 810000

Segundo #C.1# e #D.1#,

b = (8 90259,5 − 900 801,87) / (8 127500 − 810000) ≈ 0,001871.

a = (801,87 − 0,001871 900) / 8 ≈ 100,02.

Portanto, y = 100,02 + 0,001871 x.


Na prática, a regressão acima calcula a dilatação linear do material da barra. Em geral, é dada pela fórmula:

ℓ = ℓ0 (1 + α t) #E.1#. Onde,

0: comprimento na temperatura t = 0.
α: coeficiente de dilatação linear do material da barra.

Na fórmula encontrada, substituindo y por ℓ e x por t, ℓ = 100,02 + 0,001871 t.

Assim, l0 = 100,02 e o valor de b (0,001871) deve ser igual a l0 α.

Ou 100,02 α = 0,001871 e, portanto, α ≈ 1,87 10-5 / ºC.



Correlação

  | Topo pág | Fim pág |

Conforme tópico anterior (substituindo a e b por ayx e byx), se Y é a variável independente, a reta de regressão é:

Correlação
Figura 01
y = ayx + byxx #A.1#.

E o coeficiente byx é dado por:

byx = (n∑xiyi−∑xi∑yi)/[n∑xi2−(∑xi)2] #A.2#.

Se considerada X a variável independente,

x = axy + bxy y #B.1#. Portanto,

byx = (n∑xiyi−∑xi∑yi)/[n∑yi2−(∑yi)2] #B.2#.


Desde que, na equação de uma reta, o coeficiente b é a tangente trigonométrica da inclinação, as seguintes igualdades são válidas (ver Figura 01):

byx = tan φyx #C.1#
bxy = tan φxy #C.2#

O coeficiente de correlação entre as variáveis X e Y é dado por:

r2 = byx bxy #D.1#.

Com alguns procedimentos aritméticos (aqui não demonstrados), chega-se à formulação usual para o coeficiente de correlação:

r =   (xix) (yiy)   #E.1#. Onde:
(n − 1) sx sy

x, y:   médias.
sx, sy: desvios-padrão.

Uma fórmula mais complexa, entretanto mais fácil de calcular manualmente, é:

r =  n xiyixi yi   #F.1#.
[ n xi2 − (xi)2 ]1/2 [ n yi2 − (yi)2 ]1/2


Exemplo de variação de coeficiente de correlação
Figura 02
O coeficiente de correlação indica a qualidade da aproximação pelos quadrados mínimos segundo tópico anterior.

Se r2 = 1, as retas da Figura 01 são coincidentes.

Outro exemplo é dado na Figura 02: se r2 = 1, os pontos estão na reta de regressão e se afastam dela à medida que esse valor diminui.

Algumas propriedades do coeficiente de correlação r são dadas a seguir.

Tabela 01
Grau de correlação | r |
Perfeito 1
Alto 0,75 a 1
Médio 0,25 a 0,75
Baixo 0 a 0,25
Ausente 0

• r é um número adimensional.

• o valor é invariável com a mudança da unidade de medida.

• é sempre um número entre −1 e 1.

Algumas vezes, a qualificação da correlação entre variáveis é dada segundo faixas de valores conforme Tabela 01. Para o exemplo do tópico anterior, o valor calculado é r ≈ 0,999, demonstrando um elevado grau de correlação entre as variáveis.


Topo | Índice do grupo | Página anterior | Próxima página | Última revisão ou atualização: Abr/2008
Melhor visto com
1024x768 px

Termos de uso


Exemplo de questões de prova (fonte: Inmetro 2007, com adaptações):

Uma amostra aleatória de 4 peças produzidas por uma fábrica foi retirada de determinado lote por um técnico de controle de qualidade. A tabela abaixo apresenta os pesos (em kg) e os comprimentos (em cm) das peças selecionadas.

Peça (i) 1 2 3 4
Peso Wi 29 28 32 31
Comprimento ℓi 0,6 0,5 0,5 0,6
Para o monitoramento do processo, a média amostral dos pesos será posta em um gráfico (carta) de controle. Com base nessas informações, julgue os itens seguintes.

113) A variância amostral dos pesos é inferior a 3,5.
114) A correlação entre os pesos e os comprimentos é positiva.
115) Para a construção de um gráfico (carta) de controle, a média do processo será estimada pela média amostral,
(W1 + W2 + W3 + W4)/4.
116) Um intervalo de 100% de confiança para o comprimento médio é igual a 0,55 ± 0,5.

i 1 2 3 4
Wi 29 28 32 31 120
Wi2 841 784 1024 961 3610
i 0,6 0,5 0,5 0,6 2,2
i2 0,36 0,25 0,25 0,36 1,22
Wii 17,4 14 16 18,6 66
Para a solução manual das questões, é conveniente montar a tabela ao lado.

A variância de uma amostra é dada por:

s2 ∑ yi2 − (∑ yi)2/n
n − 1


Substituindo os valores para W,

s2 3610 − 3600  ≈ 3,33 < 3,5   Portanto, questão 113 tem resposta Certo.
4 − 1

O numerador da fórmula já vista para o coeficiente de correlação é n xiyixi yi. Substituindo os valores,

4 66 − 120 2,2 = 0 . A correlação é, portanto, nula e a questão 114 tem resposta Errado.


Para a questão 115, a média do processo não pode ser considerada a média de apenas 4 peças. Resposta: Errado.


Conforme matéria da página Probabilidades e estatística III-62, o intervalo de confiança para a média supondo conhecido o desvio-padrão é:

± zα/2  σ
√n

Da tabela anterior, = 2,2/4 = 0,55. Mas zα/2 teria de ser infinito para 100% de confiança. Questão 116 tem resposta Errado.


Referências:

BOUCHÉ, Ch; LEITNER, A; SASS, F. Dubbel - Manual da Construção de Máquinas. São Paulo: Hemus, 1979.
HERIOT-WATT UNIVERSITY. Regression and Correlation. 2003.

NIST/SEMATECH e-Handbook of Statistical Methods. http://www.itl.nist.gov/div898/handbook/.

WOLFRAM MATHWORLD. http://mathworld.wolfram.com/.