Alguns conceitos
| Topo pág | Fim pág |
Este tópico apresenta definições de alguns termos comuns de estatística, que serão de uso freqüente nos próximos tópicos e páginas.
Amostra é um subconjunto selecionado da população. Em geral, a amostra permite estimar parâmetros para toda a população sem necessidade de analisar todos os elementos dessa população.
Amostra aleatória é aquela em que as probabilidades de seleção são as mesmas para cada elemento selecionado.
Estimadores são parâmetros calculados a partir de uma amostra, que servem como aproximações de parâmetros desconhecidos da população. A notação de praxe faz uso do símbolo com um acento circunflexo (^). Exemplos:
• σ = desvio-padrão da população e σ
^= desvio-padrão estimado da população.
• a média da amostra (
x) é o estimador comum para a média μ da população. Portanto,
μ^= x = ∑ xi / n, onde x
i são os valores e n é o número de elementos da amostra.
Inferência estatística é a técnica usada para estimar parâmetros e comportamento da população através de dados de uma amostra dessa população.
População é o conjunto universo de todos os elementos que desejamos estudar e dos quais podemos extrair dados. Exemplos: os habitantes de um determinado país ou região, um lote de peças produzidas, etc.
Histograma e freqüência relativa
| Topo pág | Fim pág |
Conforme já visto em página anterior, freqüência relativa de um evento é a relação entre o número de vezes que esse evento ocorreu e o número total de eventos no contexto considerado.
Tabela 01: vida útil da ferramenta
| Vida em horas |
Quantidade |
Freqüência relativa % |
Freqüência relativa acumulada % |
| 50-60 |
5 |
3,3 |
3,3 |
| 60-70 |
7 |
4,7 |
8,0 |
| 70-80 |
10 |
6,7 |
14,7 |
| 80-90 |
21 |
14,0 |
28,7 |
| 90-100 |
33 |
22,0 |
50,7 |
| 100-110 |
32 |
21,3 |
72,0 |
| 110-120 |
22 |
14,7 |
86,7 |
| 120-130 |
13 |
8,7 |
95,3 |
| 130-140 |
2 |
1,3 |
96,7 |
| 140-150 |
3 |
2,0 |
98,7 |
| 150-160 |
2 |
1,3 |
100 |
Em estatística, histograma é um gráfico para a representação de freqüências. Normalmente são usadas freqüências relativas por sua relação com probabilidades.
Exemplo: a Tabela 01 é um hipotético estudo da durabilidade da ferramenta de uma máquina industrial. Escolhido um intervalo de tempo (10 horas, neste caso), as peças da amostra (150, neste caso) são agrupadas de acordo com a faixa de durabilidade, resultando na coluna
Quantidade da tabela.
|
| Figura 01 |
A coluna
Freqüência relativa da tabela é o simples percentual dos valores da coluna
Quantidade em relação ao total (150). E o histograma correspondente é dado na Figura 01.
Vale lembrar que não há regras definitivas para escolha do número de faixas de valores (neste exemplo, 11). Algumas fórmulas práticas são:
•
k = √n #A.1#.
•
k = (1 + log2 n) #A.2# Fórmula de Sturges.
Onde k é o número de faixas e n é o total de observações.
|
| Figura 02 |
A Figura 02 mostra o histograma das freqüências relativas acumuladas conforme respectiva coluna da Tabela 01.
Ogiva é nome comum para um gráfico de linhas que passam pelos valores das faixas do histograma de freqüências acumuladas (indicada em linhas tracejadas na mesma figura).
A formulação matemática e o formato das curvas permitem deduzir que os gráficos da freqüência relativa acumulada e da freqüência relativa são, respectivamente, aproximações para a função de distribuição e função de densidade da população à qual a amostra pertence.
Tabela 02
| Classe |
Freq acumulada |
| 129,5-139,5 |
4 |
| 139,5-149,5 |
12 |
| 149,5-159,5 |
26 |
| 159,5-169,5 |
46 |
| 169,5-179,5 |
72 |
| 179,5-189,5 |
90 |
| 189,5-199,5 |
100 |
Exemplo (fonte: prova IRB 2004, com adaptações):
Neste exemplo, as faixas de valores (ou classes) e as respectivas freqüências acumuladas são dadas na Tabela 02.
O histograma para freqüências acumuladas pode ser visto na Figura 03 (não é apresentado na questão original). Notar que, neste caso, as freqüências são absolutas e não relativas (mas os valores são os mesmos porque o acumulado final é 100).
|
| Figura 03 |
Uma das questões pergunta, entre as alternativas abaixo, a opção que correspondente ao oitavo decil.
a) 179,5 b) 189,5 c) 183,9 d) 184,5 e) 174,5
Percentil é um conceito comum em estatística, mas parece não ter uma definição universal. Uma das definições diz que o p-ésimo percentil (ou de ordem p) de uma amostra é um valor tal que p% dos elementos têm valores menores que ele e (100 − p)% têm valores maiores.
Percentis de ordem 25, 50 e 75 são denominados
quartis e, mais especificamente, primeiro, segundo e terceiro quartis. Os símbolos usuais são Q
1, Q
2 e Q
3 respectivamente.
Percentis de ordem 10, 20, 30 ... 90 são denominados
decis e simbolizados por D
1 (primeiro decil), D
2 (segundo decil), etc.
Pode-se também dizer que um quartil equivale a 25 percentis e que um decil equivale a 10 percentis.
Voltando agora à questão, da Tabela 02 pode-se notar que o oitavo decil (80%) deve estar na faixa 179,5 a 189,5 porque a anterior tem 72% acumulado e essa, 90%. Calculando a proporção,
(80 − 72) / (90 − 72) = 8 / 18 = 4 / 9. Aplicando à largura da faixa,
10 × 4 / 9 ≈ 4,44.
Somando ao valor inicial da faixa,
179,5 + 4,44 ≈ 183,9. Resposta c.
Uma outra questão sobre a mesma tabela: Assinale a opção que corresponde à estimativa, via interpolação da ogiva, do número de observações menores ou iguais ao valor 164.
a) 46 b) 26 c) 72 d) 35 e) 20
Essa questão é similar à anterior, mas a ordem dos cálculos é outra. O valor 164 está na faixa 159,5 a 169,5. Assim, a proporção em relação ao início da faixa é
(164 − 159,5) / (169,5 − 159,5) = 0,45.
A variação da freqüência acumulada em relação à faixa anterior é
46 − 26 = 20. Multiplicando pela proporção,
0,45 × 20 = 9. Somando à freqüência acumulada da faixa anterior,
26 + 9 = 35. Resposta d.
Distância ou
amplitude interquartílica é a diferença entre o terceiro e o primeiro quartil. Portanto,
Aiq = Q3 − Q1 #B.1#.
Exemplo: seja o conjunto de 20 observações:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
108 126 132 195 296 354 407 409 526 634 689 710 857 1028 1140 1270 1320 1800 2347 2625
Uma regra comum para determinar os quartis de um conjunto ordenado de dados é:
• Dividir o conjunto em duas metades com uso da mediana (ver
Medidas de localização), não incluindo esta última. Evidentemente, a mediana é o segundo quartil.
• As medianas das partes acima são o primeiro e o segundo quartil.
Calculando para os dados informados,
Q2 = (634 + 689) / 2 = 661,5.
Q1 = (296 + 354) / 2 = 325.
Q3 = (1140 + 1270) / 2 = 1205.
Portanto, A
iq = 1205 − 325 = 880.
Tabela 03
| Classe |
Freq acumulada |
| 2000 - 4000 |
18 |
| 4000 - 6000 |
63 |
| 6000 - 8000 |
165 |
| 8000 - 10000 |
308 |
| 10000 - 12000 |
359 |
| 12000 - 14000 |
400 |
Exemplo: sejam os dados agrupados em freqüências acumuladas segundo a Tabela 03.
Calcular a amplitude interquartílica.
Tabela 04
| Classe |
Freq acumulada |
Freq rel acum % |
| 2000 - 4000 |
18 |
4,5 |
| 4000 - 6000 |
63 |
15,75 |
| 6000 - 8000 |
165 |
41,25 |
| 8000 - 10000 |
308 |
77 |
| 10000 - 12000 |
359 |
89,75 |
| 12000 - 14000 |
400 |
100 |
Para o cálculo dos quartis, devem ser determinadas as freqüências relativas acumuladas, através da relação percentual entre os valores das freqüências acumuladas e o valor final 400.
Esses valores são dados na Tabela 04.
O primeiro quartil deve estar na faixa 6000 a 8000 porque a freqüência relativa passa de 15,75% a 41,25%. Portanto,
| Q1 |
= 6000 + (8000 − 6000) |
25 − 15,75 |
≈ 6725,49 |
| 41,25 − 15,75 |
Usando procedimento similar para o terceiro quartil,
| Q3 |
= 8000 + (10000 − 8000) |
75 − 41,25 |
≈ 9888,1 |
| 77 − 41,25 |
Portanto, A
iq = 9888,1 − 6725,49 ≈ 3162,61.
No caso de distribuições contínuas, a amplitude interquartílica é calculada pela integração da função de densidade de probabilidades. A integração de −∞ até Q
1 deve resultar 0,25 e a integração de Q
3 até +∞ deve resultar 0,25. Para a
distribuição normal padrão, o valor calculado é
Aiq ≈ 1,349.
Topo |
Índice do grupo |
Página anterior |
Próxima página |
Última revisão ou atualização: Jan/2008
Referências:
|
NIST/SEMATECH e-Handbook of Statistical Methods. http://www.itl.nist.gov/div898/handbook/.
|