Anotações & Informações | Índice | Fim pág | Voltar |


Probabilidades e Estatística III-00

| Índice do grupo | Página anterior | Próxima página |

Tópicos: Alguns Conceitos | Histograma e Frequência Relativa |


1) Alguns Conceitos

(Topo | Fim pág)

Este tópico apresenta definições de alguns termos comuns de estatística, que serão de uso frequente nos próximos tópicos e páginas.

Amostra é um subconjunto selecionado da população. Em geral, a amostra permite estimar parâmetros para toda a população sem necessidade de analisar todos os elementos dessa população.

Amostra aleatória é aquela em que as probabilidades de seleção são as mesmas para cada elemento selecionado.

Estimadores são parâmetros calculados a partir de uma amostra, que servem como aproximações de parâmetros desconhecidos da população. A notação de praxe faz uso do símbolo com um acento circunflexo (^). Exemplos:

• $\sigma =$ desvio-padrão da população e $\hat \sigma =$ desvio-padrão estimado da população.

• a média da amostra ($\overline x$) é o estimador comum para a média μ da população. Portanto, $\hat \mu = \overline x = \sum x_i/n$, onde xi são os valores e n é o número de elementos da amostra.

Inferência estatística é a técnica usada para estimar parâmetros e comportamento da população através de dados de uma amostra dessa população.

População é o conjunto universo de todos os elementos que se deseja estudar e dos quais se pode extrair dados. Exemplos: os habitantes de um determinado país ou região, um lote de peças produzidas, etc.


2) Histograma e Frequência Relativa

(Topo | Fim pág)

Conforme já visto em página anterior, frequência relativa de um evento é a relação entre o número de vezes que esse evento ocorreu e o número total de eventos no contexto considerado.

Tabela II-1: Vida útil da ferramenta
Vida em horas Quantidade Frequência relativa % Frequência relativa acumulada %
50-60 5 3,3 3,3
60-70 7 4,7 8,0
70-80 10 6,7 14,7
80-90 21 14,0 28,7
90-100 33 22,0 50,7
100-110 32 21,3 72,0
110-120 22 14,7 86,7
120-130 13 8,7 95,3
130-140 2 1,3 96,7
140-150 3 2,0 98,7
150-160 2 1,3 100

Em estatística, histograma é um gráfico para a representação de frequências. Normalmente são usadas frequências relativas por sua relação com probabilidades.

Exemplo: a Tabela II-1 é um hipotético estudo da durabilidade da ferramenta de uma máquina industrial. Escolhido um intervalo de tempo (10 horas, neste caso), as peças da amostra (150, neste caso) são agrupadas de acordo com a faixa de durabilidade, resultando na coluna Quantidade da tabela.

Gráfico de Frequências Relativas
Fig II-1

A coluna Frequência relativa da tabela é o simples percentual dos valores da coluna Quantidade em relação ao total (150). E o histograma correspondente é dado na Figura II-1. Não há regras definitivas para escolha do número de faixas de valores (neste exemplo, 11). Algumas fórmulas práticas são:

$$k = \sqrt n\\k = (1 + \log_2 n) \tag{1A}$$
Onde k é o número de faixas e n é o total de observações (a segunda igualdade é denominada fórmula de Sturges).

Gráfico Frequências Acumuladas
Fig II-2

A Figura II-2 mostra o histograma das frequências relativas acumuladas conforme respectiva coluna da Tabela II-1.

Ogiva é nome comum para um gráfico de linhas que passam pelos valores das faixas do histograma de frequências acumuladas (indicada em linhas tracejadas na mesma figura).

A formulação matemática e o formato das curvas permitem deduzir que os gráficos da frequência relativa acumulada e da frequência relativa são, respectivamente, aproximações para a função de distribuição e função de densidade da população à qual a amostra pertence.


Exemplo 01 (prova IRB 2004, com adaptações): neste exemplo, as faixas de valores (ou classes) e as respectivas frequências acumuladas são dadas na Tabela II-2. O histograma para frequências acumuladas pode ser visto na Figura II-3 (não é apresentado na questão original). Neste caso, as frequências são absolutas e não relativas (mas os valores são os mesmos porque o acumulado final é 100).

Tabela II-2
Classe Freq acumulada
129,5-139,5 4
139,5-149,5 12
149,5-159,5 26
159,5-169,5 46
169,5-179,5 72
179,5-189,5 90
189,5-199,5 100

Uma das questões pergunta, entre as alternativas abaixo, a opção que correspondente ao oitavo decil:

(a) 179,5 (b) 189,5 (c) 183,9 (d) 184,5 (e) 174,5

Histograma Frequências Acumuladas
Fig II-3

Percentil é um conceito comum em estatística, mas parece não ter uma definição universal. Uma das definições diz que o p-ésimo percentil (ou de ordem p) de uma amostra é um valor tal que p% dos elementos têm valores menores que ele e (100 − p)% têm valores maiores.

Percentis de ordem 25, 50 e 75 são denominados quartis e, mais especificamente, primeiro, segundo e terceiro quartis. Os símbolos usuais são Q1, Q2 e Q3 respectivamente.

Percentis de ordem 10, 20, 30 ... 90 são denominados decis e simbolizados por D1 (primeiro decil), D2 (segundo decil), etc.

Pode-se também dizer que um quartil equivale a 25 percentis e que um decil equivale a 10 percentis.

Voltando agora à questão, da Tabela II-2 pode-se notar que o oitavo decil (80%) deve estar na faixa 179,5 a 189,5 porque a anterior tem 72% acumulado e essa, 90%. Calculando a proporção,

(80 − 72) / (90 − 72) = 8 / 18 = 4 / 9. Aplicando à largura da faixa,

10 × 4 / 9 ≈ 4,44

Somando ao valor inicial da faixa, 179,5 + 4,44 ≈ 183,9. Resposta c.

• Uma outra questão sobre a mesma tabela: Assinale a opção que corresponde à estimativa, via interpolação da ogiva, do número de observações menores ou iguais ao valor 164.

(a) 46 b) 26 (c) 72 (d) 35 (e) 20

Essa questão é similar à anterior, mas a ordem dos cálculos é outra. O valor 164 está na faixa 159,5 a 169,5. Assim, a proporção em relação ao início da faixa é

(164 − 159,5) / (169,5 − 159,5) = 0,45.

A variação da frequência acumulada em relação à faixa anterior é 46 − 26 = 20. Multiplicando pela proporção, 0,45 × 20 = 9. Somando à frequência acumulada da faixa anterior,

26 + 9 = 35. Resposta d.

Distância ou amplitude interquartílica é a diferença entre o terceiro e o primeiro quartil. Portanto,

$$A_{iq} = Q_3 - Q_1 \tag{2A}$$

Exemplo 02: seja o conjunto de 20 observações:

Tabela II-3
1 108
2 126
3 132
4 195
5 296
6 354
7 407
8 409
9 526
10 634
11 689
12 710
13 857
14 1028
15 1140
16 1270
17 1320
18 1800
19 2347
20 2625

Uma regra comum para obter os quartis de um conjunto ordenado de dados é usar a mediana do total (ver Medidas de Localização) e, em seguida, as medianas das partes.

Calculando para os dados informados,

Q2 = (634 + 689) / 2 = 661,5

Q1 = (296 + 354) / 2 = 325

Q3 = (1140 + 1270) / 2 = 1205

Portanto, Aiq = 1205 − 325 = 880


Exemplo 03: sejam os dados agrupados em frequências acumuladas segundo a Tabela II-4. Calcular a amplitude interquartílica.

Tabela II-4
Classe Freq acumulada
2000 - 4000 18
4000 - 6000 63
6000 - 8000 165
8000 - 10000 308
10000 - 12000 359
12000 - 14000 400

Para o cálculo dos quartis, devem ser determinadas as frequências relativas acumuladas, através da relação percentual entre os valores das frequências acumuladas e o valor final 400. Esses valores são dados na Tabela II-5.

Tabela II-5
Classe Freq acumulada Freq rel acum %
2000 - 4000 18 4,5
4000 - 6000 63 15,75
6000 - 8000 165 41,25
8000 - 10000 308 77
10000 - 12000 359 89,75
12000 - 14000 400 100

O primeiro quartil deve estar na faixa 6000 a 8000 porque a frequência relativa passa de 15,75% a 41,25%. Portanto,

$$Q_1 = 6000 + (8000-6000) \frac{25 - 15,75}{41,25-15,75} \approx 6725,49$$

Usando procedimento similar para o terceiro quartil,

$$Q_1 = 8000 + (10000-8000) \frac{75 - 41,25}{77-41,25} \approx 9888,1$$

Portanto, Aiq = 9888,1 − 6725,49 ≈ 3162,61


No caso de distribuições contínuas, a amplitude interquartílica é calculada pela integração da função de densidade de probabilidades. A integração de −∞ até Q1 deve resultar 0,25 e a integração de Q3 até +∞ deve resultar 0,25. Para a Distribuição Normal Padrão, o valor calculado é Aiq ≈ 1,349.
Referências
APOSTOL, Tom M. Calculus. USA: Blaisdell, 1969.
GRINSTEAD, Charles M. SNELL, J. Laurie. Introduction to Probability.
NIST/SEMATECH e-Handbook of Statistical Methods. http://www.itl.nist.gov/div898/handbook/.

Topo | Rev: Fev/2018