Anotações & Informações | Fim pág | Voltar |


Probabilidades e Estatística III-64

| Índice do grupo | Página anterior | Próxima página |

Tópicos: Distribuição de Bernoulli | Intervalo de confiança para Proporção de uma População |


1) Distribuição de Bernoulli

(Topo | Fim pág)

Segundo página Probabilidades e Estatística II-20, a função de probabilidade da distribuição binomial é dada por:

$$p(x) = P(X = x) = C(n,x)\ p^x q^{n-x} \tag{1A}$$

Onde x = número de sucessos; n = número de tentativas; C(n,x) = n! / [(n-x)! x!] (coeficiente binomial); p = probabilidade de sucesso; q = 1 − p (probabilidade de falha).

Ela indica a probabilidade de x sucessos em n tentativas, supondo cada uma com probabilidade de sucesso p e probabilidade de falha q. A Distribuição de Bernoulli é a distribuição binomial com n = 1. Nesse caso, x = 1 (sucesso) ou x = 0 (falha), ou seja, a variável aleatória X é tal que:

$$P(X=1) = p = 1 - P(X=0) = 1 - q \tag{1B}$$

Então, a função de probabilidade, válida apenas para x = 0 ou x = 1, é dada por:

$$p(x) = p^x (1-p)^{1-x} \tag{1C}$$
A média e a variância podem ser obtidas da citada página, fazendo n = 1:

$$E(X) = p \\ \text{Var}(X) = p (1-p) \tag{1D}$$
Considera-se agora uma amostra {X1···Xn} de uma população com distribuição de Bernoulli de probabilidade de sucesso p. A Função de Verossimilhança é dada por:

$$V(X_1 \cdots X_n\ |\ p) = \prod p(X_i) = p^{X_1 + \cdots + X_n} (1-p)^{n - (X_1 + \cdots + X_n)} \tag{1E}$$

Determinando o logaritmo,

$$\ln V = (X_1 + \cdots + X_n) \ln p + [n - (X_1 + \cdots + X_n) ] \ln (1-p) \tag{1F}$$

Para encontrar o valor de p que maximiza ln V, a derivada em relação a p é igualada a zero:

$$\frac{\partial \ln V}{\partial p} = \frac{X_1 + \cdots + X_n}{p} - \frac{n - (X_1 + \cdots + X_n)}{1-p} = 0 \tag{1G}$$

Resolvendo para p, obtém-se o estimador:

$$\hat p = \frac{X_1 + \cdots + X_n}{n} = \overline X \tag{1H}$$
Esse resultado indica que a média da amostra é o estimador para o parâmetro p (probabilidade de sucesso) da população.


2) Intervalo de confiança para Proporção de uma População

(Topo | Fim pág)

Sejam questões conforme exemplos abaixo:

• p é a probabilidade de uma linha de produção gerar peças sem defeitos (portanto, 1 − p é a de peças defeituosas).
• p é a probabilidade de uma pessoa não acreditar em uma entidade imaginária denominada Deus (portanto, 1 − p é a probabilidade de acreditar).
• p é a probabilidade de um cidadão ser favorável à redução de gastos do estado (portanto, 1 − p é a probabilidade de ser contra).

Nesses casos acima e em outros similares, pode-se considerar genericamente p a probabilidade de sucesso e 1 − p a probabilidade de falha. E, da definição de probabilidade, conclui-se que p é a proporção de sucessos na população em estudo. Deseja-se calcular, a partir de dados de uma amostra, um intervalo de confiança para essa proporção.

Considerando sucesso X = 1 e falha X = 0, pode-se supor a distribuição de Bernoulli conforme tópico anterior. E, de acordo com igualdade (1H), a média da amostra é o estimador da proporção p, que, por sua vez, é a média da população conforme (1D) do mesmo tópico. Aplicam-se os conceitos dados em Intervalo de Confiança para Média da página anterior, substituindo o símbolo μ por p:

$$P \left( \overline X - \frac{z_{\alpha/2}\ \sigma}{\sqrt n} \leq p \leq \overline X + \frac{z_{\alpha/2}\ \sigma}{\sqrt n} \right) = P(\ell_1 \leq p \leq \ell_2) = 1 - \alpha \tag{2A}$$

O desvio-padrão da população é a raiz quadrada da variância, indicada em (1D) do tópico anterior. Considera-se também a substituição de p por seu estimador dado em (1H):

$$\sigma = \sqrt{p(1-p)} = \sqrt{\overline X(1-\overline X)} \tag{2B}$$
Substituindo em (2A),

$$P \left( \overline X - z_{\alpha/2} \sqrt{ \frac{\overline X(1-\overline X)}{n} } \leq p \leq \overline X + z_{\alpha/2} \sqrt{ \frac{\overline X(1-\overline X)}{n} } \right) = P(\ell_1 \leq p \leq \ell_2) = 1 - \alpha \tag{2C}$$

Resumindo os parâmetros em forma de tabela,

$\overline X$ média da amostra
zα/2 valor de z da distribuição normal padrão para área à direita α/2
n número de elementos da amostra
p proporção da população (desconhecida e para a qual se deseja um intervalo de confiança)
1 limite inferior do intervalo de confiança
2 limite superior do intervalo de confiança
1 − α coeficiente de confiança desejado (ex: um valor comum é 95% e, portanto, α = 0,05)

Exemplo II-1: uma pesquisa em uma amostra de 100 pessoas da população de uma determinada região, sobre a preferência entre a cerveja de marca A e a cerveja de marca B, resultou em 60 pessoas a favor da marca A. Calcular o intervalo de confiança a 95% para essa proporção.

Solução: os seguintes dados são disponíveis:

n = 100
$\overline X$ = [60 × 1 + 40 × 0] / 100 = 0,6
1 − α = 0,95 ou α = 0,05

Na Tabela desta Página para a distribuição normal padrão, deve-se procurar, conforme comentado em página anterior, z para (0,5 − α/2) = 0,475 (isso ocorre porque a tabela dá a área de 0 a z e não à direita de z). O valor obtido é:

zα/2 = 1,96. E os limites são calculados conforme (2C):

1 = 0,6 − 1,96 √ [0,6 (1 − 0,6) / 100] ≈ 0,504

2 = 0,6 + 1,96 √ [0,6 (1 − 0,6) / 100] ≈ 0,696

O resultado é 0,504 ≤ p ≤ 0,696 com coeficiente de confiança de 95%. Em termos percentuais, pode-se dizer que a preferência pela marca A oscila entre 50,4% e 69,6% com esse nível de confiança.

Regra Prática para Tamanho da Amostra

De (2C), conclui-se que o erro da proporção em relação à média é:

$$e = z_{\alpha/2} \sqrt{ \frac{\overline X(1-\overline X)}{n} } \tag{2D}$$
Desde que $\overline X$ é um estimador da probabilidade p, ele só pode variar de 0 a 1. Então, o maior valor de $\overline X(1 - \overline X)$ é 0,25, que ocorre para $\overline X = 0,5$. Para o nível de confiança 95%, o valor de zα/2 (que é aproximadamente 1,96) pode ser arredondado para 2. Substituindo esse valor e o anterior em (2D), o resultado é uma aproximação conservadora para o erro máximo em função do tamanho da amostra $e \approx 2 \sqrt{0,25/n}$. Simplificando e reagrupando,

$$n \approx \frac{1}{e^2} \tag{2E}$$
Alguns resultados numéricos:

n = 100 e = 0,1 (10%)
n = 1000 e ≈ 0,03 ( 3%)
n = 10000 e = 0,01 ( 1%)

Erros calculados dessa forma podem ser vistos em notícias sobre pesquisas de opinião, preferência eleitoral e similares.

Fator de Correção para População Finita

Para uma população finita de tamanho N, o erro anterior deve ser multiplicado por um fator:

$$e = \frac{1}{\sqrt n} \sqrt{\frac{N-n}{N-1}} \tag{2F}$$
Seja n0 um tamanho inicial, sem considerar a correção:

$$e = \frac{1}{\sqrt n_0} \tag{2G}$$
Igualando as relações e resolvendo,

$$n = \frac{n_0 N}{n_0 + (N-1)} \tag{2H}$$
Em algumas referências, o valor (N − 1) é aproximado para N e a igualdade é simplificada:

$$n = \frac{n_0 N}{n_0 + N} \tag{2I}$$
Nota-se que, se N >> n0, n ≈ n0. Observa-se também que o valor de n é menor que o de n0 porque é o ajuste para uma população finita.

Exemplo II-2: seja uma pesquisa com erro máximo esperado de 4%. Então, $0,04 = 1\big/\sqrt n_0$ ou n0 = 625. Se a população considerada é de 500 pessoas, a amostra corrigida deve ter:

n = 625 500 / (625 + 500) ≈ 278 pessoas.
Referências
APOSTOL, Tom M. Calculus. USA: Blaisdell, 1969.
GRINSTEAD, Charles M. SNELL, J. Laurie. Introduction to Probability.
NIST/SEMATECH e-Handbook of Statistical Methods. http://www.itl.nist.gov/div898/handbook/.
VYGODSKY, M. Mathematical Handbook. Moscow: Mir Publishers, 1971.

Topo | Rev: Mar/2018