Distribuição de Bernoulli
| Topo pág | Fim pág |
Segundo página
Probabilidades e estatística II-20, a função de probabilidade da distribuição binomial é
p(x) = P(X = x) = C(n, x) px q(n − x) #A.1#. Onde:
- x
- : número de sucessos.
- n
- : número de tentativas.
| C(n, x) = |
n! |
|
#A.2# (coeficiente binomial). |
| (n − x)! x! |
- p
- : probabilidade de sucesso.
- q
- : probabilidade de falha
q = 1 − p #A.3#.
Ou seja, ela indica a probabilidade de x sucessos em n tentativas, supondo cada uma com probabilidade de sucesso p e probabilidade de falha q.
A
distribuição de Bernoulli é a distribuição binomial com n = 1. Neste caso, x = 1 (sucesso) ou x = 0 (falha), ou seja, a variável aleatória X é tal que
P(X = 1) = p = 1 − P(X = 0) = 1 − q #B.1#. Então, a função de probabilidade é dada por:
p(x) = px (1 − p)1 − x para x = 0 ou x = 1.
p(x) = 0 nos demais casos
#C.1#.
A média e a variância podem ser obtidas da citada página, fazendo n = 1:
E(X) = p #D.1#.
Var(X) = p (1 − p) #D.2#.
Considera-se agora uma amostra
X1, X2, … , Xn de uma população com distribuição de Bernoulli de probabilidade de sucesso p. A
função de verossimilhança é dada por:
V(X1, X2, … , Xn | p) = ∏ p(Xi) = p(X1 + … + Xn) (1 − p)n − (X1 + … + Xn). Calculando o logaritmo,
ln V = (X1 + … + Xn) ln p + [ n − (X1 + … + Xn) ] ln (1 − p).
Para determinar o valor de p que maximiza ln V, a derivada em relação a p é igualada a zero:
∂ ln V / ∂ p = (X1 + … + Xn) / p − [ n − (X1 + … + Xn) ] / (1 − p) = 0.
Resolvendo para p, obtém-se o estimador:
| p^ = |
X1 + ... + Xn |
= X |
#E.1#. |
| n |
O resultado acima indica que a média da amostra
X é o estimador para o parâmetro p (probabilidade de sucesso) da população.
Intervalo de confiança para proporção de uma população
| Topo pág | Fim pág |
Sejam questões conforme exemplos abaixo:
• p é a probabilidade de peça boa de uma linha de produção (e, naturalmente, 1 − p é a de peça defeituosa).
• p é a probabilidade de um cidadão de determinado país ser favorável ao aumento de gastos do estado (e 1 − p, a probabilidade de ser contra).
Nos casos acima e em outros similares, pode-se considerar genericamente p a probabilidade de sucesso e 1 − p a probabilidade de falha. E, da definição de probabilidade, conclui-se facilmente que p é a proporção de sucessos na população em estudo. A questão agora é calcular, a partir de dados de uma amostra, um intervalo de confiança para essa proporção.
Considerando sucesso X = 1 e falha X = 0, pode-se supor a distribuição de Bernoulli conforme tópico anterior. E, de acordo com igualdade #E.1# do mesmo tópico, a média
X da amostra é o estimador da proporção p (esta, por sua vez, é a média da população conforme #D.1# do mesmo tópico).
Usam-se então os mesmos conceitos do tópico
Intervalo de confiança para média da página anterior, substituindo apenas o símbolo μ por p. E a fórmula é escrita
P( X − zα/2 σ / √n ≤ p ≤ X + zα/2 σ / √n ) = P( l1 ≤ p ≤ l2 )= 1 − α.
Ainda não há um valor para o desvio-padrão σ da população. Segundo #D.2# do tópico anterior,
Var(X) = p (1 − p) ou
σ = √[ p (1 − p) ].
Desde que a média
X é o estimador para p, pode-se usar
X no lugar de p na igualdade acima para estimar o desvio-padrão. E a igualdade do intervalo de confiança fica:
| P[ (X − zα/2 √ |
X(1 − X) |
) ≤ p ≤ (X + zα/2 |
X(1 − X) |
) ] = |
P( ℓ1 ≤ p ≤ ℓ2 ) |
= 1 − α |
#A.1#. |
| n |
n |
Onde:
- X
- : média da amostra.
- zα/2
- : valor de z da distribuição normal padrão para área à direita α/2.
- n
- : número de elementos da amostra.
- p
- : proporção da população (desconhecida e para a qual se deseja um intervalo de confiança).
- ℓ1
= X − zα/2 √[ X(1 − X) / n ] #B.1#: limite inferior do intervalo de confiança.
- ℓ2
= X + zα/2 √[ X(1 − X) / n ] #B.2#: limite superior do intervalo de confiança.
- 1 − α
- : coeficiente de confiança desejado (ex: um valor comum é 95% e, portanto, α = 0,05).
Exemplo 01: uma pesquisa em uma amostra de 100 pessoas da população de uma determinada região, sobre a preferência entre a cerveja de marca A e a cerveja de marca B, resultou em 60 pessoas a favor da marca A. Calcular o intervalo de confiança a 95% para essa proporção.
Solução: os seguintes dados são disponíveis:
n = 100.
X = [60 × 1 + 40 × 0] / 100 = 0,6.
1 − α = 0,95 ou α = 0,05.
Na
tabela desta página para a distribuição normal padrão, deve-se procurar, conforme comentado em página anterior, z para (0,5 − α/2) = 0,475 (isso ocorre porque a tabela dá a área de 0 a z e não à direita de z). O valor obtido é
z
α/2 = 1,96. E os limites são calculados conforme igualdades #B.1# e #B.2#
l
1 = 0,6 − 1,96 √ [0,6 (1 − 0,6) / 100] ≈ 0,504.
l
2 = 0,6 + 1,96 √ [0,6 (1 − 0,6) / 100] ≈ 0,696.
E o resultado é 0,504 ≤ p ≤ 0,696 com coeficiente de confiança de 95%. Em termos percentuais, pode-se dizer que a preferência pela marca A oscila entre 50,4% e 69,6% com esse nível de confiança.
Regra prática para tamanho da amostra
Das igualdades #B.1# e #B.2#, pode-se considerar que o erro da proporção é
e = zα/2 √[ X(1 − X) / n ] #C.1#.
Desde que
X é um estimador da probabilidade p, ele só pode variar de 0 a 1. Então, o maior valor de
X(1 − X) é 0,25, que ocorre para
X = 0,5.
Para o nível de confiança 95%, o valor de z
α/2 (que é aproximadamente 1,96) pode ser arredondado para 2. Substituindo esse valor e o anterior em #C.1#, o resultado é uma aproximação conservadora para o erro máximo em função do tamanho da amostra:
e ≈ 2 √( 0,25 / n ). Simplificando e reagrupando,
Alguns resultados numéricos:
n = 100 e = 0,1 (10%)
n = 1000 e ≈ 0,03 ( 3%)
n = 10000 e = 0,01 ( 1%)
Erros calculados dessa forma podem ser vistos em notícias sobre pesquisas de opinião, preferência eleitoral e similares.
Para uma população finita de tamanho N, deve ser aplicado ao erro um
fator de correção para população finita:
√[ (N − n) / (N − 1) ] #E.1#.
Assim,
e = (1 / √n) √[ (N − n) / (N − 1) ] #E.2#.
Supondo n
0 um tamanho inicial sem considerar a correção,
e = (1 / √n0) #E.3#.
Igualando #E.2# e #E.3# e resolvendo,
| n = |
n0 N |
|
#E.4#. |
| n0 + (N − 1) |
Em algumas referências, o valor (N − 1) é aproximado para N e a igualdade anterior é simplificada:
Notar que, se N >> n
0, n ≈ n
0. Observar também que o valor de n é menor que o de n
0 porque é o ajuste para uma população finita.
Exemplo: seja uma pesquisa com erro máximo esperado de 4%. Então,
0,04 = 1 / √n
0 ou n
0 = 625. Se a população considerada é de 500 pessoas, a amostra corrigida deve ter
n = 625 500 / (625 + 500) ≈ 278 pessoas.
Topo |
Índice do grupo |
Página anterior |
Próxima página |
Última revisão ou atualização: Abr/2008
Referências:
NIST/SEMATECH e-Handbook of Statistical Methods. http://www.itl.nist.gov/div898/handbook/.
|
WOLFRAM MATHWORLD. http://mathworld.wolfram.com/.
|