Distribuição normal e Teorema Central do Limite

Há uma versão revisada neste link

A v.a. {X} tem distribuição normal com parâmetros {\mu} e {\sigma^2}, abreviado por {X\sim \mathrm{N}(\mu;\sigma^2)}, se sua função densidade de probabilidade é dada por

\displaystyle  f(x) = \frac 1{\sigma\sqrt{2\pi}}\mathrm{e}^{-\frac{(x-\mu)^2}{2\sigma^2}}, \quad -\infty < x < \infty

Propriedades da Normal:

  • {\mathop{\mathbb E}(X) = \mu} e {\mathrm{Var}(X) = \sigma^2};
  • {f(x) \rightarrow 0} quando {x\rightarrow \pm \infty};
  • {\mu} é ponto de máximo de {f (x)} e {\mu - \sigma} e {\mu + \sigma} são pontos de inflexão de {f(x)};
  • a curva é simétrica com relação a {x=\mu};
  • se {X\sim \mathrm{N}(\mu;\sigma^2)} então {aX+b \sim \mathrm{N}(a\mu+b;a^2\sigma^2)}, para {a,b\in{\mathbb R}}.

Para verificar a última propriedade listada acima, definimos {Y=aX+b} e temos

\displaystyle F_Y(x) = \mathop{\mathbb P}(Y\leq x) = \mathop{\mathbb P}(aX+b\leq x) = \mathop{\mathbb P}\left( X\leq \frac{x-b}a \right) = F_X\left( \frac{x-b}a \right)

se a>0, logo a densidade de {Y} é

\displaystyle F_y'(x) = \frac 1a F_X '\left( \frac{x-b}a \right) = \frac 1{a\sigma\sqrt{2\pi}}\mathrm{e}^{-\frac{((x-b)/a-\mu)^2}{2\sigma^2}} = \frac 1{a\sigma\sqrt{2\pi}}\mathrm{e}^{-\frac{(x-b-a\mu)^2}{2a^2\sigma^2}}

portanto {Y\sim \mathrm{N} (a\mu+b;a^2\sigma^2)}; caso a<0 a mesma conclusão vale (verifique).

Exercício 69 Prove essas propriedades.

O gráfico da densidade de duas normais com médias diferentes mas mesma variância é exibido a seguir


e se as médias são iguais mas variâncias distintas:

Usando R:

A densidade da normal, {f(x)}, com parâmetros {\mu=m} e {\sigma^2=s^2} pode ser calculada com {\mathtt{dnorm(x,m,s)}.}

Por exemplo

 
  x=seq(-4,4,length=200) 
  y=dnorm(x,0,1) 
  plot(x,y,type="l",col="red") 

desenha o gráfico da f.d.p. com média {0} e variância {1} no intervalo {(-4,4,)}:

Distribuição normal padrão {\mathrm{N}(0;1)}

O problema com o qual nos deparamos agora é que

\displaystyle  \mathop{\mathbb P}(a<X<b) = \int_a^b \frac 1{\sigma\sqrt{2\pi}}\mathrm{e}^{-\frac{(x-\mu)^2}{2\sigma^2}} \mathrm{d}x

não tem solução analítica. Entretanto, decorre da última propriedade da Normal listada acima que se {X\sim \mathrm{N}(\mu;\sigma^2)} então {Z\sim \mathrm{N}(0;1)} para

\displaystyle  Z= \frac{X-\mu}\sigma

portanto,

\displaystyle  = \mathop{\mathbb P} (a < X < b) = \mathop{\mathbb P} \left(\frac{a-\mu}{\sigma} < Z < \frac{b-\mu}{\sigma} \right)


e agora podemos usar uma tabela com a f.d.a. de {N(0;1)} para determinar a f.d.a. de {N(\mu;\sigma^2)} para quaisquer parâmetros {\mu} e {\sigma}. Ademais, é costume usar {\Phi(x)} para a f.d.a. de uma v.a. com distribuição normal padrão.

Distribuição normal padrão {\mathrm{N}(0;1)} – Tabela f.d.a.

Para {Z\sim \mathrm{N}(0;1)},

  • quanto é {\mathop{\mathbb P} (Z\leq 0,32)}?

    {\mathop{\mathbb P} (Z\leq 0,32)= 0,6255}

  • quanto é {\mathop{\mathbb P} (0<Z\leq 1,71)}?

    {\mathop{\mathbb P} (0<Z\leq 1,71) = \mathop{\mathbb P} (Z \leq 1,71) - \mathop{\mathbb P} ( Z<0) = 0,9564 - 0,5 = 0,4564}

  • quanto é {\mathop{\mathbb P} (0,32 \leq Z \leq 1,71)}?

    {\mathop{\mathbb P} (0,32 \leq Z \leq 1,71) = \mathop{\mathbb P} (Z \leq 1,71) - \mathop{\mathbb P} ( Z < 0,32 ) = 0,9564 - 0,6255 =0,3309}

  • quanto é {\mathop{\mathbb P} ( Z \leq - 1,71)}?

    {\mathop{\mathbb P} ( Z \leq - 1,71) = \mathop{\mathbb P}( Z \geq 1,71 ) = 1- \mathop{\mathbb P}( Z < 1,71) = 1- 0,9564 = 0,0436}

  • quanto é {\mathop{\mathbb P} ( -1,71 \leq Z \leq 1,71 )}?

    {\mathop{\mathbb P} ( -1,71 \leq Z \leq 1,71 ) = \mathop{\mathbb P}( Z \leq 1,71 ) - \mathop{\mathbb P}( Z < - 1,71) = 0,9564 - 0,0436 = 0,9128}

Ou seja, genericamente , se { Z\sim \textrm{N}(0;1)} então para {y\geq x \geq 0} reais temos

  • {\mathop{\mathbb P}(Z\leq x) = \Phi(x)}
  • {\mathop{\mathbb P}(y\leq Z\leq x) = \Phi(x) - \Phi(y)}
  • {\mathop{\mathbb P}(Z\leq -x) = \Phi(-x) =1 - \Phi(x)}
  • (intervalo central) {\mathop{\mathbb P}(-x\leq Z\leq x) = \Phi(x) - \Phi(-x) = 2\Phi(x)-1}

Usando R:

{\mathop{\mathbb P}(Z\leq x)} é calculado com {\mathtt{pnorm(x,0,1)}}.

{\mathop{\mathbb P} (Z\leq 0,32) =} pnorm(.32,0,1)

{\mathop{\mathbb P} (0<Z\leq 1,71) =} pnorm(1.71,0,1)-pnorm(0,0,1)

{\mathop{\mathbb P} (0,32 \leq Z \leq 1,71) =} pnorm(1.71,0,1)-pnorm(0.32,0,1)

{\mathop{\mathbb P} ( Z \leq - 1,71)= } pnorm(-1.71,0,1)

No caso {X\sim \mathrm{N}(m,s^2)}, {\mathop{\mathbb P}(X\leq x)} é calculado com {\mathtt{pnorm(x,m,s)}}.

Como encontrar o valor {z} da distribuição {\mathrm{N}(0;1)} tal que {\mathop{\mathbb P}(Z \leq z) = 0,975}?

\displaystyle z=1,96

e {z} tal que {\mathop{\mathbb P}(0< Z \leq z) = 0,4664}?

\displaystyle 0,5 + 0,4664 = 0,9664 \Longrightarrow z = 1,83

e {z} tal que {\mathop{\mathbb P}( Z \geq z) = 0,0228 }?

\displaystyle  1 - 0,0228 = 0,9772 \Longrightarrow z = 2

Exemplo 77 O tempo gasto no exame vestibular de uma universidade tem distribuição normal, com média 120 min e desvio padrão 15 min. Qual é a probabilidade com que um candidato termine o exame antes de 100 minutos?

Se {X} é o tempo gasto no exame vestibular, então {X \sim \mathrm{N}(120; 15^2)} logo

\displaystyle  \mathop{\mathbb P} ( X<100 ) = \mathop{\mathbb P} \left(Z \leq \frac{100-120}{15} \right) = \mathop{\mathbb P} ( Z\leq -1,33) = \\ 1 - \mathop{\mathbb P} ( Z < 1,33) = 1 - 0,9082 = 0,0918

Qual deve ser o tempo de prova de modo a permitir que 95% dos vestibulandos terminem no prazo estipulado?

Devemos encontrar {x} tal que {\mathop{\mathbb P}( X < x) = 0,95}, ou seja, tal que

\displaystyle \mathop{\mathbb P}\left( Z \leq \frac{x-120}{15}\right) = 0,95.

Pela tabela {\mathop{\mathbb P}( Z \leq 1,64 )= 0,95} portanto

\displaystyle  \frac{x-120}{15} = 1,64

ou seja {x=144,6} min.

Qual é o intervalo central de tempo, tal que 80% dos estudantes gastam para completar o exame?

\displaystyle  \mathop{\mathbb P}(a\leq X\leq b) =0,8 \Leftrightarrow \mathop{\mathbb P}\left(\frac{a-120}{15} \leq Z \leq \frac{b-120}{15} \right) =0,8

Pela tabela {\mathop{\mathbb P}( -1,28 \leq Z \leq 1,28 ) =0,80}, portanto {a=100,8} e {b=139,2} minutos.

Usando R:

No caso {X\sim \mathrm{N}(120,15^2)}, {\mathop{\mathbb P}(X\leq x)} é calculado com {\mathtt{pnorm(x,120,15)}}.

{\mathop{\mathbb P}(X<100) = }pnorm(100,120,15)

Exemplo 78 Um sistema considera que um sinal digital será transmitido quando a tensão exceder {0,9\,\mathrm{V}}. Na detecção do sinal o ruído tem distribuição {\mathrm{N}(0;0,45)}. Qual a probabilidade de detectar um sinal quando nada tiver sido enviado?

Se {R\sim \mathrm{N}(0;0,45)} é a tensão do ruído, então

\displaystyle  \mathop{\mathbb P}( R > 0,9) = \mathop{\mathbb P}\left( \frac{R}{0,45} > \frac{0,9}{0,45}\right) = \mathop{\mathbb P}(Z>2) = 1 - 0,97725 = 0,02275.

O intervalo central que inclui 99% de todas as leituras de ruído é dado por {x} tal que

\displaystyle  \mathop{\mathbb P}( -x < R < x) = \mathop{\mathbb P} \left( \frac{-x}{0,45} < \frac{R}{0,45} < \frac{x}{0,45} \right) = \\ \mathop{\mathbb P} \left( \frac{-x}{0,45} < Z < \frac{x}{0,45} \right) = 0,99 .

De acordo com a tabela, {x/0,45 = 2,58}, ou seja, {x=1,16.} Suponha que quando um sinal é transmitido a média dda v.a. {R} mude para {1,8\,\mathrm{V}}. Qual a probabilidade do sinal não ser detectado? Seja {S} a tensão quando um sinal é transmitido.

\displaystyle  \mathop{\mathbb P}( S<0,9) = \mathop{\mathbb P} \left( \frac{S-1,8}{0,45} < \frac{0,9-1,8}{0,45} \right) = \mathop{\mathbb P}(Z<-2) = 0,02275.

Essa é a probabilidade com que um sinal é perdido.

Usando R:

{\mathop{\mathbb P}(R > 0,9) = }1 – pnorm(0.9,0,.45)
{\mathop{\mathbb P}(S < 0,9) = }pnorm(0.9,1.8,.45)

Exercício 70 Prove que {X\sim \mathrm{N}(0;1)} tem média {0} e variância {1}. Deduze desse fato a média e a variância de {Y\sim \mathrm{N}(\mu;\sigma^2)}.

Concentração em torno do média

Notemos que se {k \in\mathbb{N}}, {X\sim \mathrm{N}(\mu;\sigma^2)} e {Z= (X-\mu)/\sigma \sim \mathrm{N}(0;1)} então

\displaystyle \mathop{\mathbb P}(\mu - k\sigma \leq X \leq \mu + k\sigma ) = \mathop{\mathbb P}( -k \leq Z \leq k)= \mathop{\mathbb P} (Z < k) - \mathop{\mathbb P}( Z < -k).

Para {k=1}

\displaystyle \mathop{\mathbb P}(\mu - \sigma \leq X \leq \mu + \sigma ) = \mathop{\mathbb P}( -1 \leq Z \leq 1) = 0,6826895.

Para {k=2}

\displaystyle \mathop{\mathbb P}(\mu - 2\sigma \leq X \leq \mu + 2\sigma ) = \mathop{\mathbb P}( -2 \leq Z \leq 2) = 0,9544997.

Para {k=3}

\displaystyle \mathop{\mathbb P}(\mu - 3\sigma \leq X \leq \mu + 3\sigma ) = \mathop{\mathbb P}( -3 \leq Z \leq 3) = 0,9973002.

Exercício 71 Compare os valores obtidos acima com os valores que se obtém a partir da desigualdade de Chebyshev (17).

— Teorema Central do Limite —

Vimos que se {X\sim \mathrm{N}(\mu;\sigma^2)} então {aX+b \sim \mathrm{N}(a\mu+b;a^2\sigma^2)}, para quaisquer {a,b\in{\mathbb R}}. De fato, vale uma afirmação mais geral:

Teorema 13 Se {X_i \sim \mathrm{N}(\mu_i;\sigma_i^2)}, para {i\in \{1,2,\dots,n\}}, são variáveis aleatórias independentes, então

\displaystyle  c_1X_1+c_2X_2+\cdots+c_nX_n \sim \mathrm{N}\big( c_1\mu_1+c_2\mu_2+\cdots+c_n\mu_n ; c_1^2\sigma_1^2+c_2^2\sigma_2^2+\cdots+c_n^2\sigma_n^2 \big)

para quaisquer {c_1,c_2,\dots,c_n\in {\mathbb R}}.

Corolario 14 Se {\overline X = \frac{\sum_i X_i}n} então

\displaystyle \overline X \sim \mathrm{N} \left( \frac{\sum_i \mu_i}n ; \frac{\sum_i {\sigma_i}^2}{n^2}\right).

Caso as variáveis tenham a mesma distribuição

\displaystyle \overline X \sim \mathrm{N} \left( \mu ; \frac{ {\sigma}^2}{n}\right).

Exemplo 79 Na fabricação de placas retangulares há pequenas perturbações de modo que o comprimento {C} de uma placa escolhida ao acaso tem distribuição {\mathrm{N}(2;0,1^2)} e a largura {L\sim \mathrm{N}(5;0,2^2)}; em centímetros. Qual a probabilidade do perímetro exceder 15 cm?

Se {Y} é a v.a. para o perímetro de uma placa escolhida ao acaso, então {Y=2C +2L} e pelo teorema acima {Y\sim \mathrm{N}(14;0,2)} logo

\displaystyle  \mathop{\mathbb P}(Y>15) = \mathop{\mathbb P} \left(\frac{Y-14}{\sqrt{0,2}} > \frac{15-14}{\sqrt{0,2}}\right) = \mathop{\mathbb P}(Z > 2,236)= 0,0129

Exemplo 80 O engarrafamento de um refrigerante de 300ml tem variações de modo que o volume do líquido numa garrafa é uma variável aleatória com distribuição {\mathrm{N}(300,25^2)}. Numa inspeção, 10 garrafas são selecionadas e o volume de cada garrafa, {V_1}, {V_2}, …, {V_{10}} é medido, de modo que se a média amostral

\displaystyle  \overline V = \frac{V_1+V_2+\dots+V_{10}}{10}

for menor que 290 (ml) então a engarrafadora é multada. Qual é a probabilidade de multa? {\overline V \sim \mathrm{N}(300; \frac{25^2}{10})} de modo que

\displaystyle  \mathop{\mathbb P} (\overline V < 290) = \mathop{\mathbb P}(Z < -1,26) = 0,1038

E se as v.a. {X_1,\dots,X_{10}} são independentes, com a mesma distribuição, mesma média, mesma variância mas a distribuição comum a elas não é normal?

Se {(S_n)_n} é uma sequência de v.a.s e {Y} v.a.

\displaystyle  S_n \xrightarrow[n\rightarrow \infty]{\mathcal{D}} Y

significa que

\displaystyle  \lim_{n\rightarrow\infty} \mathop{\mathbb P}( S_n \leq x ) = \mathop{\mathbb P}(Y \leq x)

de modo que podemos usar {Y} como modelo probabilístico aproximado para {S_n} e quanto maior {n} melhor é a aproximação.

Teorema 15 (Teorema Central do Limite (TCL)) Sejam {X_1,X_2,\dots,X_n} são variáveis aleatórias independentes e com a mesma distribuição, média {\mu} e variância {\sigma^2} finitas. Então

\displaystyle  \frac{(X_1+X_2+\cdots +X_n) - n\mu}{\sigma \sqrt{n}} \xrightarrow[n\rightarrow \infty]{\mathcal{D}} Z

em que {Z\sim \mathrm{N}(0;1)}.

Corolario 16 Se {\overline X = \frac {\sum_iX_i}n} então

\displaystyle  \frac{\overline X -\mu}{\frac{\sigma}{\sqrt{n}}} \xrightarrow[n\rightarrow\infty]{\mathcal{D}} Z \ \ \ \ \ (28)

em que {Z\sim \mathrm{N}(0;1)}. Ou, ainda, se {Y\sim \mathrm{N}\left(\mu; \frac{\sigma^2}{n} \right)}, então

\displaystyle  \overline X \xrightarrow[n\rightarrow\infty]{\mathcal{D}} Y. \ \ \ \ \ (29)

Se {X_1,X_2,\dots,X_n} são variáveis aleatórias independentes e com a mesma distribuição de uma v.a. X então as chamamos de amostra aleatória simples de X de tamanho {n} e { \overline X = \sum_i X_i/n} é a média amostral.

Exemplo 81 A média amostral de uma amostra aleatória simples com 40 observações independentes de uma v.a. {X\sim\mathrm{Uniforme}([4,6])} tem distribuição aproximada por {Y\sim \mathrm{N}(5;1/120)}

\displaystyle  \begin{array}{rcl}  \mathop{\mathbb P}(X<5)&=& P(Y < 5) = 0,5 \\ \mathop{\mathbb P}(X<4)=0 &\mathrm{e}& \mathop{\mathbb P}(Y < 4) = 0,03 \times 10^{-30} \end{array}

Exemplo 82 Lâmpadas produzidas numa fábrica têm vida útil em horas regida pela distribuição normal {\mathrm{N}(800;40^2)}. Qual a probabilidade de uma amostra aleatória simples de tamanho 16 ter vida útil média menor que 775 horas?

Vida útil média {\bar X \approx Y\sim \mathrm{N}(800;40^2/16)} (eq. (29)) portanto

\displaystyle  \mathop{\mathbb P}(\bar X < 775 ) \approx \mathop{\mathbb P}(Y < 775) = \mathop{\mathbb P}( Z < -2,5) = 0,0062

Exemplo 83 As chamadas telefônicas numa empresa têm duração em minutos que segue a distribuição exponencial com parâmetro 1/3. Numa amostra aleatória com 50 chamadas qual é a probabilidade da média amostral não ultrapassar 4mins ?

{X\sim \mathrm{Exp}(1/3)} tem média 3 e variância 9. Então

\displaystyle  \mathop{\mathbb P} (\bar X \leq 4 ) \approx \mathop{\mathbb P}(Z \leq 2,36 ) = 0,991.

Exemplo 84 (Aproximação para a Binomial) Sejam {X_1,\dots,X_n} v.a. independentes com distribuição {\mathrm{Bernoulli}(p)}. Então {X = X_1+\cdots+X_n \sim \mathrm{Binomial}(n,p)} e temos as aproximações

\displaystyle   X \approx Y\sim \mathrm{N}(np;np(1-p)) \ \ \ \ \ (30)

\displaystyle   \frac{X-np}{\sqrt{n p(1-p)}} \approx Z \sim \mathrm{N}(0;1) \ \ \ \ \ (31)

\displaystyle  \bar X \approx \bar Y\sim \mathrm{N}\left(p;\frac{p(1-p)}n\right) \ \ \ \ \ (32)

\displaystyle  \frac{\bar X - p}{\sqrt{\frac{p(1-p)}{n}}} \approx Z \sim \mathrm{N}\left(0;1\right) \ \ \ \ \ (33)

ademais

\displaystyle   \mathop{\mathbb P}(k\leq X\leq l) \approx \mathop{\mathbb P} \left( \frac{k-np}{\sqrt{n p(1-p)}} \leq Z\leq \frac{l-np}{\sqrt{n p(1-p)}}\right) \ \ \ \ \ (34)


Gráficos {\mathrm{Bi(10;0,5)}} por {\mathrm{N(10,\sqrt{2,5})}}

Por exemplo, se {X\sim \mathrm{Binomial}(225;0,2)} então por (34)

\displaystyle  \mathop{\mathbb P}(39\leq X\leq 48) \approx \mathop{\mathbb P} \left( -1 \leq Z\leq 0,5 \right) = 0,5328072  \ \ \ \ \ (35)

ainda

\displaystyle  \mathop{\mathbb P}(39\leq X\leq 48) =\sum_{j=39}^{48} \binom{225}j(0,2)^j(0,8)^{225-j} = 0,5852713.

Entretanto

\displaystyle  0.0417 = \mathop{\mathbb P}(X=39) \approx \mathop{\mathbb P}(-1\leq Z \leq -1) = 0

e aproximação seria melhor se fizéssemos

\displaystyle  \mathop{\mathbb P}(X=39) = \mathop{\mathbb P}(38,5 \leq X \leq 39,5) \approx \mathop{\mathbb P} \left( -1,083 \leq Z\leq -0,916 \right) = 0,0403

que chamamos de correção de continuidade, o que melhora a aproximação

\displaystyle  \mathop{\mathbb P}(k\leq X\leq l) \approx \mathop{\mathbb P} \left( \frac{k-0,5-np}{\sqrt{n p(1-p)}} \leq Z\leq \frac{l+0,5-np}{\sqrt{n p(1-p)}}\right) \ \ \ \ \ (36)

agora, com a mesma técnica temos uma aproximação melhor que (35)

\displaystyle  \mathop{\mathbb P}(39\leq X\leq 48) \approx \mathop{\mathbb P} \left( -1,083 \leq Z \leq 0,583 \right) = 0,5806491.

Exemplo 85 Um sistema tem 100 componentes cada um com confiabilidade de 90% (independentemente um do outro). O sistema funciona corretamente se {\geq}87 componentes estão funcionando. Qual a confiabilidade do sistema aproximadamente? Se {X} é a v.a. que denota o no. de componentes em funcionamento então {X\sim \mathrm{Binomial}(100;0,9)} e por (36)

\displaystyle  \mathop{\mathbb P}(X\geq 87) \approx \mathop{\mathbb P}(Z\geq -1,166) = 0,8781928

(o valor correto, de acordo com a distribuição binomial é 0,8761232)

Exemplo 86 Um teste tem 200 perguntas com 4 alternativas cada, das quais apenas uma é correta. Qual a probabilidade aproximada que o estudante acerte por chute entre 25 e 30 questões para 80 das 200 questões.

Seja {X\sim\mathrm{Binomial}(80,1/4)} o número de respostas certas. Por (36)

\displaystyle  \mathop{\mathbb P}(25\leq X\leq 30) \approx \mathop{\mathbb P} (1,16\leq Z\leq 2,71) = 0,1196602.

(o valor correto é 0,1192705)

Exemplo 87 (Estimação via aproximação à Binomial) (exemplo 64 revisitado)

Numa eleição, seja {p} a fração (desconhecida) da população que vota no candidato {D}. Para simplificar, assumimos que só há 2 repsotas possíves e um voto em {D} é ensaio de Bernoulli com parâmetro {p}.

Suponha que serão realizadas {n} entrevistas: {V_i \sim \mathrm{Bernoulli}(p)} é a v.a.~indicadora do {i}-ésimo voto ser para {D}, para {1\leq i \leq n}. Então

\displaystyle S_n = \sum_{i=1}^n V_i \sim \mathrm{Binomial}(n,p)

é o total de entrevistados a favor de {D}. Ademais, a razão {\frac{S_n}n} é uma estimativa (pontual) para {p}.

\displaystyle  \begin{array}{rcl}  S_n &=\textrm{ \'e o no.~de votos em D, } S_n \sim \mathrm{Binomial}(n,p)\\ {\bar p} &=& \frac{S_n}{n} \textrm{ \'e a propor\c c\~ao da amostra de votos em } D \approx \mathrm{N}\left(p;\frac{p(1-p)}{n}\right)\\ p &=& \textrm{ \'e a propor\c c\~ao desconhecida da popula\c c\~ao votos em }D \end{array}

Queremos {n} para uma estimativa com erro de 4 (estimativa intervalar) pontos percentuais com 95% de certeza (100% impossível. Por que?), i.e., queremos {n} tal que {|p-\bar p| \leq 0,04} com probabilidade {0,95}. (por quê existe tal {n}?)

Para {\varepsilon = 0,04}

\displaystyle  \begin{array}{rcl}  \mathop{\mathbb P} ( |p-\bar p| \leq \varepsilon ) &=& \mathop{\mathbb P} ( -\varepsilon \leq p-\bar p \leq \varepsilon ) \\ &=& \mathop{\mathbb P} \left( \frac{-\varepsilon}{\sqrt{p(1-p)/n}} \leq \frac{p-\bar p}{\sqrt{p(1-p)/n}} \leq \frac{\varepsilon}{\sqrt{p(1-p)/n}} \right)\\ &\approx& \mathop{\mathbb P} \left( \frac{-\varepsilon}{\sqrt{p(1-p)/n}} \leq Z \leq \frac{\varepsilon}{\sqrt{p(1-p)/n}} \right) \\ &=& \mathop{\mathbb P} \left( \frac{-\varepsilon\sqrt{n}}{\sqrt{p(1-p)}} \leq Z \leq \frac{\varepsilon\sqrt{n}}{\sqrt{p(1-p)}} \right) \\ &=& 2 \mathop{\mathbb P} \left( Z \leq \frac{\varepsilon\sqrt{n}}{\sqrt{p(1-p)}} \right) - 1 \end{array}

Para {\gamma =0,95}, queremos {z_\gamma} (da tabela normal padrão) tal que {2 \mathop{\mathbb P} \left( Z \leq z_\gamma \right) - 1 = \gamma} ou seja

\displaystyle  \mathop{\mathbb P} \left( Z \leq z_\gamma \right) = \frac{1+\gamma}2

Por exemplo, para {\gamma=0,95}, queremos {z_\gamma} tal que { \mathop{\mathbb P} \left( Z \leq z_\gamma \right) = 1,95/2}, donde tiramos {z_\gamma = 1,96}.

Descoberto tal {z_\gamma} precisamos escolher {n} de modo que

\displaystyle  \frac{\varepsilon\sqrt{n}}{\sqrt{p(1-p)}} = z_\gamma \textrm{ ou seja } n = \frac 1{\varepsilon^2} p(1-p)z_\gamma^2

Notemos que {p\in [0,1]}, portanto {p(1-p) \leq 1/4} logo

\displaystyle  \frac{\varepsilon\sqrt{n}}{\sqrt{4}} \leq \frac{\varepsilon\sqrt{n}}{\sqrt{p(1-p)}}

portanto é suficente termos {n} tal que

\displaystyle  \frac{\varepsilon\sqrt{n}}{\sqrt 4} = z_\gamma

ou seja

\displaystyle   n = \frac {z_\gamma^2}{4\varepsilon^2}. \ \ \ \ \ (37)

De volta com os valores {\varepsilon = 0,004} e {\gamma =0,95}, já sabemos que {z_{0,95} = 1,96} e por (37)

\displaystyle  n= \frac{1,96^2}{4\cdot {0,04}^2} = 600,25

Exemplo 88 No mesmo caso do exemplo anterior, para uma estimativa com erro de 3 pontos percentuais e 95% de grau de confiança

\displaystyle  n = \frac{1,96^2}{4\cdot {0,03}^2} = 1067,111.

Analogamente, {n} para uma estimativa com erro de 3 pontos percentuais com 99% de grau de confiança então {z_{0,99} = 2,57} e

\displaystyle  n = \frac{2,57^2}{4\cdot {0,03}^2} = 1834,69444.

Exemplo 89 (Intervalo de confiança) No exemplo acima provamos que

\displaystyle  \mathop{\mathbb P}\left( \bar p -1,96\sqrt{4/n} \leq p \leq \bar p +1,96 \sqrt{4/n}\right) = 0,95

e dizemos que { (\bar p -1,96\sqrt{4/n} \, ,\, \bar p +1,96 \sqrt{4/n})} é um intervalo de confiança para {p} com grau de confiança 95%. Notemos que {p} é um valor médio desconhecido e {\bar p} é uma variável aleatória, portanto o intervalo é aleatório.

No caso geral, para cada amostra aleatória simples queremos uma estimativa intervalar {(\bar X -\varepsilon\,,\,\bar X+\varepsilon)} para a média {\mu} da população (desconhecida), variância conhecida, e com grau de confiança {\gamma}.

\displaystyle  \begin{array}{rcl}  \gamma &=& \mathop{\mathbb P}(\bar X -\varepsilon \leq \mu \leq \bar X + \varepsilon )\\ &=& \mathop{\mathbb P}\left( - \frac{\varepsilon}{\sigma/\sqrt{n}} \leq \frac{\bar X -\mu}{\sigma/\sqrt{n}} \leq \frac{\varepsilon}{\sigma/\sqrt{n}}\right)\\ &\approx& \mathop{\mathbb P}\left( - \frac{\varepsilon}{\sigma/\sqrt{n}} \leq Z \leq \frac{\varepsilon}{\sigma/\sqrt{n}}\right)\\ \Rightarrow& n = \left( \frac {z_\gamma}{\varepsilon} \right)^2 \sigma^2 \end{array}

e a estimativa intervalar para {\mu} com grau de confiança 0,95 é

\displaystyle \left(\bar X - z_\gamma\frac{\sigma}{\sqrt{n}}\,,\, \bar X + z_\gamma\frac{\sigma }{\sqrt{n}}\right)

Pode ser interpretado assim: num número grande de amostras do mesmo tamanho, se obtivermos um intervalo com grau de confiança 0,95 para cada uma delas

então 95% desses intervalos contém o parâmetro {\mu}.

Exemplo 90 A renda per-capita domiciliar numa certa região tem desvio padrão 250 reais e média desconhecida. Se desejamos estimar a renda média da população com erro {50} reais e confiabilidade {\gamma =0,95} quantos domicílios deveremos consultar?

Já sabemos que {z_\gamma=1,96}, então

\displaystyle n= \left( \frac{z_\gamma}{\epsilon} \right)^2 \sigma^2 = \left( \frac{1,96}{50} \right)^2 250^2 = 96,04.

Exemplo 91 Um provedor de internet monitora o a duração da conexão dos clientes a fim de dimensionar os seus servidores. A média e a distribuição desse tempo são desconhecidos mas o desvio padrão é {\sqrt{50}} minutos. Numa amostra de 500 conexões o valor médio foi 25 minutos; o que podemos disser a respeito da média com grau de confiança {92\%}? Como o tamanho da amostra é razoavelmente grande, podemos usar o TCL e aproximar a distribuição por uma normal. Um intervalo de confiança para o tempo de conexão é

\displaystyle  \left(\overline X -z_\gamma \frac{\sigma}{\sqrt n},\overline X +z_\gamma \frac{\sigma}{\sqrt n}\right) = (24.45,25.55).

Em virtude do uso do TCL, o intervalo acima é com grau de confiança aproximadamente {0,92}.

Na prática não conhecemos {\sigma^2} e devemos substituí-lo por uma estimativa amostral, que pode ser

\displaystyle  S^2 = \frac 1{n-1}\sum (x_i - \bar X)^2

Exemplo 92 O tempo de reação de um remédio pode ser considerado como tendo distribuição normal. Num teste, 20 pacientes foram sorteados e os tempo anotados:

{2,9} {3,4} {3,5} {4,1} {4,6} {4,7} {4,5} {3,8} {5,3} {4,9}
{4,8} {5,7} {5,8} {5,0} {3,4} {5,9} {6,3} {4,6} {5,5} {6,2}

então, a variância amostral é {S^2 = 0,992079} e o intervalo a 95% é

\displaystyle \left(\bar x-z_{0,95}\sqrt{\frac{S^2}n},\bar x+z_{0,95}\sqrt{\frac{S^2}n}\right)=(4,278843\,,\,5,211157).

Deixe uma resposta

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s