Estatística descritiva: Organizar e descrever conjuntos de dados
Continuando com os estudos em estatística, estou compartilhando este estudo sobre estatística descritiva. O objetivo agora é facilitar o entendimento dos dados descrevendo tendências, médias e variações. Algumas características importantes a serem consideradas são o centro, a variabilidade (ou amplitude) e a forma. Algumas definições de acordo com Larson e Faber (2010) são:
A distribuição de frequência é
uma tabela que mostra classes ou intervalos das entradas de dados com uma
contagem do número de entradas em cada classe. A frequência f de uma classe é o
número de entrada de dados em uma classe.
O ponto médio de uma classe é a soma dos limites inferiores e superiores
da classe dividida por dois. O ponto médio é, às vezes, chamado de marca da
classe.
A frequência relativa de uma classe é a porção ou porcentagem de dados
que está em determinada classe. Para encontrar a frequência relativa de uma
classe, divida a frequência f pelo tamanho n da amostra.
A frequência acumulada de uma classe é a soma da frequência para aquela
classe e todas as anteriores. A frequência acumulada da última classe é igual
ao tamanho n da amostra.
Um histograma de frequência é um diagrama de barras que representa a
distribuição de frequência de um conjunto de dados. Possui as seguintes
características:
1 – A escala
horizontal é quantitativa e mede os valores dos dados.
2 – A escala
vertical mede as frequências das classes.
3 – A barras
consecutivas devem estar encostadas umas nas outras.
Por estarem encostadas umas nas
outras, as barras devem começar e terminar nas fronteiras da classe, ao invés
de em seus limites. As fronteiras das classes separam sem formar lacunas e a
escala horizontal pode ser marcada tanto no ponto médio quanto nas fronteiras
das classes.
Um histograma de frequência
relativa tem a mesma forma e a mesma escala horizontal do histograma de
frequência correspondente. A diferença é que a escala vertical mede as
frequências relativas e não as frequências.
Já um gráfico de frequência
acumulada ou ogiva é um gráfico de linhas que mostra as frequências acumuladas
de cada classe em sua fronteira da classe superior. As fronteiras superiores
são marcadas no eixo horizontal e as frequências acumuladas são marcadas no
eixo vertical.
Média, mediana e moda
Um
valor que representa a entrada típica ou central de um conjunto de dados é
chamado de medida da tendência central. As três medidas de tendência central
mais comuns são a média, a mediana e a moda.
A
média de um conjunto de dados é a soma das entradas de dados dividida pelo
número de entradas.
Mesmo sendo
uma medida confiável, pois leva em conta cada entrada dos dados, a média pode
ser muito afetada quando o conjunto de dados tem valores discrepantes.
A mediana de um conjunto de dados é um valor que está no meio dos dados
quando o conjunto de dados é ordenado. O centro de dados ordenado é obtido
dividindo-se o conjunto em duas partes iguais. Se o número de entradas do
conjunto for ímpar, então a mediana é a entrada do meio. Se o conjunto for par,
então a mediana é a média das duas entradas do meio.
A moda de um conjunto de dados é uma entrada do conjunto de dados que
ocorre com a maior frequência. Caso não existam entradas repetidas, o conjunto
não tem moda. Caso duas entradas ocorrerem com a mesma frequência, cada entrada
é uma moda e o conjunto é chamado bimodal.
Média ponderada
Uma média ponderada é a média de um conjunto de dados
cujas entradas têm pesos variados, ou seja, algumas entradas têm um efeito
maior na média do que outras.
Onde w é o peso de cada entrada x.
Medidas de variação
Existem diferentes maneiras de
medir a variação do conjunto de dados. A seguir temos algumas delas:
A amplitude de um conjunto de
dados é a diferença entre as entradas máximas e mínimas no conjunto. Para
encontrar a amplitude, os dados devem ser quantitativos.
Desvio, variância e desvio padrão
O
desvio de uma entrada x em uma população é a diferença entre a entrada e a
média do conjunto de dados.
Quando
fazemos a soma dos quadrados dos desvios, calculamos a quantidade chamada soma
dos quadrados. Em um conjunto de dados de uma população, a média dos quadrados
dos desvios é chamada de variância populacional.
Para um conjunto populacional de N entradas:
O
desvio padrão populacional de um conjunto de dados de N entradas é a raiz
quadrada da variância populacional:
No caso
de amostras, a variância e o desvio padrão amostrais para n amostras são dados
por:
Referências Bibliográficas
Larson, R. and Faber, B.
(2010). Estatística Aplicada, 4ª. ed. Pearson Hall, São Paulo - SP.

Comentários
Postar um comentário