Estatística descritiva: Organizar e descrever conjuntos de dados

         
           Continuando com os estudos em estatística, estou compartilhando este estudo sobre estatística descritiva. O objetivo agora é facilitar o entendimento dos dados descrevendo tendências, médias e variações. Algumas características importantes a serem consideradas são o centro, a variabilidade (ou amplitude) e a forma. Algumas definições de acordo com Larson e Faber (2010) são:
         A distribuição de frequência é uma tabela que mostra classes ou intervalos das entradas de dados com uma contagem do número de entradas em cada classe. A frequência f de uma classe é o número de entrada de dados em uma classe.
O ponto médio de uma classe é a soma dos limites inferiores e superiores da classe dividida por dois. O ponto médio é, às vezes, chamado de marca da classe.
A frequência relativa de uma classe é a porção ou porcentagem de dados que está em determinada classe. Para encontrar a frequência relativa de uma classe, divida a frequência f pelo tamanho n da amostra.
A frequência acumulada de uma classe é a soma da frequência para aquela classe e todas as anteriores. A frequência acumulada da última classe é igual ao tamanho n da amostra.
Um histograma de frequência é um diagrama de barras que representa a distribuição de frequência de um conjunto de dados. Possui as seguintes características:
1 – A escala horizontal é quantitativa e mede os valores dos dados.
2 – A escala vertical mede as frequências das classes.
3 – A barras consecutivas devem estar encostadas umas nas outras.

            Por estarem encostadas umas nas outras, as barras devem começar e terminar nas fronteiras da classe, ao invés de em seus limites. As fronteiras das classes separam sem formar lacunas e a escala horizontal pode ser marcada tanto no ponto médio quanto nas fronteiras das classes.
          Um histograma de frequência relativa tem a mesma forma e a mesma escala horizontal do histograma de frequência correspondente. A diferença é que a escala vertical mede as frequências relativas e não as frequências.
       Já um gráfico de frequência acumulada ou ogiva é um gráfico de linhas que mostra as frequências acumuladas de cada classe em sua fronteira da classe superior. As fronteiras superiores são marcadas no eixo horizontal e as frequências acumuladas são marcadas no eixo vertical.

Média, mediana e moda


                Um valor que representa a entrada típica ou central de um conjunto de dados é chamado de medida da tendência central. As três medidas de tendência central mais comuns são a média, a mediana e a moda.
                A média de um conjunto de dados é a soma das entradas de dados dividida pelo número de entradas.

               
Mesmo sendo uma medida confiável, pois leva em conta cada entrada dos dados, a média pode ser muito afetada quando o conjunto de dados tem valores discrepantes.
A mediana de um conjunto de dados é um valor que está no meio dos dados quando o conjunto de dados é ordenado. O centro de dados ordenado é obtido dividindo-se o conjunto em duas partes iguais. Se o número de entradas do conjunto for ímpar, então a mediana é a entrada do meio. Se o conjunto for par, então a mediana é a média das duas entradas do meio.
A moda de um conjunto de dados é uma entrada do conjunto de dados que ocorre com a maior frequência. Caso não existam entradas repetidas, o conjunto não tem moda. Caso duas entradas ocorrerem com a mesma frequência, cada entrada é uma moda e o conjunto é chamado bimodal.

Média ponderada


                Uma média ponderada é a média de um conjunto de dados cujas entradas têm pesos variados, ou seja, algumas entradas têm um efeito maior na média do que outras.


Onde w é o peso de cada entrada x.

Medidas de variação


                Existem diferentes maneiras de medir a variação do conjunto de dados. A seguir temos algumas delas:
                A amplitude de um conjunto de dados é a diferença entre as entradas máximas e mínimas no conjunto. Para encontrar a amplitude, os dados devem ser quantitativos.


Desvio, variância e desvio padrão


                O desvio de uma entrada x em uma população é a diferença entre a entrada e a média do conjunto de dados.
                Quando fazemos a soma dos quadrados dos desvios, calculamos a quantidade chamada soma dos quadrados. Em um conjunto de dados de uma população, a média dos quadrados dos desvios é chamada de variância populacional.
Para um conjunto populacional de N entradas:
                O desvio padrão populacional de um conjunto de dados de N entradas é a raiz quadrada da variância populacional:
                No caso de amostras, a variância e o desvio padrão amostrais para n amostras são dados por:





Referências Bibliográficas


Larson, R. and Faber, B. (2010). Estatística Aplicada, 4ª. ed. Pearson Hall, São Paulo - SP.

Comentários

Postagens mais visitadas deste blog

Como utilizar Tag Prefix WinCC Professional

TUTORIAL: Criando WinCC Tags a partir de documentos de texto utilizando script em Python

Utilizando interfaces, inversão de controle e injeção de dependências em programação - Um exemplo em C#