Análise exploratória de dados


            Ao trabalhar com dados o primeiro passo é conhecer bem a base de dados existente, verificar a existência de relações entre as variáveis. Para isso realiza-se uma análise exploratória dos dados. Segundo Lauretto (2011) a finalidade da análise exploratória de dados é examinar os dados antes de aplicar qualquer técnica estatística a fim de obter um entendimento básico dos dados coletados e das relações existentes entre as variáveis analisadas.
            Quando fazemos uma amostragem, coletamos diversas informações sobre o valor de interesse juntamente com outras informações que ajudarão no entendimento das características. Cada uma dessas características é denominada de variável. As variáveis podem ser separadas em quantitativas, representadas por números ou qualitativas, representadas por categorias.
Para variáveis qualitativas, podemos fazer uma distinção entre dois tipos: variável qualitativa nominal, para o qual não existe nenhuma ordenação nas possíveis realizações, e variável qualitativa ordinal, para qual existe uma ordem para os resultados. No caso das variáveis quantitativas, podemos ainda separá-las em discretas, quando assumem apenas valores inteiros ou contínuas, quando assumem qualquer valor no intervalo do números reais. A organização e utilização dos dados envolve três etapas: entrada dos dados, execução da análise estatística e interpretação dos resultados. (MAYER, 2019)
          Em seguida, realiza-se as análises de cada variável de interesse individualmente, ou seja, análise unidimensional. Para isso, de forma geral, realiza-se a distribuição de frequências da variável e calcula-se as medidas de posição, dispersão e quantis. Depois, realiza-se a análise bidimensional dos dados, ou seja, associando duas ou mais variáveis para analisar o comportamento conjunto. O objetivo é explorar relações e similaridades entre as variáveis. Geralmente realizado por meio de gráficos de dispersão. (MORETTIN; BUSSAB, 2010)

Análise Unidimensional

Ao estudar uma variável, o maior interesse é conhecer o seu comportamento para se ter uma ideia global sobre elas, ou seja, sua distribuição.

Tabela 1 - Frequências e porcentagens dos 36 empregados da seção de orçamentos segundo o grau de instrução
Fonte: (MORETTIN; BUSSAB, 2010)

        Uma medida bastante útil é a proporção de cada variável em relação ao total, por exemplo,18/36 = 0,5 dos empregados do setor de orçamentos possuem nível médio de instrução. As proporções são muito úteis quando se deseja comparar os resultados de duas pesquisas distintas, por exemplo comparando o grau de instrução dos funcionários do setor de orçamentos com os da empresa toda. 

Tabela 2 - Frequências e porcentagens dos 2000 empregados da empresa segundo o grau de instrução
Fonte: (MORETTIN; BUSSAB, 2010)

         Não podemos comparar diretamente as frequências das variáveis das duas tabelas, pois os totais são diferentes nos dois casos. Mas as colunas das porcentagens são comparáveis porque reduzimos as frequências ao mesmo total, ou seja, 100. No caso de variáveis contínuas, como seria comparar os salários dos funcionários, seria necessário agrupar os dados em faixas salariais tomando cuidado, pois com poucas classes, perde-se informação, e com um número grande de classes, o objetivo de resumir os dados fica prejudicado. Mais informações podem ser encontradas na postagem: http://pensaengenheira.blogspot.com/2018/12/estatistica-descritiva-organizar-e.html

Análise Bidimensional

            Nesta análise, estamos interessados no comportamento conjunto de duas ou mais variáveis aleatórias, sendo o principal objetivo explorar relações ou similaridades entre as colunas ou, menos frequentemente, linhas. Quando consideramos duas variáveis ou dois conjuntos de dados, podemos ter três situações:

1   Duas variáveis qualitativas: os dados são resumidos em tabelas de dupla entrada, onde aparecem frequências absolutas ou contagens de indivíduos que pertencem simultaneamente a categorias de uma e outra variável.

2  Duas variáveis quantitativas: utiliza-se mensurações e técnicas como gráficos de dispersão ou de quantis.

3  Uma variável qualitativa e uma quantitativa: em geral analisa-se o que acontece com a variável quantitativa quando os dados são categorizados de acordo com os diversos atributos da variável qualitativa.


Referências:

LAURETTO, Marcelo de Souza. Análise Exploratória de Dados. Estatística Computacional, 2011. Disponível em: < http://www.each.usp.br/lauretto/SIN5008_2011/aula01/aula1> Acesso em: 05 mar. 2019.

MAYER, Fernando de Pol. Análise exploratória de dados. Universidade Federal do Paraná. Departamento de Estatística. Disponível em: < http://leg.ufpr.br/~fernandomayer/aulas/ce001e-2016-2/02_Analise_Exploratoria_de_Dados.html>. Acesso em: 05 mar. 2019.

MORETTIN, Pedro Alberto; BUSSAB, WILTON OLIVEIRA. Estatística básica. Editora Saraiva, 2010.

Comentários

Postagens mais visitadas deste blog

Como utilizar Tag Prefix WinCC Professional

TUTORIAL: Criando WinCC Tags a partir de documentos de texto utilizando script em Python

Utilizando interfaces, inversão de controle e injeção de dependências em programação - Um exemplo em C#