Análise exploratória de dados
Ao trabalhar com dados o primeiro passo é conhecer bem
a base de dados existente, verificar a existência de relações entre as
variáveis. Para isso realiza-se uma análise exploratória dos dados. Segundo
Lauretto (2011) a finalidade da análise exploratória de dados é examinar os
dados antes de aplicar qualquer técnica estatística a fim de obter um
entendimento básico dos dados coletados e das relações existentes entre as
variáveis analisadas.
Quando
fazemos uma amostragem, coletamos diversas informações sobre o valor de
interesse juntamente com outras informações que ajudarão no entendimento das
características. Cada uma dessas características é denominada de variável. As
variáveis podem ser separadas em quantitativas, representadas por números ou
qualitativas, representadas por categorias.
Para variáveis qualitativas,
podemos fazer uma distinção entre dois tipos: variável qualitativa nominal,
para o qual não existe nenhuma ordenação nas possíveis realizações, e variável
qualitativa ordinal, para qual existe uma ordem para os resultados. No caso das
variáveis quantitativas, podemos ainda separá-las em discretas, quando assumem
apenas valores inteiros ou contínuas, quando assumem qualquer valor no
intervalo do números reais. A organização e utilização dos dados envolve três
etapas: entrada dos dados, execução da análise estatística e interpretação dos
resultados. (MAYER, 2019)
Em seguida, realiza-se as análises de cada variável de
interesse individualmente, ou seja, análise unidimensional. Para isso, de forma
geral, realiza-se a distribuição de frequências da variável e calcula-se as
medidas de posição, dispersão e quantis. Depois, realiza-se a análise
bidimensional dos dados, ou seja, associando duas ou mais variáveis para analisar
o comportamento conjunto. O objetivo é explorar relações e similaridades entre
as variáveis. Geralmente realizado por meio de gráficos de dispersão. (MORETTIN; BUSSAB, 2010)
Análise
Unidimensional
Ao estudar uma variável, o maior
interesse é conhecer o seu comportamento para se ter uma ideia global sobre elas,
ou seja, sua distribuição.
Tabela 1 - Frequências e porcentagens dos 36 empregados da seção de orçamentos
segundo o grau de instrução
Fonte: (MORETTIN; BUSSAB, 2010)
Uma medida
bastante útil é a proporção de cada variável em relação ao total, por
exemplo,18/36 = 0,5 dos empregados do setor de orçamentos possuem nível médio
de instrução. As proporções são muito úteis quando se deseja comparar os
resultados de duas pesquisas distintas, por exemplo comparando o grau de
instrução dos funcionários do setor de orçamentos com os da empresa toda.
Tabela 2 - Frequências e porcentagens dos 2000 empregados
da empresa segundo o grau de instrução
Fonte: (MORETTIN; BUSSAB, 2010)
Não
podemos comparar diretamente as frequências das variáveis das duas tabelas,
pois os totais são diferentes nos dois casos. Mas as colunas das porcentagens
são comparáveis porque reduzimos as frequências ao mesmo total, ou seja, 100.
No caso de variáveis contínuas, como seria comparar os salários dos
funcionários, seria necessário agrupar os dados em faixas salariais tomando
cuidado, pois com poucas classes, perde-se informação, e com um número grande
de classes, o objetivo de resumir os dados fica prejudicado. Mais informações podem ser encontradas na postagem: http://pensaengenheira.blogspot.com/2018/12/estatistica-descritiva-organizar-e.html
Análise Bidimensional
Nesta análise, estamos
interessados no comportamento conjunto de duas ou mais variáveis aleatórias,
sendo o principal objetivo explorar relações ou similaridades entre as colunas
ou, menos frequentemente, linhas. Quando consideramos duas variáveis ou dois
conjuntos de dados, podemos ter três situações:
1 Duas variáveis qualitativas: os dados são
resumidos em tabelas de dupla entrada, onde aparecem frequências absolutas ou
contagens de indivíduos que pertencem simultaneamente a categorias de uma e
outra variável.
2 Duas variáveis quantitativas: utiliza-se
mensurações e técnicas como gráficos de dispersão ou de quantis.
3 Uma variável qualitativa e uma quantitativa: em
geral analisa-se o que acontece com a variável quantitativa quando os dados são
categorizados de acordo com os diversos atributos da variável qualitativa.
Referências:
LAURETTO, Marcelo de Souza. Análise
Exploratória de Dados. Estatística Computacional, 2011. Disponível em: <
http://www.each.usp.br/lauretto/SIN5008_2011/aula01/aula1>
Acesso em: 05 mar. 2019.
MAYER, Fernando de
Pol. Análise exploratória de dados. Universidade Federal do Paraná.
Departamento de Estatística. Disponível em: < http://leg.ufpr.br/~fernandomayer/aulas/ce001e-2016-2/02_Analise_Exploratoria_de_Dados.html>.
Acesso em: 05 mar. 2019.
MORETTIN, Pedro
Alberto; BUSSAB, WILTON OLIVEIRA. Estatística básica. Editora Saraiva,
2010.

Comentários
Postar um comentário