Entendendo os termos em Estatística
Iniciando meus estudos em Data Science
utilizando python, percebi a necessidade de estudar melhor a Estatística.
Acredito que seja algo comum para todos que estejam iniciando os estudos na
área. Sendo assim, resolvi realizar um resumo dos estudos para servir de
consulta posterior e para melhor entendimento dos conceitos envolvidos. Estou
compartilhando aqui pois acredito que pode ser útil para outras pessoas que também
estejam estudando este tema, seja a trabalho, pesquisa ou apenas curiosidade.
A estatística começou a ser utilizada para realização
de censos na antiga Babilônia, no Egito e, mais tarde, no Império Romano onde
os dados referentes a assuntos relacionados ao Estado, tais como nascimentos e
óbitos eram coletados. A palavra estatística é derivada da palavra latina “status”,
que significa “estado”. Portanto, a
Estatística é a ciência que coleta, organiza, analisa e interpreta dados para a
tomada de decisões. Os dados por sua vez, consistem em informações que vêm de
observações, contagens, medições ou respostas.
Existem dois tipos de conjuntos de dados utilizados
na estatística chamados de população e amostra. A população é uma coleção de
todos os resultados, respostas, medições ou contagens que são de interesse. A
amostra é um subgrupo de uma população. Os dados amostrais podem ser utilizados
para formar conclusões sobre populações desde que coletados usando um método
apropriado, por exemplo a seleção aleatória. Caso os dados não sejam coletados
de forma apropriada, eles não refletirão as informações da população e portanto
não terão valor.
Dois termos importantes no contexto deste estudo são
os parâmetros e estatísticas. Um parâmetro é a descrição numérica de uma
característica populacional, enquanto que uma estatística é a descrição
numérica de uma característica amostral.
O estudo da estatística pode ser dividido em duas
ramificações consideráveis: estatística descritiva e estatística inferencial. A
estatística descritiva é o ramo da estatística que envolve a organização, o
resumo e a representação dos dados. A estatística inferencial é o ramo da
estatística que envolve o uso de uma amostra para chegar a conclusões sobre uma
população. Uma de suas ferramentas básicas de estudo é a probabilidade.
Quando realizamos um estudo, os dados podem ser de dois
tipos: qualitativo e quantitativo. Os dados qualitativos consistem de
atributos, rótulos ou entradas não numéricas. Os dados quantitativos consistem
de medidas numéricas ou contagens. Outra característica de dados é o nível de
mensuração. Este nível determina quais cálculos estatísticos são significantes.
Os quatro níveis de medida, em ordem crescente, são nominal, ordinal,
intervalar e racional.
No nível nominal os dados são apenas qualitativos,
sendo categorizados por meio de nomes, rótulos ou qualidades. Não são
realizados cálculos matemáticos neste nível. Já no nível ordinal os dados podem
ser qualitativos ou quantitativos e são organizados em ordem ou posição, mas as
diferenças entre as entradas de dados não são significantes.
No nível de
mensuração intervalar os dados podem ser ordenados e pode-se calcular
diferenças significativas entre as entradas de dados. Um registro nulo
representa uma posição em uma escala; a entrada não é um zero inerente. Por
fim, no nível racional os dados são similares aos do nível intervalar com uma
propriedade a mais: um registro nulo é um zero inerente. Uma razão de dois
valores de dados pode ser formada de modo que um valor de dado possa ser
significativamente expresso como o múltiplo de outro.
Obs.: Um zero inerente é um
zero que significa “nada”. Um zero não inerente representa uma posição em uma
escala, por exemplo, a temperatura 0° na escala Celsius.
Dica: Para diferenciar os
dados dos níveis intervalar e racional, determine se a expressão “duas vezes
mais” tem algum sentido no contexto dos dados. Por exemplo, $2 é duas vezes
mais do que 1$, então estes dados estão no nível racional. Diferentemente, 2°C
não é duas vezes mais quente do que 1°C, então esses dados estão no nível
intervalar.
A coleta de dados
Existem várias formas de coletar dados. A seguir
apresento um resumo de 4 desses métodos.
Estudo observacional: nesta forma de coleta de dados, um
pesquisador observa e mede as características de interesse de parte de uma
população, mas sem mudar as condições existentes.
Realize um experimento: nesta modalidade é aplicado um tratamento
em uma parte da população e são realizadas observações das respostas. A outra
parte da população pode ser usada como grupo de controle, no qual nenhum tratamento
é aplicado. Por exemplo, em um experimento parte da população recebe um
determinado medicamento e parte dela recebe um placebo, um tratamento não
medicamentoso e que não causa danos, mas com aparência idêntica ao medicamento
real. São realizadas então comparações e estudos entre os resultados dos dois
grupos.
Simulações: são modelo matemáticos ou físicos para reproduzir as
condições de uma situação ou processo. Permitem o estudo de situações perigosas
ou impraticáveis na vida real, por exemplo, o uso de bonecos por fabricantes de
carros para simular batidas de veículos para estudar os efeitos em humanos.
Frequentemente este método leva à economia de tempo e dinheiro.
Levantamento ou pesquisa de mercado: é uma investigação de uma ou
mais características de uma população na maioria das vezes conduzidas com
pessoas por meio de perguntas feitas a elas. As formas mais comuns são
entrevistas, correio ou telefone. Neste método é importante planejar e escolher
bem as perguntas para evitar resultados tendenciosos.
O planejamento experimental
Para que os resultados tenham significado e sejam não
tendenciosos deve-se realizar o planejamento dos experimentos. Os três
elementos-chave de um bom experimento são controle, aleatorização e replicação.
No controle é importante observar por exemplo, uma
variável “confounding” que ocorre quando o pesquisador não pode diferenciar os
efeitos de diferentes fatores em uma variável. Outro fator, é o efeito placebo
que ocorre quando um sujeito reage de forma favorável a um placebo sendo que
não recebeu nenhum tratamento medicamentoso. Para minimizar o efeito placebo
pode-se utilizar a técnica cega. Nesta técnica, o sujeito não sabe se está
recebendo tratamento ou placebo. Pode-se ainda aplicar o double-blind, onde nem
o pesquisador nem o sujeito sabem se está sendo utilizado medicamento ou
placebo. O pesquisador é informado apenas depois que todos os dados foram
coletados.
A aleatorização é o processo de se designar sujeitos
aleatoriamente para diferentes grupos de tratamento. Aqui pode-se selecionar de
forma completamente aleatória ou dividir em grupos menores e dentro dos grupos
realizar a seleção entre placebo e medicamento de forma aleatória, por exemplo,
primeiramente dividir o grupo de estudos em faixas de idade, tais como, 30 a 39
anos, 40 a 49 anos e acima de 50 anos. Em seguida, selecionar aleatoriamente dentro
de cada grupo o subgrupo de controle e de tratamento.
Outro importante fator é o tamanho da amostra, para
que os resultados tenham validade é necessário aplicar a replicação, que é a
repetição de um experimento usando um grande número de sujeitos.
As técnicas de amostragem
Uma amostragem é uma contagem ou medição de parte da
população, sendo mais comumente usada em estudos estatísticos. Para que os
dados sejam ditos imparciais, o pesquisador deve ter certeza que a amostra
representa a população. Deve-se utilizar técnicas apropriadas para assegurar
que as inferências sobre a população sejam válidas. Mas mesmo utilizando os
melhores métodos de amostragem, pode ocorrer um erro de amostragem, que
consiste na diferença entre os resultados da amostra e da população. Em uma amostra aleatória, todos os membros de
uma população têm a mesma chance de serem selecionados. Uma amostra aleatória simples
é aquela na qual toda amostra possível de mesmo tamanho tem a mesma chance de
selecionada. Quando se está escolhendo os membros da amostra, deve-se decidir
se é aceitável ter o mesmo membro da população mais de uma vez. Se for
aceitável, o processo é dito com reposição.
A amostra estratificada é utilizada quando é
importante que uma amostra possua membros de cada segmento da população. De
acordo com o foco do estudo, membros de uma população são divididos em grupos,
chamados estratos, que compartilham características similares que podem ser
idade, sexo, grupo étnico ou preferência política.
A amostra por agrupamento é utilizada quando a
população está em subgrupos que ocorrem naturalmente, por exemplo, agrupar
membros da cidade de acordo com os códigos postais de cada região. Esses grupos
são chamados “clusters”. Ao utilizar este tipo de amostragem deve-se ter
cuidado para que todos os grupos possuam características similares.
Na amostragem sistemática é aquela na qual é
atribuído um número a cada membro da população. Os membros são então ordenados
de alguma maneira. Um número é selecionado de forma aleatória e, então, membros
da amostra são selecionados em intervalos regulares a partir do membro inicial.
(Por exemplo, cadav3° o 7° e o 20° membros são selecionados).
A amostragem por conveniência é aquela onde somente
os membros disponíveis da população são selecionados. Frequentemente este tipo
de amostragem leva a estudos tendenciosos e deve ser evitado.
Referências Bibliográficas
Larson, R. and Faber, B.
(2010). Estatística Aplicada, 4ª. ed. Pearson Hall, São Paulo - SP.

Comentários
Postar um comentário