Entendendo os termos em Estatística

               Iniciando meus estudos em Data Science utilizando python, percebi a necessidade de estudar melhor a Estatística. Acredito que seja algo comum para todos que estejam iniciando os estudos na área. Sendo assim, resolvi realizar um resumo dos estudos para servir de consulta posterior e para melhor entendimento dos conceitos envolvidos. Estou compartilhando aqui pois acredito que pode ser útil para outras pessoas que também estejam estudando este tema, seja a trabalho, pesquisa ou apenas curiosidade.

                A estatística começou a ser utilizada para realização de censos na antiga Babilônia, no Egito e, mais tarde, no Império Romano onde os dados referentes a assuntos relacionados ao Estado, tais como nascimentos e óbitos eram coletados. A palavra estatística é derivada da palavra latina “status”, que significa “estado”.  Portanto, a Estatística é a ciência que coleta, organiza, analisa e interpreta dados para a tomada de decisões. Os dados por sua vez, consistem em informações que vêm de observações, contagens, medições ou respostas.
                Existem dois tipos de conjuntos de dados utilizados na estatística chamados de população e amostra. A população é uma coleção de todos os resultados, respostas, medições ou contagens que são de interesse. A amostra é um subgrupo de uma população. Os dados amostrais podem ser utilizados para formar conclusões sobre populações desde que coletados usando um método apropriado, por exemplo a seleção aleatória. Caso os dados não sejam coletados de forma apropriada, eles não refletirão as informações da população e portanto não terão valor.
          Dois termos importantes no contexto deste estudo são os parâmetros e estatísticas. Um parâmetro é a descrição numérica de uma característica populacional, enquanto que uma estatística é a descrição numérica de uma característica amostral.
           O estudo da estatística pode ser dividido em duas ramificações consideráveis: estatística descritiva e estatística inferencial. A estatística descritiva é o ramo da estatística que envolve a organização, o resumo e a representação dos dados. A estatística inferencial é o ramo da estatística que envolve o uso de uma amostra para chegar a conclusões sobre uma população. Uma de suas ferramentas básicas de estudo é a probabilidade.
                Quando realizamos um estudo, os dados podem ser de dois tipos: qualitativo e quantitativo. Os dados qualitativos consistem de atributos, rótulos ou entradas não numéricas. Os dados quantitativos consistem de medidas numéricas ou contagens. Outra característica de dados é o nível de mensuração. Este nível determina quais cálculos estatísticos são significantes. Os quatro níveis de medida, em ordem crescente, são nominal, ordinal, intervalar e racional.
               No nível nominal os dados são apenas qualitativos, sendo categorizados por meio de nomes, rótulos ou qualidades. Não são realizados cálculos matemáticos neste nível. Já no nível ordinal os dados podem ser qualitativos ou quantitativos e são organizados em ordem ou posição, mas as diferenças entre as entradas de dados não são significantes. 
           No nível de mensuração intervalar os dados podem ser ordenados e pode-se calcular diferenças significativas entre as entradas de dados. Um registro nulo representa uma posição em uma escala; a entrada não é um zero inerente. Por fim, no nível racional os dados são similares aos do nível intervalar com uma propriedade a mais: um registro nulo é um zero inerente. Uma razão de dois valores de dados pode ser formada de modo que um valor de dado possa ser significativamente expresso como o múltiplo de outro.
Obs.: Um zero inerente é um zero que significa “nada”. Um zero não inerente representa uma posição em uma escala, por exemplo, a temperatura 0° na escala Celsius.
Dica: Para diferenciar os dados dos níveis intervalar e racional, determine se a expressão “duas vezes mais” tem algum sentido no contexto dos dados. Por exemplo, $2 é duas vezes mais do que 1$, então estes dados estão no nível racional. Diferentemente, 2°C não é duas vezes mais quente do que 1°C, então esses dados estão no nível intervalar.

A coleta de dados


               Existem várias formas de coletar dados. A seguir apresento um resumo de 4 desses métodos.

Estudo observacional: nesta forma de coleta de dados, um pesquisador observa e mede as características de interesse de parte de uma população, mas sem mudar as condições existentes.

Realize um experimento: nesta modalidade é aplicado um tratamento em uma parte da população e são realizadas observações das respostas. A outra parte da população pode ser usada como grupo de controle, no qual nenhum tratamento é aplicado. Por exemplo, em um experimento parte da população recebe um determinado medicamento e parte dela recebe um placebo, um tratamento não medicamentoso e que não causa danos, mas com aparência idêntica ao medicamento real. São realizadas então comparações e estudos entre os resultados dos dois grupos.

Simulações: são modelo matemáticos ou físicos para reproduzir as condições de uma situação ou processo. Permitem o estudo de situações perigosas ou impraticáveis na vida real, por exemplo, o uso de bonecos por fabricantes de carros para simular batidas de veículos para estudar os efeitos em humanos. Frequentemente este método leva à economia de tempo e dinheiro.

Levantamento ou pesquisa de mercado: é uma investigação de uma ou mais características de uma população na maioria das vezes conduzidas com pessoas por meio de perguntas feitas a elas. As formas mais comuns são entrevistas, correio ou telefone. Neste método é importante planejar e escolher bem as perguntas para evitar resultados tendenciosos.

O planejamento experimental


                Para que os resultados tenham significado e sejam não tendenciosos deve-se realizar o planejamento dos experimentos. Os três elementos-chave de um bom experimento são controle, aleatorização e replicação.
                No controle é importante observar por exemplo, uma variável “confounding” que ocorre quando o pesquisador não pode diferenciar os efeitos de diferentes fatores em uma variável. Outro fator, é o efeito placebo que ocorre quando um sujeito reage de forma favorável a um placebo sendo que não recebeu nenhum tratamento medicamentoso. Para minimizar o efeito placebo pode-se utilizar a técnica cega. Nesta técnica, o sujeito não sabe se está recebendo tratamento ou placebo. Pode-se ainda aplicar o double-blind, onde nem o pesquisador nem o sujeito sabem se está sendo utilizado medicamento ou placebo. O pesquisador é informado apenas depois que todos os dados foram coletados.
                A aleatorização é o processo de se designar sujeitos aleatoriamente para diferentes grupos de tratamento. Aqui pode-se selecionar de forma completamente aleatória ou dividir em grupos menores e dentro dos grupos realizar a seleção entre placebo e medicamento de forma aleatória, por exemplo, primeiramente dividir o grupo de estudos em faixas de idade, tais como, 30 a 39 anos, 40 a 49 anos e acima de 50 anos. Em seguida, selecionar aleatoriamente dentro de cada grupo o subgrupo de controle e de tratamento.
                Outro importante fator é o tamanho da amostra, para que os resultados tenham validade é necessário aplicar a replicação, que é a repetição de um experimento usando um grande número de sujeitos.

As técnicas de amostragem


                Uma amostragem é uma contagem ou medição de parte da população, sendo mais comumente usada em estudos estatísticos. Para que os dados sejam ditos imparciais, o pesquisador deve ter certeza que a amostra representa a população. Deve-se utilizar técnicas apropriadas para assegurar que as inferências sobre a população sejam válidas. Mas mesmo utilizando os melhores métodos de amostragem, pode ocorrer um erro de amostragem, que consiste na diferença entre os resultados da amostra e da população.  Em uma amostra aleatória, todos os membros de uma população têm a mesma chance de serem selecionados. Uma amostra aleatória simples é aquela na qual toda amostra possível de mesmo tamanho tem a mesma chance de selecionada. Quando se está escolhendo os membros da amostra, deve-se decidir se é aceitável ter o mesmo membro da população mais de uma vez. Se for aceitável, o processo é dito com reposição.
                A amostra estratificada é utilizada quando é importante que uma amostra possua membros de cada segmento da população. De acordo com o foco do estudo, membros de uma população são divididos em grupos, chamados estratos, que compartilham características similares que podem ser idade, sexo, grupo étnico ou preferência política.
                A amostra por agrupamento é utilizada quando a população está em subgrupos que ocorrem naturalmente, por exemplo, agrupar membros da cidade de acordo com os códigos postais de cada região. Esses grupos são chamados “clusters”. Ao utilizar este tipo de amostragem deve-se ter cuidado para que todos os grupos possuam características similares.
         Na amostragem sistemática é aquela na qual é atribuído um número a cada membro da população. Os membros são então ordenados de alguma maneira. Um número é selecionado de forma aleatória e, então, membros da amostra são selecionados em intervalos regulares a partir do membro inicial. (Por exemplo, cadav3° o 7° e o 20° membros são selecionados).
            A amostragem por conveniência é aquela onde somente os membros disponíveis da população são selecionados. Frequentemente este tipo de amostragem leva a estudos tendenciosos e deve ser evitado.

Referências Bibliográficas


Larson, R. and Faber, B. (2010). Estatística Aplicada, 4ª. ed. Pearson Hall, São Paulo - SP.

Comentários

Postagens mais visitadas deste blog

Como utilizar Tag Prefix WinCC Professional

TUTORIAL: Criando WinCC Tags a partir de documentos de texto utilizando script em Python

Utilizando interfaces, inversão de controle e injeção de dependências em programação - Um exemplo em C#