Qual a diferença entre Big Data e Data Science?


À primeira vista, ambos parecem sinônimos, pois possuem a palavra “data” no nome, mas são bastante distintos. Neste post, tento deixar clara a diferença. Prontos? Vamos lá! O termo Big Data se refere a um grande volume de dados que não podem ser processados efetivamente pelos métodos tradicionais de processamento e que portanto possuem as próprias tecnologias para tratar esses dados. Alguns definem o Big Data como uma quantidade de dados que não podem ser armazenados na memória de um único computador, mas essa não é uma definição única e definitiva.
          De acordo com a empresa de consultoria Gartner, em uma tradução livre, o Big Data é: “Grande volume de dados, gerados em alta velocidade e variedade, que necessitam de formas inovadoras e econômicas para processá-los, organizá-los e armazená-los, a fim de se permitir melhor compreensão para a tomada de decisão e automação de processos.” (GARTNER, 2018)
             O Big Data ganhou força com o maior uso da internet, pois hoje, toda navegação e transação na internet gera dados que são armazenados. O Google por exemplo, em 2013, processava diariamente 24 petabytes de dados. (JOHN WALKER, 2014). Junto a isso, com o desenvolvimento do armazenamento em nuvem, os custos de manter dados foi bastante reduzido.
Já o termo Data Science se refere, de forma geral, à junção de três pilares: big data, inteligência artificial e estatística. Essas três ferramentas são usadas para gerar valor de alguma forma das informações disponíveis. Mas não é obrigatório o uso do Big Data para o Data Science. É perfeitamente possível gerar novos “insights” e obter novas visões e conclusões de bases de dados menores apenas utilizando inteligência artificial e estatística. Porém não é difícil perceber que o Big Data potencializa o alcance da Data Science.
O Data Science é aplicado por grandes empresas. Por exemplo, a Netflix indica filmes por meio deste tipo de ferramenta. A Amazon utiliza Data Science para indicar os melhores produtos. Mas é possível sua utilização por empresas bem menores, por exemplo se conectar a novos clientes de uma determinado modelo de carros a partir das informações de antigos compradores.
Outra importante aplicação de Data Science é na área de anúncios digitais que utilizam algoritmos para a exibição personalizada de banners e outdoor digitais baseados em informações de uso anônimas. É por causa do Data Science que ao pesquisar um produto em um site, este mesmo produto aparece em inúmeras pesquisas posteriores não relacionadas ao produto pesquisado.
Existem ainda os sistemas de recomendação que não apenas facilitam a localização de produtos relevantes a partir de bilhões de produtos disponíveis, mas também adicionam muito à experiência do usuário. Muitas empresas usam esse sistema para promover seus produtos e sugestões de acordo com as demandas do usuário e a relevância das informações. (MONNAPPA, 2018)
Com isso, acredito que a diferença entre os dois termos tenha ficado bastante clara. Caso tenha ficado alguma dúvida fico feliz em esclarecer em um próximo post. Até breve!

Obs.: 1 petabyte é equivalente a 1000 terabytes.


GARTNER, IT Glossary, Big Data, 2018. Disponível em: <https://www.gartner.com/it-glossary/big-data>. Acesso em: 25 ago. 2018.

JOHN WALKER, Saint. Big data: A revolution that will transform how we live, work, and think. 2014.

MONNAPPA, Avantika. Data Science vs. Big Data vs. Data Analytics. 2018. Disponível em: < https://www.simplilearn.com/data-science-vs-big-data-vs-data-analytics-article>. Acesso em: 25 ago. 2018.

Comentários

Postagens mais visitadas deste blog

Como utilizar Tag Prefix WinCC Professional

TUTORIAL: Dashboard com dados de uma CPU S7 utilizando comunicação OPC UA

Utilizando interfaces, inversão de controle e injeção de dependências em programação - Um exemplo em C#