5 passos para um projeto DATA SCIENCE do zero

Todo projeto orientado a dados segue um workflow padrão de 5 passos e através dele é simples perceber quais skills são realmente fundamentais dominar.

Compartilhe!

Share on facebook
Share on linkedin
Share on twitter
Share on email
Share on whatsapp

Importante relembrar que a Ciência de Dados é um conjunto de métodos e procedimentos para resolver problemas. Alguns podem dizer que são métodos e procedimentos para responder dúvidas, mas ao nosso ver, a dúvida é também um problema: um desafio a ser vencido.

Unificando diversos conceitos como programação, analytics, machine learning, probabilidade/estatística, big data, nossa missão é geralmente desvendar padrões em comportamentos e assim prevê-los, sendo muitas vezes infactível a análise destes dados e tomadas de decisão por simples intuição sobre amostras.

Nosso objetivo aqui é simples: em 5 passos lhe mostrar de forma prática como iniciar um projeto Data Science do zero e assim resolver problemas e inquietações diversas, bastando apenas seguir o workflow:

1 PERGUNTE

A primeira etapa, mesmo que parecendo simples, é extremamente negligenciada por grande parte dos squads, cientistas e/ou empresas. Em suma, por conta da popularidade do termo “DATA SCIENCE” ou “I.A”, “MACHINE LEARNING”, tendemos a simplesmente focar no “COMO”, sem um porquê bem definido, afinal, Data Science nada mais é do que o “COMO” e o “PORQUÊ” deve ser mais do que simplesmente “implantar pois todos falam sobre…”.

Imagine uma boa pergunta, uma necessidade de estimar, prever e você ja possuirá um grande leque de opções: desde o cumprimento das leis de transito com visão computacional e multas geradas de forma automatizada, até predições como: conforme o tempo/ações de um usuário em determinado website, ele tende a estar mais próximo de uma compra e assim posso ajuda-lo neste processo.

Caso você seja estudante ou então não atue diretamente na área, poderá buscar por datasets diversos e a partir deles gerar perguntas, testar hipóteses e criar modelos preditivos através desta. Abaixo as principais fontes de dados para simples estudo:

>> DADOS.GOV.BR (abre numa nova aba)”>>>> DADOS.GOV.BR

2 OBTER DADOS

Depois do tópico de interesse definido e as perguntas e/ou hipóteses bem formuladas, devemos obter dados. Acima disponibilizamos o acesso aos principais meios de obtenção de dados públicos ou até mesmo privados, entretanto, com dados pessoais ocultados e disponibilizados para fins de estudo. As formas de obter estes dados podem variar sendo muitas vezes necessário utilizar:

>>> técnicas como Web Scraping, raspando dados de páginas web
>>> APIs que geram consultas específicas, retornando dados
>>> Bancos de dados SQL/NoSQL, na maioria das vezes, quando em um mundo corporativo.
>>> Repositórios com datasets disponíveis para download

3 EXPLORAR DADOS

No passo 3 está, sem dúvida, a maior parte do trabalho em um projeto Data Science, na perspectiva do Cientista de dados.

Aqui ele passa pelo menos 80% do tempo: limpar dados é sexy segundo a Harvard Business Review e aqui encontramos muito disto.

A modificação dos dados coletados é realizada aqui. Suas skills em Analytics e Análise de Dados com Python e R são essenciais aqui paar se ganhar eficiência. A análise exploratória de dados também ocorre aqui onde você vai fazer testes de hipóteses com frequência: probabilidade e estatística são skills essenciais por aqui.

Fim deste passo? não! Aqui encontramos mais uma necessidade: o dataviz, ou a visualização de dados. Esta skill representa uma competência de bastante relevância para o projeto, afinal, depois de obter os dados, limpa-los, aplicar e analisar estatística descritiva, testar algumas hipóteses, precisamos “ver pra crer”. Suas skills com ggplot2, Matplotlib e d3.js(em um mundo perfeito) são requisitadas aqui.

4 MODELAR DADOS

Chegando aqui, 90% do trabalho foi feito. Um dos motivos para que no Brasil tenhamos o cargo “cientista de dados” como um cargo onde facilmente se acopla funções de um engenheiro de dados, engenheiro de machine learning e até mesmo profissionais como Analista de Dados e Analista BI(um dos requisitos frequentes para qualquer vaga como Data Scientist é o domínio de Tableau).

É claro que modelar dados, construir modelos preditivos e avalia-los não é atividade de pouco louvor, afinal, aqui temos uma grande complexidade em possibilidades de algoritmos, hiperparâmetros, álgebra, cálculo e, sem dúvida alguma, skills em processamento, no caso de foco Deep Learning e redes neurais com Big Data.

Em suma, aqui generalizamos ocorrências e melhoramos assim a eficiência das decisões.

A Nubank para manter seu crescimento precisa de novos clientes utilizando o cartão, entretanto, precisam reprovar possíveis devedores futuros e assim, com os modelos preditivos adequados, conseguem crescer de forma exponencial

A Amazon para continuar sendo a “loja de tudo”, precisa saber o que indicar e para quem indicar, afinal, possuem a maior lista de livros a venda do mundo. A netflix também pode ser mencionada aqui, sabendo padrões de gosto, sabem o que produzir, quanto investir em determinado tipo de série/filme e ainda para quem indicar: machine learning.

Muitos modelos preditivos podem, e devem, ser gerados de maneira simplista: verifica-se qual o desafio proposto, classificação? regressão? assim aplicamos, treinamos e avaliamos nossos modelos. Kaggle pode ser um belo playground para machine learning.

5 APRESENTE

Comunicar os resultados é extremamente importante: a clareza aqui é essencial e por isto, o modelo de programador intimista e introvertido não se adequa aqui: é preciso COMUNICAÇÃO, LIDERANÇA, VISÃO DE NEGÓCIOS para que todo este projeto científico tenha a capacidade de ser visto como base para uma organização. Este é o maior desafio em nosso país: não é a programação, matemática ou até mesmo o preço das GPUs: o desafio está na capacidade da visão de negócios. Abaixo o link para a pesquisa realizada pelo Kaggle, principal portal do mundo em Data Science e Machine Learning, realizada apenas com brasileiros: alarmante.

Brazilian Kagglers

Q8: Seu empregador atual incorpora métodos de aprendizado de máquina em seus negócios?

Estamos explorando os métodos de Machine Learning (e um dia podemos colocar um modelo em produção)131 pessoas
Não (não usamos métodos de Machine Learning) 131 pessoas
Recentemente, começamos a usar métodos de Machine Learning (ou seja, modelos em produção há menos de 2 anos) 118 pessoas
Temos métodos de Machine Learning bem estabelecidos (ou seja, modelos em produção há mais de 2 anos) 74 pessoas
Não Sei55 pessoas
Utilizamos métodos de Machine Learning para gerar insights (mas não colocamos modelos de trabalho em produção) 49 pessoas

Receba em seu email o acesso as aulas e materiais

Vá além:

R em 1 semana – Parte 6 de 7

Dataviz Dataviz, ou Data Visualization, são técnicas que utilizamos para visualizar dados através de gráficos. Desta forma podemos trabalhar a intuição sobre os dados e