Conteúdo

O aprendizado de máquina, ou Machine Learning, não são novidade: as primeiras aparições datam dos anos 50, com muita estatística envolvida: encontrar padrões e calcular a proximidade em pontos de dados eram tarefas base.

Segundo dados do próprio Kaggle, principal ferramenta em competições de Machine Learning no mundo, as áreas mais difundidas e utilizadas estão listadas neste post: Regressão, Classificação e redução de dimensionalidade

Caso queira saber mais sobre as linguagens de programação mais utilizadas, perfil Data Scientist e algoritmos mais utilizados, acesse o EBOOK PERFIL DATA SCIENCE BRASIL E MUNDO.

Atualmente, usamos mais Machine Learning do que conseguimos perceber: não apenas em sistemas de recomendação como Netflix e Amazon, mas também em qualquer atividade relacionada a bancos, digitais ou não.

As maiores empresas de tecnologia do mundo são apaixonadas pela área e, por isso, investem bilhões ao ano para produzir e capacitar profissionais: entende agora a escassez?

No entanto, como já mencionamos anteriormente, em outros posts, micro e pequenas empresas dificilmente conseguem se beneficiar destas tecnologias: uma melhoria de 3% na taxa de churn faria diferença para Amazon, Netflix e Nubank, mas faria diferença assim para uma padaria pequena no bairro? estes 3% para grandes empresas significam BILHÕES.

Por serem bastante antigas, estas abordagens clássicas de Machine Learning são bastante simples de aplicar e entender.

Aprendizagem Supervisionada

Na abordagem clássica, você basicamente vai encontrar 2 áreas onde se concentra 90% das aplicações: aprendizagem supervisionada e aprendizagem não-supervisionada. A maioria das aplicações em aprendizagem supervisionada. Em nosso ebook “PERFIL DATA SCIENCE BRASILE MUNDO” mostramos os dados para tal constatação.

De forma simplista, na aprendizagem supervisionada a máquina recebe dados “etiquetados”, ou seja, teremos uma coluna mapeando as respostas para aquele problema. Se você tivesse um problema do tipo: DETECTAR TUMORES MALIGNOS EM UMA FOTO, você treinaria seu algoritmo com diversas fotos onde algumas estariam marcadas como “TUMOR MALIGNO” e outras como “TUMOR BENÍGNO”. Isso seria a “supervisão”. A máquina acaba por aprender junto a dados rotulados.

Na aprendizagem supervisionada, temos 2 tipos de aplicações:

Note que na Classificação “separamos” em classes e na Regressão, prevemos valores numéricos.

Classificação

Divide os dados com base em atributos conhecidos anteriormente: documentos com base na linguagem(Muito utilizada no campo jurídico), músicas por gênero(Spotify), Cães e gatos(Google Fotos), Email SPAM e NÃO-SPAM(Gmail)…

Temos diversos algoritmos em classificação, mas se destacam: NAIVE BAYES, DECISION TREES, K-MEANS e SVM.

Caso você queira colocar a mão na massa e criar algo novo, acesse nosso tutorial e crie na prática um CLASSIFICADOR DE EMAILS SPAM/NÃO-SPAM COM PYTHON

Regressão

Basicamente, este tipo de algoritmo analisa os pontos de dados e desenha uma linha o mais próxima possível de todos os dados já apresentados e assim consegue-se prever os próximos: em cima da linha anteriormente desenhada. Os algoritmos mais populares por aqui são a regressão linear e polinomial.

Aqui você consegue visualmente entender a diferença entre as regressões linear e polinomial: reta e curva para se adequar aos dados.

Aplicações mais comuns são predição dos preços de ações e qualquer relação entre tempo e número(número de vendas conforme clientes que visitam a loja ou até mesmo consumo de combustível por quilômetro rodado).

Caso você queira colocar a mão na massa e criar algo novo, acesse nosso tutorial e crie na prática um PREDITOR DE DIABETES

Aprendizagem Não-Supervisionada

Surgida nos anos 90 e menos utilizada, pelo menos no momento que escrevemos este post. Aqui, de forma simplista, deixaremos para a máquina encontrar padrões nos dados. Exemplos práticos incluem a clusterização(divide dados conforme padrões encontrados), Redução de Dimensionalidade(Diminui as features em características específicas que realmente alterem as predições), Regras de associação(encontrará padrões associativos).

Clusterização

Dividiremos pontos de dados com base em características desconhecidas

Aplicações mais usadas atualmente são: segmentação de clientes, detecção de outliers, rotular novos dados e mesclar pontos próximos em um mapa(Google Maps).

O objetivo de cada algoritmo será o mesmo, entretanto, as formas como vão realizar as ações de agrupamento se diferenciam e obviamente, por tal motivo, testamos diversos antes de chegar a uma decisão final. Os mais populares para clusterização são o: K-MEANS, DBSCAN e o Mean-Shift.

Como citamos no começo do post, é muito utilizado no Google Maps: você digita “OFICINA MECÂNICA” e ali aparecem agrupadas apenas as oficinas mecânicas da região. Google fotos e Facebook também fazem o mesmo para agrupar fotos de pessoas X, criando albúns diversos.

Redução de Dimensionalidade(generalização)

Redução de dimensionalidade em ação: note que focaremos apenas nos componentes principais aqui para desenhar nossa reta.

Com esta técnica poderemos reunir features/recursos específicos em um subconjunto menor. Exemplos de uso: sistemas de recomendação, visualização de dados, gerenciamento de risco e modelagem de tópicos/agrupamento de documentos semelhantes.

Algoritmos principais incluem: PCA, SVD, LDA, LSA e o t-SNE(dataviz).

Em quantidades cada vez maiores de dados, é interessante reduzi-los para encontrarmos mais padrões consistentes, encontrar “outliers”, ou seja, dados diferentes de todo o resto que poderiam enviesar nossas predições.

O algoritmo LSA, por exemplo, realiza uma análise semântica nas palavras e assim consegue agrupa-las em determinados tópicos. Textos que contenham “Bolsonaro” podem pertencer a política. Textos que contenham “covid” podem pertencer a saúde. A frequência destes termos no texto vai ajudar o algoritmo a realizar suas predições.

Aqui temos um belo exemplo de um OUTLIER: o ForeverAlone é o ponto “fora da curva”, em vista que grande parte dos dados aqui são de casais, ele está sozinho.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

cinco + 8 =