R em 1 semana – Parte 7 de 7

Post final da série R EM 1 SEMANA onde exploraremos modelos preditivos com a função predict().

Compartilhe!

Share on facebook
Share on linkedin
Share on twitter
Share on email
Share on whatsapp

Machine Learning

O aprendizado de máquina, ou machine learning, é uma das áreas mais promissoras do último século, levando empresas data-driven, ou seja, orientadas a dados, valerem, projetarem e lucrarem muito mais. Um bom exemplo é a Rappi, empresa que está avaliada e bilhões, entretanto ainda sem lucro, mas que consegue prever quem, quando como e “do quê” vão se alimentar. Hábitos mapeados valem bilhões de dólares e isso faz com que a empresa receba investimos diversos de pessoas/negócios interessados em hábitos da população. Ok, agora… o que isto tem a ver com R?!

Suponhamos que você queria prever quando, quanto, onde e o quê vender no setor de alimentação com estes dados diversos de consumo, utilizariamos a função do R predict(), a grande estrela deste artigo.

Em suma, a função prevê novos valores de dados, tendo como base os valores apontados em seu dataframe. Para melhor entendimento, de forma simplista, forçaremos você a “prever” conforme uma base dados hipotética:

Facilmente você humano conseguiria prever Y como 12, certo? bem, de forma simplista é isto que R faz com a função predict()

MÃO NA MASSA!

Vamos ao código! precisaremos de 1 dataframe e de novos dados para predição, o que é bastante fácil. Para tal, utilizaremos um dataframe do R base chamado mtcars(Motor Trend Car Road Tests). Para maiores informações deste dataset, inclua ?mtcars e o output será todas infos sobre o mesmo.

A data frame with 32 observations on 11 (numeric) variables.

[, 1] mpg Miles/(US) gallon
[, 2] cyl Number of cylinders
[, 3] disp Displacement (cu.in.)
[, 4] hp Gross horsepower
[, 5] drat Rear axle ratio
[, 6] wt Weight (1000 lbs)
[, 7] qsec 1/4 mile time
[, 8] vs Engine (0 = V-shaped, 1 = straight)
[, 9] am Transmission (0 = automatic, 1 = manual)
[,10] gear Number of forward gears
[,11] carb Number of carburetors

?mtcars
data(mtcars)

amostras <- sample(nrow(mtcars), size = 0.7*nrow(mtcars), replace = FALSE)
train <- mtcars[amostras, ]
test <- mtcars[-amostras, ]

fit <- lm(mpg ~ hp, data = train)
pred <- predict(fit, newdata = test[,-1])

O QUE FOI FEITO

Nas primeiras linhas, 1 e 2, acessamos informações sobre o dataset “mtcars” e na sequência o carregamos para nosso código.

Na linha 4, associamos à variável “amostras” 70% dos dados para que possamos assim utilizar 70% para treino(22) e 30% para testes(10), afinal, você não quer que seu modelo seja testado com aquilo que foi treinado: seria como cair na prova exatamente o que você estudou: nada bom!

Por fim, treinamos o modelo com “lm”(linear models): nosso modelo apresenta relação linear e isto pode ser facilmente verificado ao plotarmos gráficos de dispersão com as variáveis mpg e hp.

attach(mtcars)
plot(mpg, hp, main="Relação consumo/
força", xlab="MILES PER GALLON", ylab="HP", pch=19)
Note a relação entre as variáveis: -FORÇA = -CONSUMO

Na variável “fit”. associamos 2 variáveis: mpg(consumo do carro) e hp(força do carro em cavalos) utilizando data=trains. Por fim, mas não menos importante: “predict()” para realizar as predições nos dados de teste.

O QUE DEVE SER FEITO

Se você acessou o artigo sobre OS 5 PASSOS PARA UM PROJETO DATA SCIENCE, sabe que apenas nossas predições não dizem muito sobre nosso modelo preditivo, ou quão bem seu trabalho está sendo feito. Precisamos “AVALIAR”, afinal, se “não for medido não será melhorado”. Avaliação de nossos modelos e melhorias são assunto para outra série

E… ?

Abordamos por aqui os fundamentos para que você possa iniciar seus estudos e jornada junto ao R: uma das principais linguagens para Data Science e, na maioria das vezes, requisito essencial junto a Python.

Abordaremos assuntos ainda mais densos nas próximas postagens sobre R como por exemplo: Deep Learning, Machine Learning, Web Scraping, entre outros…

Esta série de posts teve como objetivo iniciar você junto ao R e daqui pra frente: consistência em seus estudos!

E você, o que achou desta experiência? o que gostaria de aprender a fazer com R? comente logo abaixo para que possamos trazer este conteúdo.

Receba em seu email o acesso as aulas e materiais

Vá além:

R em 1 semana – Parte 6 de 7

Dataviz Dataviz, ou Data Visualization, são técnicas que utilizamos para visualizar dados através de gráficos. Desta forma podemos trabalhar a intuição sobre os dados e