Probabilidade e Estatística para Data Science: ESTATÍSTICA DESCRITIVA

Faça parte da comunidade!

Probabilidade e Estatística foram a base e ainda são para diversas etapas em projetos Data Science e, principalmente, relacionados a I.A.

“Aquilo que não é medido não pode ser melhorado”

Com isso, é importante você começar entendendo o mínimo para criar suas análises, modelos preditivos e até mesmo julgar dados como resultados estatísticos da vacina covid, intenções de voto na eleição… um novo mundo se abrirá a você.

Por fins didáticos usaremos para nossos exemplos o seguinte conjunto de dados:

3, 12, 25, 96, 25, 7, 15

Como organizar os estudos em probabilidade e estatística?

Pra isso, entenda que existem 3 grandes áreas em PROBABILIDADE/ESTATÍSTICA. Apesar de serem apresentadas juntas, cada uma se complementa e trata diferentes aspectos. Apresentaremos elas na ordem de estudos, ok?

Antes de começarmos, precisamos compartilhar com você o nível 0, ou seja, conceitos basilares:

Tipos de variáveis qualitativas

Nominal : os dados neste nível são categorizados usando nomes, rótulos ou qualidades. por exemplo: nome da marca, código postal, gênero.
Ordinal : os dados neste nível podem ser organizados em ordem ou classificados e podem ser comparados. por exemplo: notas, avaliações com estrelas, posição na corrida, data.

Tipos de variáveis quantitativas

Discretas: números inteiros como [1,2,3,4,5,6…]
Contínuas: números com casas decimais como [1.47, 25.16, 6.0 …]
Cada tipo de variável terá uma análise, técnicas e até algoritmos diferentes.

População ou dados de amostra
Antes de realizar qualquer análise de dados, devemos determinar se os dados com os quais estamos lidando são população ou amostra.

População: Coleção de todos os itens (N) e inclui cada uma das unidades do nosso estudo. É difícil definir e a medida de característica, como média, moda é chamada de parâmetro. Exemplo: censo.
Amostra: Subconjunto da população(n), incluindo apenas algumas unidades da população. Ele é selecionado aleatoriamente e a medida da característica é chamada de estatística.

1) Estatística Descritiva

Como o nome bem sugere, com ela poderemos “descever nossos dados”. Geralmente uma análise inicial requer entendimento e descrição dos dados. Aqui entram conceitos básicos que vão nortear, principalmente sua visualização dos dados como:

MÉDIA

Bastante conhecida por conta da simplicidade, mas tome cuidado: ela se altera com facilidade. Basicamente você soma o resultado das amostras e divide pelo número de amostras. O grande problema aqui é: imagine que a média de ganhos mensais de todas pessoas dentro de um bar é de R$3.500,00. Agora imagine que, por algum motivo bizarro, Elon Musk entra no bar. Instantâneamente todos serão milionários se nos guiarmos apenas pela média. Esta é a média aritmética ou média simples.

Usando nosso conjunto de dados, calcularíamos a média assim: (3+12+25+96+25+7+15) / 7 = 26.1

Em Python, teríamos o seguinte código, utilizando a biblioteca numpy:

 # MÉDIA
 import numpy as np
 amostra = 3, 12, 25, 96, 25, 7, 15
 np.average(amostra)

Ah, temos ainda a média ponderada que, basicamente, aplica “pesos” em cada valor. Em nosso exemplo do Elon Musk, a média ponderada deveria de aplicar um peso mínimo aos valores dele, afinal, a maioria das pessoas lá recebem até R$3.500.

MODA

Valores que estão na “moda” são aqueles que mais se repetem no conjunto de dados. Existem outras formas de descobrir isto, mas é interessante você conhecer o conceito agora. O problema é que um conjunto de dados pode “inventar muita moda…” ou até mesmo não ter nenhuma moda por não termos valores que se repetem. Em nosso conjunto de dados o número 25 é nossa moda pois a frequência de aparição dele é maior que todos os outros que aparecem apenas 1 vez.

Com a biblioteca stats, do scipy, podemos calcular a moda da seguinte forma:

# MODA
from scipy import stats
amostra = 3, 12, 25, 96, 25, 7, 15
stats.mode(amostra)

MEDIANA

Aqui começamos a lidar com uma ferramenta mais robusta. A mediana, basicamente, vai encontrar o valor que se encontra no MEIO de seu conjunto de dados. Esse valor divide nosso conjunto de dados ao meio. Existem algumas regras pra você aplica-la mas com qualquer linguagem de programação como Python ou R isso é bastante simples!

Para descobrir a mediana teríamos de ordenar em ordem crescente nosso conjunto de dados, assim:

3, 7, 12, (15), 25, 25, 96

Como nosso conjunto de dados é ímpar, basta encontrar o valor ao centro: 15. Aqui estão as regras da mediana:

• Os valores quantitativos devem ser arrumados em ordem crescente.
• Quando a quantidade de elementos forma um conjunto par, a mediana é o resultado da soma de duas medidas centrais divididas por dois, isto, é: (xm + xn) / 2.
• Quando a quantidade de elementos forma um conjunto ímpar, a mediana é o valor que separa os lados maiores e menores do próprio conjunto.

Em python, utilizando numpy:

# MEDIANA
import numpy as np
amostra = 3, 12, 25, 96, 25, 7, 15
np.median(amostra)

MEDIDAS DE DISPERSÃO

Bem, precisamos também saber como os nossos dados estão “dispersos”, ou seja, analisar os pontos onde cada um reside. Para isto utilizaremos algumas ferramentas.

AMPLITUDE

Essa medida de dispersão é definida como a diferença entre a maior e a menor observação de um conjunto de dados, ou seja, em nosso caso seria o maior valor(96) menos o menor valor(3). Nossa amplitude é de 93.

A amplitude parece muito simples, mas é utilizada em larga escala na indústria. Exemplo: lotes de água mineral onde a amplitude máxima do ph é de 2. Caso alguma garrafa destas tenha um ph muito alto, a amplitude será alterada e o controle de qualidade DEVE rejeitar o lote inteiro. Legal né?

Em python, utilizando numpy, bastaria subtrair o menor valor do maior valor:

# AMPLITUDE
import numpy as np
amostra = 3, 12, 25, 96, 25, 7, 15
amplitude = np.amax(amostra) - np.amin(amostra)

VARIÂNCIA

Ferramenta mais robusta e muito útil, afinal, ela verificará o quão heterogêneos são nossos dados. Ela vai nos mostrar qual a variação na média aritmética. A variância, dado um conjunto de números (aleatórios), mede o quão longe esses números estão espalhados de seu valor médio. O grupo com menor variância, próximo a 0, é o mais fácil de se trabalhar pois poderemos generalizar de forma mais assertiva. Ótima pra verificarmos a “constância” em algo, não é?

Você tem a variância populacional e a amostral, mas nos aprofundaremos em outro momento. Isso é importante pois assim não dependemos apenas da média, por exemplo, pois com a variância poderemos ver mais do que a média nos mostra. Apresentaremos a você como calcular cada etapa, mas no mundo real você terá dados enormes e utilizará apenas funções de bibliotecas Python ou R.

# VARIÂNCIA
import numpy as np
amostra = 3, 12, 25, 96, 25, 7, 15
np.var(amostra)

DESVIO PADRÃO

Ele é a medida de dispersão em torno da média populacional.

Etapa 1: calcular a média.
Etapa 2: calcular o quadrado da distância entre cada ponto e a média.
Etapa 3: somar os valores da Etapa 2.
Etapa 4: dividir pelo número de pontos.
Etapa 5: calcular a raiz quadrada.
# DESVIO PADRÃO
import numpy as np
amostra = 3, 12, 25, 96, 25, 7, 15
np.std(amostra)

Para maiores informações, acesse a documentação oficial do numpy para “Statistics” em https://numpy.org/doc/stable/reference/routines.statistics.html

Receba em seu email o acesso as aulas e materiais

Vá além:

Matplotlib: o guia inicial!

Matplotlib é um Módulo Python que serve pra gerar gráficos de maneira simples, mas, apesar de ser uma biblioteca compacta, o processo de fazer a