Neste desafio vamos praticar feature engineering, a arte de processar variáveis do data set a fim de torná-las mais adequadas aos algoritmos de ML e produzir melhores resultados.
O objetivo deste desafio é adquirir conhecimento e prática nas ferramentas mais usuais de engenharia de variáveis. Com o domínio apropriado das técnicas básicas, como one-hot encoding, normalização e padroniação, o analista está mais bem preparado para conduzir uma etapa de preprocessamento dos dados que traga bons resultados da aplicação dos algoritmos de ML.
Para isso, vamos contar com o data set Countries of the world que contém 20 variáveis, como população, área costeira e tamanho dos setores de produção, de 227 países.
Neste desafios nós vamos explorar:
- Feature engineering
- Processamento de texto
Você precisará de Python 3 e pip. É altamente recomendado utilizar ambientes virtuais
com o virtualenv e o arquivo requirements.txt
para instalar os pacotes dependências
do desafio:
$ pip3 install virtualenv
$ virtualenv venv -p python3
$ source venv/bin/activate
$ pip install -r requirements.txt
Windows
> pip3 install virtualenv
> virtualenv ..\venv -p python3
> ..\venv\Scripts\activate
> pip install -r requirements.txt
Quando finalizado, você pode desativar o ambiente virtual do virtualenv com:
$ deactivate