A engenharia de features é o processo de transformar dados brutos em features, ou seja, em representações numéricas que melhor representem os seus dados e que serão aproveitados de forma mais eficiente pelos modelos de aprendizado de máquina (ML), de acordo com a tarefa a ser executada.
Uma das principais etapas do ciclo de vida da ciência de dados, também chamada de pipeline, é a engenharia de features, a engenharia de features é a etapa posterior às etapas de limpeza e análise exploratória de dados (EDA, que permitem conhecer os seus dados, entender como seu modelo (data model) funciona e se apresenta. A limpeza e a análise são essenciais na escolha de quais features podem ser usadas na predição do modelo e, que transformações elas precisam sofrer para serem utilizadas em medidas numéricas.
As features podem ser numéricas (exemplo, medições), categóricas (exemplo, categorias), temporais (exemplo, datas), espaciais (exemplo, dados de geolocalização) e textuais (exemplo, textos), cada um desses com diferentes tipos de processos envolvidos. As features textuais, por exemplo, estão relacionadas a modelos de Processamento de Linguagem Natural (PLN, ou NLP em inglês).
A escolha das features e a sua transformação é tão importante quanto a escolha do modelo, uma afeta a outra. Boas features tornam a etapa de modelagem mais fácil, assim como features ruins podem exigir um modelo muito mais complicado para atingir o mesmo nível de desempenho. Uma maneira de selecionar features é por meio de coeficientes correlacionados a elas, como mostrado aqui, dentre várias outras.
Logo, deve-se ter especial cuidado ao selecionar quais features serão utilizadas no modelo, tendo em mente que, segundo Andrew Ng, “extrair uma feature é difícil, consome tempo e requer uma certa expertise e domínio do problema”, mas é nesta etapa que está a verdadeira arte do processo e é onde surgem as abordagens mais criativas.
Referências
van Veen, Hendrick Jacob. 2017. “Feature Engineering.” Apresentação SlideShare. Obtido de https://pt.slideshare.net/HJvanVeen/feature-engineering-72376750
Moreira, Gabriel. 2017. “Feature Engineering: Extraindo o potencial máximo dos dados para modelos preditivos.” Apresentação SlideShare. Obtido de https://www.infoq.com/br/presentations/extraindo-o-
potencial-maximo-dos-dados-para-modelos-preditivos/
Zheng, Alice; Casari, Amanda. “Feature engineering for machine learning: principles and techniques for data scientists”. Sebastopol, CA: O’Reilly Media, 2018.
Autores: Ana Carolina, Jéssica Assunção e Rodrigo Araújo e Castro