Machine Learning/Feature
-
Feature Encoding 관련 ArticleMachine Learning/Feature 2021. 3. 25. 11:24
1. Frequency Encoding, Target Encoding 소개 Stop One-Hot Encoding your Categorical Features — Avoid Curse of Dimensionality Techniques to Encode Categorical Features with many Levels/Categories medium.com 2. Encoding하는 여러가지 기법 소개 Smarter Ways to Encode Categorical Data for Machine Learning Exploring Category Encoders towardsdatascience.com
-
Time Series 데이터를 변수로 Encoding하는 다양한 기법Machine Learning/Feature 2021. 3. 2. 14:05
Machine Learning을 접하고 Modeling을 하다보면 시간과 관련된 데이터가 빠지지 않고 등장한다. 대부분의 데이터는 시간 순으로 적재되기 때문이다. 그리고 그 데이터는 시간의 영향을 받는 경우가 아주 많이 존재한다. "겨울"과 "밤"시간에 사용량이 증가하는 계절성을 갖고 있는 보일러 사용량 등이 대표적인 예이다. 어쨌거나 이러한 데이터를 받아들게 되면 가장 처음 떠오르는 고민이 있다. 시간 데이터를 Categorical Data로 다뤄야 하나 Numeric Data로 다뤄야 하나에 관한 문제이다. 보통의 Categorical Data의 경우 One-hot Encoding 혹은 LabelEncoding을 진행하고, Numeric Data는 이상치를 제거하거나 도메인 지식이나 EDA결과에 따라..
-
[+Code]imbalanced한 데이터를 처리하는 sampling기법(over, under, SMOTE)Machine Learning/Feature 2020. 10. 21. 22:31
현실에 있는 많은 데이터들은 불균형합니다. 예를 들어 제조업에서 제품의 불량을 분류하기 위해 10,000개의 row를 가진 데이터셋을 구축하였다고 하면, 우리가 원하는 label은 대부분이 '정상'으로 나올 것입니다. 왜냐하면 대부분의 공정에서 불량품이 나오지 않기 때문이죠. 10,000개의 데이터셋에서 9900개의 데이터가 '정상'으로 나온다면 이 데이터셋으로 제대로 된 모델링을 할 수 없습니다. 이런 imbalanced한 데이터를 oversampling, undersampling, SMOTE의 데이터 resampling 기법을 통해 어느정도 해소할 수 있습니다. 먼저 아래의 데이터셋을 확인해보도록 하겠습니다. 참조 : www.kaggle.com/rafjaa/resampling-strategies-fo..