데이터 전처리(preprocessing)란, 데이터를 학습에 사용할 수 있도록, 보다 학습 결과가 좋게 나타날 수 있도록 데이터를 처리하는 과정이다. 전처리에서 사용하는 기법은 여러가지가 있는데 이번 글에서는 그 중 하나인 데이터 인코딩에 대해서 소개한다. 레이블 인코딩(label encoding) 사이킷런의 머신러닝 알고리즘은 문자열을 입력값으로 허용하지 않는다. 따라서 모든 문자열은 인코딩 돼서 숫자 형으로 변환해야 한다. 예를 들어 성별을 나타내는 피쳐의 경우 'male', 'female'과 같이 문자열의 형태로 데이터가 저장되어 있을 수 있다. 이는 바로 input으로 사용할 수 없기 때문에 male ->0, female -> 1과 같이 int형태로 바꾼 후 input으로 이용해야 한다. 위에서와..