이번 글에서는 전처리를 마친 데이터를 이용하여 분석을 진행한 코드를 리뷰합니다.
데이터 전처리 과정을 마친 후 데이터 분석을 진행하였습니다. 데이터 분석의 목적은 다음과 같습니다.
- 수집한 데이터의 경향성을 확인하고 feature와 label의 상관관계를 시각화 하여 데이터를 이해한다.
Analysis 함수는 데이터 분석을 수행해 주는 함수입니다. 후술할 데이터 분석 코드는 모두 Analysis 함수 안에 포함되어 있습니다.
실험 데이터 수집 과정에서 예기치 못한 오류로 null값이 측정되었을 수 있습니다. 따라서 null값의 수를 측정해 주었습니다. 또한 describe()를 통해 데이터셋의 통계학적 수치를 확인해 보았습니다.
구동 결과 null 개수는 0개였습니다. 또한 x, y, z축의 min_max값을 살펴보았을 때, x는 -10112~9472, z는 -12160~14528로 음수~양수의 넓은 범위의 값을 가지는 반면 y는 -19328~-6336으로 비교적 좁은 범위의 값을 가졌으며 음수로만 분포되어 있다는 것을 확인할 수 있었습니다.
다음 그래프는 x, y, z의 값을 3차원 좌표평면에 점을 찍어 그린 산점도 그래프입니다. 이를 이용하여 방위 값(label)에 따라 다른 색깔로 표시하였습니다. 색깔별로 비슷한 위치에 분포해 있는 경향을 확인할 수 있지만 3차원 그래프를 2차원에 표현하다 보니 왜곡되는 부분이 있어 2차원 산점도 그래프로 표현해 보았습니다.
변수를 두개로 줄여 2차원 산점도 그래프로 나타낸 값입니다. 왼쪽 그래프는 x, y를 이용하였고, 중간 그래프는 y, z, 오른쪽 그래프는 x, z를 이용하여 그린 그래프입니다. 방위 값(label)에 따라 다른 색깔로 표현하였습니다. 왼쪽 그래프를 보면 좌, 우로는 색깔이 잘 구분되고 있으나 상, 하로는 색깔이 잘 구분되지 않고 있습니다. 마찬가지로 중간 그래프에서는 상, 하로는 색깔이 잘 구분되고 있으나 좌 우로는 색깔이 잘 구분되지 않습니다. 오른쪽 그래프를 보면 색깔이 영역별로 잘 구분되는 것을 볼 수 있습니다. 따라서 x, z값이 자세의 방위 값을 결정짓는 중요한 변수이며 y또한 분류에 도움은 주지만 x, z에 비해 잘 구분하지 못한다는 것을 알 수 있었습니다.
다음은 각 방위 값 별로 x, y, z값이 어떻게 분포하고 있는를 나타낸 boxplot입니다. 왼쪽부터 x, y, z축 가속도 입니다. x, z축 boxplot은 방위값에 따라 분포하고 있는 모양이 다릅니다. 주목할만한 점은 방위 값 0(후방)과 가까운 1(우측 후방)은 비슷한 값의 분포를 가지며, 반대 방향인 4(전방)과는 큰 차이를 가지는 것을 알 수 있습니다. 그러나 y축 boxplot은 모두 비슷한 값의 분포를 가지며, 특히 이상치로 추정되는 값들이 다른 그래프에 비해 월등히 많은 것을 알 수 있습니다.
다음으로 허리를 굽힌 정도와, 벨트를 조인 정도에 따라 x, y, z값이 어떻게 분포하는 지 나타낸 boxplot입니다. 허리를 굽힌 정도를 크게할수록(1) 더 넓은 범위에 값이 분포한다는 것을 알 수 있고, belt를 조인 정도는 이렇다할 경향성을 보이지는 않았습니다. 두 feature 모두 자세 분류에 큰 역할을 하지는 않는다는 것을 알 수 있었습니다.
'Project > 산학협력프로젝트_WELT' 카테고리의 다른 글
모델 설계(MLP, KNN, LightGBM) (0) | 2022.07.11 |
---|---|
데이터 수집 (0) | 2022.07.11 |
데이터 전처리 (0) | 2022.07.11 |
1. 산학협력프로젝트_with_WELT Intro (0) | 2022.05.09 |