snowwork

파이썬 머신러닝 판다스 데이터분석 [7] 본문

데이터 분석/퀀트

파이썬 머신러닝 판다스 데이터분석 [7]

denk 2021. 11. 5. 18:30

 

https://github.com/heradenk/python_pandas/tree/main/07_pandas_machine_learning

 

GitHub - heradenk/python_pandas

Contribute to heradenk/python_pandas development by creating an account on GitHub.

github.com

 

 

PART 7. 머신러닝 데이터 분석
1. 머신러닝 개요
1-1. 머신러닝이란?
1-2. 지도 학습 vs 비지도 학습
1-3. 머신러닝 프로세스
2. 회귀분석
2-1. 단순회귀분석
2-2. 다항회귀분석
2-3, 다중회귀분석
3. 분류
3-1. KNN
3-2. SVM
3-3. Decision Tree
4. 군집
4-1. k-Means
4-2. DBSCAN

 

 

단순회귀분석

자동차 중량과 연비의 관계를 단순회귀분석. 파란색이 실제 값, 주황색이 예측값. 아직 오차가 있다.

 

다항회귀분석

다항회귀분석, 오차가 조금 줄어들었다.

 

다중회귀분석

마력, 중량, 실린더와 연비의 관계를 다중회귀분석. 단순회귀분석과 비교했을 때 첨도가 조금 누그러졌다.

 

 

 

x=Grocery, y=Frozen
x=Milk, y=Delicassen

k-Means 알고리즘은 데이터 간의 유사성을 측정하는 기준으로 각 클러스터의 중심까지의 거리를 이용한다.

위는 도매업 소비 데이터를 분석해 예측한 것이다. 매번 실행할 때마다 예측값의 분포가 달라진다. 

 

 

 

중학교 위치 표시
외고, 과학고, 국제고, 자사고 진학 예측 / 국립, 공립, 사립 데이터 추가 / 과학고, 외고만 예측

DBSCAN은 데이터가 위치하고 있는 공간 밀집도를 기준으로 클러스터를 구분한다.

중학교별로 외고, 과학고, 국제고, 자사고 진학률을 예측해봤다.

 

 

 

책의 내용은 여기까지이다. 판다스만으로도 간단한 데이터 정도는 충분히 분석할 수 있는 것 같다. 머신러닝을 떠보는 정도로만 배워봤는데, 조금 더 깊게 배울 필요가 있어 보인다. 

 

 

 

Comments