snowwork
파이썬 머신러닝 판다스 데이터분석 [7] 본문

https://github.com/heradenk/python_pandas/tree/main/07_pandas_machine_learning
GitHub - heradenk/python_pandas
Contribute to heradenk/python_pandas development by creating an account on GitHub.
github.com
PART 7. 머신러닝 데이터 분석
1. 머신러닝 개요
1-1. 머신러닝이란?
1-2. 지도 학습 vs 비지도 학습
1-3. 머신러닝 프로세스
2. 회귀분석
2-1. 단순회귀분석
2-2. 다항회귀분석
2-3, 다중회귀분석
3. 분류
3-1. KNN
3-2. SVM
3-3. Decision Tree
4. 군집
4-1. k-Means
4-2. DBSCAN

자동차 중량과 연비의 관계를 단순회귀분석. 파란색이 실제 값, 주황색이 예측값. 아직 오차가 있다.

다항회귀분석, 오차가 조금 줄어들었다.

마력, 중량, 실린더와 연비의 관계를 다중회귀분석. 단순회귀분석과 비교했을 때 첨도가 조금 누그러졌다.






k-Means 알고리즘은 데이터 간의 유사성을 측정하는 기준으로 각 클러스터의 중심까지의 거리를 이용한다.
위는 도매업 소비 데이터를 분석해 예측한 것이다. 매번 실행할 때마다 예측값의 분포가 달라진다.




DBSCAN은 데이터가 위치하고 있는 공간 밀집도를 기준으로 클러스터를 구분한다.
중학교별로 외고, 과학고, 국제고, 자사고 진학률을 예측해봤다.
책의 내용은 여기까지이다. 판다스만으로도 간단한 데이터 정도는 충분히 분석할 수 있는 것 같다. 머신러닝을 떠보는 정도로만 배워봤는데, 조금 더 깊게 배울 필요가 있어 보인다.
'데이터 분석 > 퀀트' 카테고리의 다른 글
| 파이썬 머신러닝 완벽 가이드 (1) | 2022.03.22 |
|---|---|
| 페어 트레이딩 (1) | 2021.11.14 |
| 파이썬 머신러닝 판다스 데이터분석 [6] (1) | 2021.11.04 |
| 파이썬 머신러닝 판다스 데이터분석 [5] (0) | 2021.11.03 |
| 파이썬 머신러닝 판다스 데이터분석 [4] (1) | 2021.11.02 |