일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- 부스팅기법
- 의사결정나무
- LinearRegression
- LeastSquare
- boosting
- AdaBoostRegressor
- 회귀분석
- MultipleLinearRegression
- 사전 가지치기
- 최소제곱법
- 중선형회귀
- 실제데이터활용
- 캘리포니아주택가격예측
- 선형모형
- KNearestNeighbors
- 선형회귀
- 경사하강법
- 정보이득
- 군집화기법
- 사후 가지치기
- pre pruning
- 아다부스트
- 부스팅
- AdaBoostClassifier
- cost complexity pruning
- gradientdescent
- C4.5
- post pruning
- 체인지업후기
- Adaboost
- Today
- Total
목록손으로 직접 해보는 모델정리 (14)
데이터 분석을 향한 발자취 남기기

지난 시간에 의사결정 나무를 어떻게 생성하는지에 대해서 알아보았다. 의사결정 나무의 가장 큰 특징은 쉽게 과적합된다는 점이다. 이를 해결하기 위해 나무가 더이상 성장되지 않도록 막는 가지치기 방법을 사용한다. 0. Decision Tree의 과적합 위험성1. 가지치기 (pruning)2. Cost complexity pruning3. Minimal cost complexity pruning0. Decision Tree의 과적합 위험성과적합이란 모델이 훈련 데이터를 지나치게 학습해 훈련 데이터에 대해서는 매우 좋은 성능을 보이지만, 이에 반해 테스트 데이터에 대한 예측 성능이 떨어지는 경우라 볼 수 있다. 이를 확인해보기 위해 캘리포니아 지역의 주택 가격을 예측하는 의사결정 나무를 생성해보고자 한다. 데..

오늘은 대표적인 트리 모형인 Decision Tree에 대해서 공부하고자 한다. 먼저 Decision Tree에 대한 구조를 살펴보고, Decision Tree를 구성하는데 사용되는 알고리즘인 ID3, C4.5, CART에 대해서 알아보고자 한다. 0. Decision Tree란?1. ID32. C4.53. CART0. Decision Tree란?의사결정 나무(Decision Tree)는 데이터에 있는 규칙을 학습을 통해 자동으로 찾아내 트리 기반 분류 규칙을 생성하는 모델이다. 생성된 모델의 모양이 나무와 같다고 하여 결정 트리라 불린다. - 규칙 노드: 규칙 조건(분류 기준)- 리프 노드: 분류 및 예측값 새로운 데이터가 들어오면 루트 노드를 기준으로 규칙 노드를 거치면서 최종적으로 위치한 리프 노..

오늘은 분류와 회귀에서 쉽게 사용할 수 있는 알고리즘인 KNN에 대해서 알아보고자 한다.간단한 개념을 바탕으로 하기 때문에 접근하기 쉬운 알고리즘임에도 효과적으로 작동하여 많이 사용되는 알고리즘이다. 1. KNN이란?2. 주로 사용되는 거리 척도3. Citrus 분류 예측 설명에 사용한 데이터는 오렌지와 자몽을 분류하는 데이터로 이에 대한 설명은 아래 출처를 참고한다.https://footprints-toward-data-analysis.tistory.com/13 [Boosting] AdaBoost Classifier with Citrus오늘은 이전에 공부했던 AdaBoost Classifier를 구현하여 실제 데이터를 분류해보고 이를 시각화하여 표현해보고자 한다. AdaBoost Classifier에..

오늘은 Gradient Boosting 알고리즘을 회귀에 적용해보려고 한다. 1. Gradient Boosting Regressor Algorithm2. Simple example3. Sklearn GradientBoostingRegressor 비교1. Gradient Boosting Regressor AlgorithmGradient Boosting은 Boosting 기반 알고리즘으로 약한 학습기들을 앙상블하여 더 좋은 성능을 얻는 예측 모델을 생성하는 방법이다. 일반적으로 Bagging의 대표적인 알고리즘인 Random Forest보다 더 좋은 성능을 보인다. 핵심은 각 약한 학습기를 생성할 때, 미분 가능한 손실 함수를 최소화하는 방향으로 학습한다는 것이다. 이때, 손실함수 최적화 방법으로 경사하강법..

오늘은 이전에 공부했던 AdaBoost Classifier를 구현하여 실제 데이터를 분류해보고 이를 시각화하여 표현해보고자 한다.AdaBoost Classifier에 대한 알고리즘은 아래 링크를 통해 볼 수 있다.https://footprints-toward-data-analysis.tistory.com/11 [Boosting] AdaBoost ClassifierBoosting의 대표적인 알고리즘인 AdaBoost 알고리즘에 대해서 알아보고자 한다. AdaBoost는 분류와 회귀 문제에 모두 사용할 수 있는 앙상블 모델로 오늘은 분류 문제를 다뤄보고자 한다. 1. AdaBoost Classifootprints-toward-data-analysis.tistory.com 0. Citrus 데이터1. AdaB..

지난번 AdaBoost 알고리즘을 분류에 대해서 공부해보았다. 이번 장에서는 AdaBoost를 회귀에 적용하는 알고리즘에 대해서 알아보고자 한다. AdaBoost Classifier 관련 정리 ↓https://footprints-toward-data-analysis.tistory.com/11 [Boosting] AdaBoost ClassifierBoosting의 대표적인 알고리즘인 AdaBoost 알고리즘에 대해서 알아보고자 한다. AdaBoost는 분류와 회귀 문제에 모두 사용할 수 있는 앙상블 모델로 오늘은 분류 문제를 다뤄보고자 한다. 1. AdaBoost Classifootprints-toward-data-analysis.tistory.com 1. AdaBoost Regressor Algorith..

Boosting의 대표적인 알고리즘인 AdaBoost 알고리즘에 대해서 알아보고자 한다. AdaBoost는 분류와 회귀 문제에 모두 사용할 수 있는 앙상블 모델로 오늘은 분류 문제를 다뤄보고자 한다. 1. AdaBoost Classifier Algorithm2. Simple example 1. AdaBoost Classifier AlgorithmAdaBoost는 Boosting 알고리즘이므로 오분류된 샘플들을 찾아 다음 분류기가 이를 집중적으로 학습할 수 있도록 하는 것이다. 약한 학습기 (weak learner)들을 적절하게 결합하여 강한 학습기 (strong learner)를 구성하며, 훈련 오류율(error rate)를 이용해 샘플의 가중치를 설정한다. - AdaBoost Classifier Alg..

오늘은 Bagging과 Boosting의 차이에 대해서 살펴보고 넘어가고자 한다. Bagging과 Boosting선형 회귀모델과 로지스틱 회귀모델 등은 하나의 모델을 생성해서 예측을 진행하였다.최근, 이러한 단일 모델보다는 여러 모델들을 결합한 앙상블 모델이 각광받고 있다. 앙상블 모델앙상블 모델은 다양한 분류기의 예측 결과를 결합함으로써 단일 모델보다 신뢰성이 높은 예측값을 생성한다. 또한, 비정형 분류 문제에서 딥러닝이 뛰어난 성능을 보이지만, 대부분 정형 데이터 분류에서는 앙상블 모델이 더 뛰어난 성능을 나타내고 있다. 핵심은 여러 개의 약분류기(weak learner)를 결합하여 하나의 강분류기(strong learner)를 생성하는 것이다. - 약한 학습기 (weak learner)약한 학습..