일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- 캘리포니아주택가격예측
- 아다부스트
- 선형회귀
- 선형모형
- MultipleLinearRegression
- 최소제곱법
- AdaBoostClassifier
- post pruning
- LinearRegression
- 정보이득
- boosting
- 부스팅기법
- 의사결정나무
- 군집화기법
- 사전 가지치기
- 경사하강법
- gradientdescent
- LeastSquare
- 체인지업후기
- cost complexity pruning
- AdaBoostRegressor
- C4.5
- 실제데이터활용
- 사후 가지치기
- pre pruning
- 중선형회귀
- KNearestNeighbors
- Adaboost
- 회귀분석
- 부스팅
- Today
- Total
목록gradientdescent (2)
데이터 분석을 향한 발자취 남기기

오늘은 공부한 로지스틱 회귀분석을 이용해 Iris 데이터의 꽃 종류를 분류하고자 한다.Iris 데이터를 이용해 이진 분류(2개 클래스)와 다중 분류(3개 클래스 이상)에 대해 로지스틱 회귀분석을 어떻게 구현하는지 알아보고자 한다. 0. 데이터 설명1. 이진 분류2. 다중 분류0. 데이터 설명데이터는 사이킷런으로부터 쉽게 사용할 수 있으며, 반응변수를 제외한 모든 설명변수들은 연속형 변수로 구성된다. 데이터 분석의 목적은 꽃의 정보를 이용해 꽃의 종류를 예측하는 것이다. 총 데이터 개수는 150개이다. 꽃의 종류는 setosa, versicolor, virginica이며, 각 클래스마다 50개의 데이터가 주어진다.- 변수들의 분포설명변수가 모두 연속형이므로 커널밀도함수를 통해 분포를 확인하였다. 꽃받침 ..

회귀계수의 개수가 적으면, 고차원 방정식으로 비용함수가 최소가 되는 계수를 탐색할 순 있지만, 회귀계수의 개수가 많으면 고차원 방정식을 동원하더라도 풀기 어려운 문제가 존재한다. 비용함수 (cost function): 실제값과 예측값 사이 오차를 나타내는 것으로 오차제곱의 평균인 Mean Squared Error(MSE), 절대오차의 평균인 Mean Absolute Error(MAE) 등 다양하게 존재한다. 비용함수의 값이 작을수록, 가설함수가 실제함수와 유사하다는 것을 의미한다.주어진 데이터 $(x_{1}, y_{1}), \cdots , (x_{m}, y_{m})$에 대해, $y$는 실제값, $h(x) = ax+b$는 가설함수라 할 때, 비용함수 ($cost(a, b)$)는 다음과 같이 정의할 수 있다..