일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- C4.5
- gradientdescent
- 중선형회귀
- 군집화기법
- KNearestNeighbors
- 최소제곱법
- 사후 가지치기
- 선형회귀
- 의사결정나무
- 선형모형
- 경사하강법
- LinearRegression
- 실제데이터활용
- 회귀분석
- AdaBoostRegressor
- AdaBoostClassifier
- boosting
- LeastSquare
- MultipleLinearRegression
- 부스팅기법
- pre pruning
- 체인지업후기
- 사전 가지치기
- 아다부스트
- 정보이득
- post pruning
- Adaboost
- cost complexity pruning
- 캘리포니아주택가격예측
- 부스팅
- Today
- Total
목록경사하강법 (4)
데이터 분석을 향한 발자취 남기기

오늘은 공부한 로지스틱 회귀분석을 이용해 Iris 데이터의 꽃 종류를 분류하고자 한다.Iris 데이터를 이용해 이진 분류(2개 클래스)와 다중 분류(3개 클래스 이상)에 대해 로지스틱 회귀분석을 어떻게 구현하는지 알아보고자 한다. 0. 데이터 설명1. 이진 분류2. 다중 분류0. 데이터 설명데이터는 사이킷런으로부터 쉽게 사용할 수 있으며, 반응변수를 제외한 모든 설명변수들은 연속형 변수로 구성된다. 데이터 분석의 목적은 꽃의 정보를 이용해 꽃의 종류를 예측하는 것이다. 총 데이터 개수는 150개이다. 꽃의 종류는 setosa, versicolor, virginica이며, 각 클래스마다 50개의 데이터가 주어진다.- 변수들의 분포설명변수가 모두 연속형이므로 커널밀도함수를 통해 분포를 확인하였다. 꽃받침 ..

이전에 공부한 경사하강법을 이용해 선형회귀를 구현해보고자 한다. 그에 앞서, 사용한 데이터를 정리하고자 한다. 그후, 경사하강법을 통해 예측값들을 생성하고 이를 사이킷런의 선형회귀 모듈과 비교하고자 한다. 0. 캘리포니아 주택 가격 데이터1. 경사하강법 적용2. 예측결과 비교 0. 캘리포니아 주택 가격 데이터 모델 적용에 앞서, 데이터를 분석하고자 한다. 데이터는 사이킷런으로부터 쉽게 접근할 수 있으며, 모든 변수들이 연속형 변수로 구성되어있다. 데이터 분석의 목적은 캘리포니아 지역의 주택 가격을 예측하는 모델을 생성하는 것이다. 데이터는 아래와 같이 구성되어있으며 총 20,640개이다. - 상관관계상관관계 분석을 통해, 주택의 가격(MedHouseVal)은 소득(MedInc)과 강한 양의 상관관계를 ..

우리가 예측하고자 하는 값이 실수, 연속적인 값을 갖는 경우 선형회귀분석을 이용해 이를 설명하는 모델을 탐색한다. 하지만, 만약 우리가 예측하고자 하는 값이 "예/아니오", "10대/20대/30대"와 같이 분류 문제가 주어지면 어떻게 해야할까? 로지스틱 회귀분석은 이러한 분류 문제를 해결하기 위한 방법이다. 로지스틱 회귀분석을 사용하면 수학쪽지시험을 통과할 수 있을까? 에 대해 "90%의 확률로 통과한다"와 같이 답변할 수 있다. 오늘은 로지스틱 회귀분석을 이해하고 유도해보고자 한다. 0. 시그모이드 함수1. 로지스틱 회귀분석2. 최대우도법3. 경사하강법0. 시그모이드 함수$(-\infty, \infty)$ 사이 값을 예측하는 선형회귀분석과 달리 로지스틱 회귀분석은 $[0, 1]$ 사이 확률 값을 출력..

회귀계수의 개수가 적으면, 고차원 방정식으로 비용함수가 최소가 되는 계수를 탐색할 순 있지만, 회귀계수의 개수가 많으면 고차원 방정식을 동원하더라도 풀기 어려운 문제가 존재한다. 비용함수 (cost function): 실제값과 예측값 사이 오차를 나타내는 것으로 오차제곱의 평균인 Mean Squared Error(MSE), 절대오차의 평균인 Mean Absolute Error(MAE) 등 다양하게 존재한다. 비용함수의 값이 작을수록, 가설함수가 실제함수와 유사하다는 것을 의미한다.주어진 데이터 $(x_{1}, y_{1}), \cdots , (x_{m}, y_{m})$에 대해, $y$는 실제값, $h(x) = ax+b$는 가설함수라 할 때, 비용함수 ($cost(a, b)$)는 다음과 같이 정의할 수 있다..