[혼공] ch 3. 회귀 알고리즘과 모델 규제

1. K-최근접 이웃 회귀

농의 높이, 길이 등의 수치로 농어의 무게를 예측하라

1) k-최근접 이웃 회귀

- 지도 학습은 분류와 회귀(regression)로 나뉜다.

- 회귀는 클래스 중 하나로 분류하는 것이 아니라 임의의 어떤 숫자를 예측하는 문제

- 이웃한 샘플의 타깃은 어떤 클래스가 아니라 임의의 수치

- 샘플의 수치를 이용해 새로운 샘플 X의 타깃을 에측하기 위해 수치들의 평균을 구함

- 가장 먼저 가까운 k개의 이웃을 찾고 이웃 샘플의 타깃값을 평균하여 이 샘플의 예측값으로 사용

2) 데이터 준비

import numpy as np

perch_length = np.array([8.4, 13.7, 15.0, 16.2, 17.4, 18.0, 18.7, 19.0, 19.6, 20.0, 21.0,
       21.0, 21.0, 21.3, 22.0, 22.0, 22.0, 22.0, 22.0, 22.5, 22.5, 22.7,
       23.0, 23.5, 24.0, 24.0, 24.6, 25.0, 25.6, 26.5, 27.3, 27.5, 27.5,
       27.5, 28.0, 28.7, 30.0, 32.8, 34.5, 35.0, 36.5, 36.0, 37.0, 37.0,
       39.0, 39.0, 39.0, 40.0, 40.0, 40.0, 40.0, 42.0, 43.0, 43.0, 43.5,
       44.0])
perch_weight = np.array([5.9, 32.0, 40.0, 51.5, 70.0, 100.0, 78.0, 80.0, 85.0, 85.0, 110.0,
       115.0, 125.0, 130.0, 120.0, 120.0, 130.0, 135.0, 110.0, 130.0,
       150.0, 145.0, 150.0, 170.0, 225.0, 145.0, 188.0, 180.0, 197.0,
       218.0, 300.0, 260.0, 265.0, 250.0, 250.0, 300.0, 320.0, 514.0,
       556.0, 840.0, 685.0, 700.0, 700.0, 690.0, 900.0, 650.0, 820.0,
       850.0, 900.0, 1015.0, 820.0, 1100.0, 1000.0, 1100.0, 1000.0,
       1000.0])

- 데이터가 어떤 형태를 띠고 있는지 산점도 그리기

- 하나의 특성을 사용하기 때문에 특성 데이터를 x축에 놓고 타깃 데이터를 y축에 놓는다.

- 맷플롯립을 임포트하고 scatter() 함수를 사용하여 산점도를 그린다.

import matplotlib.pyplot as plt
plt.scatter(perch_length, perch_weight)
plt.xlabel('length')
plt.ylabel('weight')
plt.show()

- 농어 데이터를 머신러닝 모델에 사용하기 전에 훈련 세트와 테스트 세트로 나눈다.

- 사이킷런의 train_test_split() 함수를 사용

train_input, test_input, train_target, test_target = train_test_split(
    perch_length, perch_weight, random_state=42)

- 사이킷런에 사용할 훈련 세트는 2차원 배열이어야 함

- 넘파이 reshape() 메서드를 이용해 train_input과 test_input을 2차원 배열로 변환

- 파이썬에서 1차원 배열의 크기는 원소가 1개인 튜플로 나타냄

- 크기에 -1을 지정하면 나머지 원소 개수로 모두 채우라는 의미

train_input = train_input.reshape(-1, 1)
test_input = test_input.reshape(-1, 1)
print(train_input.shape, test_input.shape)

3) 결정 계수(R^2)

- 사이킷런에서 K-최근접 이웃 알고리즘을 구현한 클래스는 KNeighborsRegressor이다.

- 객체를 생성하고 fit() 메서드로 회귀 모델을 훈련

from sklearn.neighbors import KNeighborsRegressor
knr = KNeighborsRegressor()
knr.fit(train_input, train_target)

- 테스트 세트의 점수 확인

knr.score(test_input,test_target)

- 회귀의 경우에는 결정계수(coefficient of determination)으로 평가

- 만약 타깃의 평균 정도를 예측하는 수준이라면(분자와 분모가 비슷해져) R^2는 0에 가까워지고, 예측이 타깃에 아주 가까워지면(분자가 0에 가까워지기 때문에) 1에 가까운 값이 된다.

- 1에 가까울수록 좋고, 0에 가깝다면 성능이 나쁜 모델

- 타깃과 예측한 값 사이의 차이를 구해보면 어느 정도 예측이 벗어났는지 확인하기 좋다.

- mean_absolute_error는 타깃과 예측의 절댓값 오차를 평균하여 반환

from sklearn.metrics import mean_absolute_error
# 테스트 세트에 대한 예측을 만듭니다
test_prediction = knr.predict(test_input)
# 테스트 세트에 대한 평균 절댓값 오차를 계산합니다
mae = mean_absolute_error(test_target, test_prediction)
print(mae)

- 예측이 평균적으로 19g 정도 타깃값과 다르다는 것을 알 수 있다.

4) 과대 적합 vs 과소 적합

- 훈련 세트에서 점수가 좋았는데 테스트 세트에서는 점수가 나쁘다면 모델이 훈련 세트에 과대적합(overfitting) 된 것

- 훈련 세트보다 테스트 세트의 점수가 높거나 두 점수가 모두 낮은 경우에는 모델이 훈련 세트에 과소적합(underfitting)된 것

- 훈련 세트의 R^2 점수 확인

-> 훈련 세트보다 테스트 세트의 점수가 높으니 과소 적합

->모델을 조금 더 복잡하게 만들어서 해결

print(knr.score(train_input, train_target))

- 이웃의 개수 K를 줄여서 모델을 복잡하게 만들기

- 이웃의 개수를 줄이면 훈련 세트에 있는 국지적인 패턴에 민감해진다.

- 이웃의 개수를 늘리면 데이터 전반에 있는 일반적인 패턴을 따를 것이다.

# 이웃의 갯수를 3으로 설정합니다
knr.n_neighbors = 3
# 모델을 다시 훈련합니다
knr.fit(train_input, train_target)
print(knr.score(train_input, train_target)) #훈련 
print(knr.score(test_input,test_target)) #테스트

- 테스트 세트의 점수는 훈련 세트보다 낮아졌으므로 과소 적합 문제 해결

2. 선형 회귀

1) K-최근접 이웃의 한계

print(knr.predict([[50]]))

- 50cm 농어의 무게를 1.033g 정도로 예측함

# 50cm 농어의 이웃을 구합니다
distances, indexes = knr.kneighbors([[50]])

# 훈련 세트의 산점도를 그립니다
plt.scatter(train_input, train_target)
# 훈련 세트 중에서 이웃 샘플만 다시 그립니다
plt.scatter(train_input[indexes], train_target[indexes], marker='D')
# 50cm 농어 데이터
plt.scatter(50, 1033, marker='^')
plt.xlabel('length')
plt.ylabel('weight')
plt.show()

- k- 최근접 이웃 회귀는 가장 가까운 샘플을 찾아 타깃을 평균한다. 따라서 새로운 샘플이 훈련 세트의 범위를 벗어나면 엉뚱한 값을 예측할 수 있다.

print(knr.predict([[100]]))

# 100cm 농어의 이웃을 구합니다
distances, indexes = knr.kneighbors([[100]])

# 훈련 세트의 산점도를 그립니다
plt.scatter(train_input, train_target)
# 훈련 세트 중에서 이웃 샘플만 다시 그립니다
plt.scatter(train_input[indexes], train_target[indexes], marker='D')
# 100cm 농어 데이터
plt.scatter(100, 1033, marker='^')
plt.xlabel('length')
plt.ylabel('weight')
plt.show()

2) 선형 회귀

선형 회귀(linear regression)

- 특성이 하나인 경우 어떤 직선을 학습하는 알고리즘

- 훈련 세트에 잘 맞는 직선의 방정식을 찾는 것

- 가장 잘맞는 직선의 방정식을 찾는다는 것은 최적의 기울기와 절편을 구한다는 의미

- sklearn.linear_model 패키지 아래에 LinearRegression 클래스로 선형 회귀 알고리즘 구현

from sklearn.linear_model import LinearRegression
lr = LinearRegression()
# 선형 회귀 모델 훈련
lr.fit(train_input, train_target)


# 50cm 농어에 대한 예측
print(lr.predict([[50]]))

- x = 농어의 길이, y = 농어의 무게

- LinearRegression 클래스가 찾은 a와 b는 lr객체에 coef_와 intercept_ 속성에 저장되어 있다.

print(lr.coef_, lr.intercept_)

# 훈련 세트의 산점도를 그립니다
plt.scatter(train_input, train_target)
# 15에서 50까지 1차 방정식 그래프를 그립니다
plt.plot([15, 50], [15*lr.coef_+lr.intercept_, 50*lr.coef_+lr.intercept_])
# 50cm 농어 데이터
plt.scatter(50, 1241.8, marker='^')
plt.xlabel('length')
plt.ylabel('weight')
plt.show()

- 이 직선이 선형 회귀 알고리즘이 이 데이터셋에서 찾은 최적의 직선

print(lr.score(train_input, train_target))
print(lr.score(test_input, test_target))

모델 파라미터(model parameter)

- 선형 회귀가 찾은 가중치처럼 머신러닝 모델이 특성에서 학습한 파라미터

3) 다항 회귀

- 다항식(polynomial)을 사용한 선형 회귀

- 농어의 길이와 무게에 대한 산점도를 자세히 보면 일직선이라기보다 왼쪽 위로 조금 구부러진 곡선에 가까움

- 2차 방정식의 그래프를 그리려면 길이를 제곱한 항이 훈련 세트에 추가되어야 한다.

train_poly = np.column_stack((train_input ** 2, train_input))
test_poly = np.column_stack((test_input ** 2, test_input))

print(train_poly.shape, test_poly.shape)

- train_poly를 사용해 선형 회귀 모델 다시 훈련

lr = LinearRegression()
lr.fit(train_poly, train_target)

print(lr.predict([[50**2, 50]]))

print(lr.coef_, lr.intercept_)

- 모델은 무게 = 1.01 * 길이^2 - 21.6*길이 + 116.05 의 그래프를 학습

# 구간별 직선을 그리기 위해 15에서 49까지 정수 배열을 만듭니다
point = np.arange(15, 50)
# 훈련 세트의 산점도를 그립니다
plt.scatter(train_input, train_target)
# 15에서 49까지 2차 방정식 그래프를 그립니다
plt.plot(point, 1.01*point**2 - 21.6*point + 116.05)
# 50cm 농어 데이터
plt.scatter([50], [1574], marker='^')
plt.xlabel('length')
plt.ylabel('weight')
plt.show()

- 훈련 세트와 테스트 세트의 R^2 점수 평가

-> 훈련 세트와 테스트 세트에 대한 점수가 전보다 높아짐

-> but 테스트 세트의 점수가 조금 더 높음 , 과소 적합이 아직 남아 있음

print(lr.score(train_poly, train_target))
print(lr.score(test_poly, test_target))

3. 특성 공학과 규제

1) 다중 회귀 (multiple regression)

- 여러 개의 특성을 활용한 선형 회귀

- 특성이 2개면 선형회귀는 평면을 학습함

- 특성이 2개면 타깃값과 함께 3차원 공간을 형성하고 선형 회귀 방정식 '타깃=a*특성 1 + b*특성2 + 절편'은 평면이 된다.

- 농어의 길이뿐만 아니라 농어의 높이와 두께도 함께 사용

특성공학(feature engineering)

- 기존의 특성을 사용해 새로운 특성을 뽑아내는 작업

2) 데이터 준비

- 판다스(pandas)는 유명한 데이터 분석 라이브러리

- 데이터프레임(dataframe)은 판다스의 핵심 데이터 구조

- 판다스를 사용해 농어 데이터를 인터넷에서 내려받아 데이터프레임에 저장

- 그 다음 넘파이 배열로 변환하여 선형 회귀모델을 훈련

- read_csv() 함수로 데이터프레임을 만든 다음 to_numpy() 메서드를 사용해 넘파이 배열로 바꿈

df = pd.read_csv('https://bit.ly/perch_csv_data')
perch_full = df.to_numpy()
print(perch_full)

- 타깃 데이터

import numpy as np

perch_weight = np.array(
    [5.9, 32.0, 40.0, 51.5, 70.0, 100.0, 78.0, 80.0, 85.0, 85.0,
     110.0, 115.0, 125.0, 130.0, 120.0, 120.0, 130.0, 135.0, 110.0,
     130.0, 150.0, 145.0, 150.0, 170.0, 225.0, 145.0, 188.0, 180.0,
     197.0, 218.0, 300.0, 260.0, 265.0, 250.0, 250.0, 300.0, 320.0,
     514.0, 556.0, 840.0, 685.0, 700.0, 700.0, 690.0, 900.0, 650.0,
     820.0, 850.0, 900.0, 1015.0, 820.0, 1100.0, 1000.0, 1100.0,
     1000.0, 1000.0]
     )

- perch_full과 perch_weight를 훈련 세트와 테스트 세트로 나눔

from sklearn.model_selection import train_test_split

train_input, test_input, train_target, test_target = train_test_split(perch_full, perch_weight, random_state=42)

3) 사이킷런의 변환기

- 사이킷런은 특성을 만들거나 전처리하기 위한 다양한 클래스를 제공

- 사이킷런에서는 이런 클래스를 변환기(transformer)라고 부름

- PolynomialFeatures 클래스

ex)

from sklearn.preprocessing import PolynomialFeatures
poly = PolynomialFeatures()
poly.fit([[2, 3]])
print(poly.transform([[2, 3]]))

- fit() 메서드는 새롭게 만들 특성 조합을 찾고 transform() 메서드는 실제로 데이터를 변환

- PolynomialFeatures 클래스는 기본적으로 각 특성을 제곱한 항을 추가하고 특성끼리 서로 곱한 항을 추가

poly = PolynomialFeatures(include_bias=False)
poly.fit([[2, 3]])
print(poly.transform([[2, 3]]))

- 절편을 위한 항이 제거되고 특성의 제곱과 특성끼리 곱한 항만 추가됨

- train_input을 변환한 데이터를 train_poly에 저장하고 이 배열의 크기 확인

poly = PolynomialFeatures(include_bias=False)

poly.fit(train_input)
train_poly = poly.transform(train_input)
print(train_poly.shape)

- get_feature_names_out() 메서드를 호출하면 9개의 특성이 각각 어떤 입력의 조합으로 만들어졌는지 알려 준다.

poly.get_feature_names_out()

- 테스트 세트를 변환하고 다중 회귀 모델을 훈련

test_poly = poly.transform(test_input)

4) 다중 회귀 모델 훈련하기

- 사이킷런의 LinearRegression 클래스를 임포트하고 train_poly를 사용해 모델을 훈련

from sklearn.linear_model import LinearRegression

lr = LinearRegression()
lr.fit(train_poly, train_target)
print(lr.score(train_poly, train_target))

- 농어의 길이뿐만 아니라 높이와 두께를 모두 사용했고 각 특성을 제곱하거나 서로 곱해서 다항 특성을 더 추가한 결과 높은 점수가 나옴

- 테스트 세트에 대한 점수

print(lr.score(test_poly, test_target))

- PolynomialFeatures 클래스의 degree 매개변수를 사용하여 필요한 고차항의 최대 차수를 지정할 수 있다.

poly = PolynomialFeatures(degree=5, include_bias=False)

poly.fit(train_input)
train_poly = poly.transform(train_input)
test_poly = poly.transform(test_input)
print(train_poly.shape)

lr.fit(train_poly, train_target)
print(lr.score(train_poly, train_target))

print(lr.score(test_poly, test_target))

- 테스트 세트에 대한 점수가 음수로 나옴 -> 훈련 세트에 과대적합됨

5) 규제

규제(regularization)

- 머신러닝 모델이 훈련 세트를 너무 과도하게 학습하지 못하도록 훼방하는 것

- 모델이 훈련 세트에 과대적합되지 않도록 만드는 것

- 선형 회귀 모델의 경우 특성에 곱해지는 계수(또는 기울기)를 작게 만드는 일

- 규제를 적용하기 전에 특성의 스케일의 정규화 과정 필요

- 사이킷런에서 제공하는 StandardScaler 클래스 사용

- StandardScaler 클래스의 객체 ss를 초기화한 후 PolynomialFeatures 클래스로 만든 train_poly를 사용해 이 객체를 훈련

from sklearn.preprocessing import StandardScaler

ss = StandardScaler()
ss.fit(train_poly)

train_scaled = ss.transform(train_poly)
test_scaled = ss.transform(test_poly)

- 선형 회귀 모델에 규제를 추가한 모델을 릿지(ridge)와 라쏘(lasso)라고 부른다,

6) 릿지 회귀

- 계수를 제곱한 값을 기준으로 규제를 적용

from sklearn.linear_model import Ridge

ridge = Ridge()
ridge.fit(train_scaled, train_target)
print(ridge.score(train_scaled, train_target))

print(ridge.score(test_scaled, test_target))

- 테스트 세트 점수가 정상으로 돌아옴

- 모델 객체를 만들 때 alpha 매개변수로 규제의 강도를 조절

- alpha 값이 크면 규제 강도가 세지므로 계수 값을 더 줄이고 조금 더 과소적합되도록 유도

- alpha 값이 작으면 계수를 줄이는 역할이 줄어들고 선형 회귀 모델과 유사해지므로 과대적합될 가능성이 크다.

- 적절한 alpha값을 찾는 방법은 alpha값에 대한 R^2값의 그래프를 그려보는 것

- 훈련 세트와 테스트 세트의 점수가 가장 가까운 지점이 최적의 alpha값이 된다.

-> aplha값을 0.001에서 100까지 10배씩 늘려가며 릿지 회귀 모델을 훈련한 다음 훈련 세트와 테스트 세트의 점수를 파이썬 리스트에 저장

import matplotlib.pyplot as plt

train_score = []
test_score = []

alpha_list = [0.001, 0.01, 0.1, 1, 10, 100]
for alpha in alpha_list:
    # 릿지 모델을 만듭니다
    ridge = Ridge(alpha=alpha)
    # 릿지 모델을 훈련합니다
    ridge.fit(train_scaled, train_target)
    # 훈련 점수와 테스트 점수를 저장합니다
    train_score.append(ridge.score(train_scaled, train_target))
    test_score.append(ridge.score(test_scaled, test_target))


plt.plot(np.log10(alpha_list), train_score)
plt.plot(np.log10(alpha_list), test_score)
plt.xlabel('alpha')
plt.ylabel('R^2')
plt.show()

- 적절한 alpha 값은 두 그래프가 가장 가깝고 테스트 점수가 가장 높은 -1(0.1)이다.

- alpha값을 0.1로 하여 최종 모델을 훈련

ridge = Ridge(alpha=0.1)
ridge.fit(train_scaled, train_target)

print(ridge.score(train_scaled, train_target))
print(ridge.score(test_scaled, test_target))

7) 라쏘 회귀

- 계수의 절댓값을 기준으로 규제를 적용

from sklearn.linear_model import Lasso

lasso = Lasso()
lasso.fit(train_scaled, train_target)
print(lasso.score(train_scaled, train_target))
print(lasso.score(test_scaled, test_target))

train_score = []
test_score = []

alpha_list = [0.001, 0.01, 0.1, 1, 10, 100]
for alpha in alpha_list:
    # 라쏘 모델을 만듭니다
    lasso = Lasso(alpha=alpha, max_iter=10000)
    # 라쏘 모델을 훈련합니다
    lasso.fit(train_scaled, train_target)
    # 훈련 점수와 테스트 점수를 저장합니다
    train_score.append(lasso.score(train_scaled, train_target))
    test_score.append(lasso.score(test_scaled, test_target))


plt.plot(np.log10(alpha_list), train_score)
plt.plot(np.log10(alpha_list), test_score)
plt.xlabel('alpha')
plt.ylabel('R^2')
plt.show()

- 라쏘 모델에서 최적의 alpha 값은 1(10)이다. 이 값으로 다시 모델을 훈련

lasso = Lasso(alpha=10)
lasso.fit(train_scaled, train_target)

print(lasso.score(train_scaled, train_target))
print(lasso.score(test_scaled, test_target))

- 릿지와 마찬가지로 라쏘 모델이 과대적합을 잘 억제하고 테스트 성능을 크게 높임

- 라쏘 모델은 계수 값을 아예 0으로 만들 수 있다.

- 라쏘 모델의 계수는 coef_속성에 저장되어 있음

print(np.sum(lasso.coef_==0))

'데이터 > 머신러닝' 카테고리의 다른 글

[혼공] ch 6. 비지도 학습 (0)	2024.06.28
[혼공] ch 5. 트리 알고리즘 (0)	2024.06.27
[혼공] ch 4. 다양한 분류 알고리즘 (0)	2024.06.26
[혼공] ch 2. 데이터 다루기 (0)	2023.12.25
[혼공] ch 1. 나의 첫 머신러닝 (1)	2023.12.23

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

JuSoft

[혼공] ch 3. 회귀 알고리즘과 모델 규제

1. K-최근접 이웃 회귀

농의 높이, 길이 등의 수치로 농어의 무게를 예측하라

1) k-최근접 이웃 회귀

2) 데이터 준비

3) 결정 계수(R^2)

4) 과대 적합 vs 과소 적합

2. 선형 회귀

1) K-최근접 이웃의 한계

2) 선형 회귀

선형 회귀(linear regression)

모델 파라미터(model parameter)

3) 다항 회귀

3. 특성 공학과 규제

1) 다중 회귀 (multiple regression)

특성공학(feature engineering)

2) 데이터 준비

3) 사이킷런의 변환기

4) 다중 회귀 모델 훈련하기

5) 규제

규제(regularization)

6) 릿지 회귀

7) 라쏘 회귀

'데이터 > 머신러닝' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

[혼공] ch 3. 회귀 알고리즘과 모델 규제

1. K-최근접 이웃 회귀

농의 높이, 길이 등의 수치로 농어의 무게를 예측하라

1) k-최근접 이웃 회귀

2) 데이터 준비

3) 결정 계수(R^2)

4) 과대 적합 vs 과소 적합

2. 선형 회귀

1) K-최근접 이웃의 한계

2) 선형 회귀

선형 회귀(linear regression)

모델 파라미터(model parameter)

3) 다항 회귀

3. 특성 공학과 규제

1) 다중 회귀 (multiple regression)

특성공학(feature engineering)

2) 데이터 준비

3) 사이킷런의 변환기

4) 다중 회귀 모델 훈련하기

5) 규제

규제(regularization)

6) 릿지 회귀

7) 라쏘 회귀

'데이터 > 머신러닝' 카테고리의 다른 글

'데이터/머신러닝' Related Articles

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역