[TlL] 240617

편차, 오차, 잔차

- 크면 클 수록 안좋음

편차(Deviation)	평균값과 관측치 (개별값)의 차이
오차(error)	모집단의 회귀식과 관측치 (개별값)의 차이
잔차 (Residual)	표본의 회귀식과 관측치 (개별값)의 차이

빅데이터 분석

통계

a. 차이 검정

- T검정

-> 집단이 2개 이하인 경우

- 분산분석(ANOVA)

-> 집단이 3개 이상인 경우

b. 관계검정

- 교차분석(Chi Square)

-> 범주형 자료(명목,서열)간의 관계 파악

- 상관분석(Correlation)

-> 두 변수간의 선형적 관계가 존재하는지 알아보는 분석 방법

- 회귀분석(Regression)

-> 주어진 (독립)변수로 (종속)변수를 예측하기 위해

-> 단순회귀 - 독립변수 1개 , 종속 변수 1개

-> 다중회귀 - 독립변수 2개 이상, 종속 변수 1개

- 로지스틱 회귀분석(Logistic Regression)

-> 이항 분포 (이진분류? 둘 중 하나를 결정)

-> 시그모이드 함수 : 출력이 0과 1사이의 값을 가지면서 S자 형태로 그려지는 함수

지도 - 분류 => AUC, ROC,

- 수치예측 => R^2, RMSE

데이터 전처리

훈련/검증용 데이터 분할

- 데이터 속성이 똑같을 경우에는 변환기를 이용해서 한꺼번에 처리

- 그러나 실제 데이터에서는 범주형 변수와 연속변수가 혼합되어 있는 경우가 대부분

- 따라서 훈련/테스트 셋을 나눈후에 전처리 하기 보다는, 전처리 작업후에 훈련/테스트 셋을 구분하는 것이 필요

test_size : 테스트 세트 비율

random_state : 무작위 시드 번호

stratify = y : 결과 레이블의 비율대로 분리

모델 검정

-훈련된 모델을 이용해 테스트 데이터 검정

-정오 분류표(confuxion matrix)

-정확도, 정밀도, 재현율 등

confusionMarix

- 분류 모델의 성능을 평가할 때 사용하는 평가지표

https://shinminyong.tistory.com/28

Confusion Matrix의 손쉬운 이해

안녕하세요. 이번엔 봐도봐도 항상 헷갈릴 수 있는 Confusion Matrix 부터 AUC, ROC Curve에 대해서 설명해드리고자 합니다. 저희는 어떤 미지의 값을 예측할 때 예측에 대한 성능을 다양한 척도(Metric)로

shinminyong.tistory.com

- TP(True Positive) : 긍정 예측을 성공

- TN(True Negative) : 부정 예측을 성공

- FP(False Positive) : 긍정 예측을 실패

- FN(False Negative) : 부정 예측을 실패

		Predict
		Positive	Negative
Actual	Positive	TP	FN
Actual	Negative	FP	TN

ROC(receiver operating characteristic)

- 보통 1- 특이도로 계산하기 때문에 민감도(TPR) 높고, 1-특이도(FPR)는 낮을수록 좋은 모델

교차 검정(Cross Validation)

- 모델의 성능을 검증하기 위한 방법

- 홀드아웃 교차검정

- K-fold 교차 검증

과적합(Overfitting)

- 학습용 데이터에 완전히 적합

- 학습 데이터를 과하게 학습

- 학습용 집합에서 잡음(noise)도 모형화하기 때문에 평가용 집합에서 전체 오차는 일반적으로 증가

학습 곡선(Learning Curve)

- 샘플 데이터의 수에 따른 정확도 변화

검증 곡선(Validation Curve)

- 하이퍼 파라미터에 따른 정확도 변화

하이퍼파리미터 튜닝

- 그리드 서치를 사용한 머신 러닝 모델 세부 튜닝

- 기계학습 모델의 성능을 결정하는 하이퍼 파라미터 튜닝

의사결정나무

- 결정규칙(decision rule)을 나무구조(tree)로 도표화하여 분류(classification)와 예측(prediction)을 수행하는 분석방법

- 예측 변수를 기반으로 결과를 분류하거나 예측

분석 방법

	예측 변수		결과 변수
	범주형	수치형	범주형	수치형
의사결정나무 (분류나무)	o	o	o
의사결정나무 (회귀나무)	o	o		o

주요 방법

1) Trees and Rules 구조

2)재귀적 분할

3) 가지치기

의사결정나무 구분

1) 분류나무(Classification Tree)

- 목표 변수 : 범주형 변수(분리)

- 분류 알고리즘과 불순수도 지표

2) 회귀나무(Regression Tree)

- 목표 변수가 수치형 변수 -> 예측

재귀적 분할 알고리즘

실습

https://github.com/jjiiiwooo/ML.git

GitHub - jjiiiwooo/ML

Contribute to jjiiiwooo/ML development by creating an account on GitHub.

github.com

'기타 > 글로컬청년취업사관학교' 카테고리의 다른 글

[TlL] 240619 (0)	2024.06.19
[TlL] 240618 (0)	2024.06.18
[TIL] 240614 (0)	2024.06.14
[TlL] 240613 (0)	2024.06.13
[TlL] 240612 (1)	2024.06.12

JuSoft

[TlL] 240617

편차, 오차, 잔차

빅데이터 분석

통계

a. 차이 검정

b. 관계검정

데이터 전처리

훈련/검증용 데이터 분할

모델 검정

confusionMarix

ROC(receiver operating characteristic)

교차 검정(Cross Validation)

과적합(Overfitting)

학습 곡선(Learning Curve)

검증 곡선(Validation Curve)

하이퍼파리미터 튜닝

의사결정나무

분석 방법

주요 방법

의사결정나무 구분

재귀적 분할 알고리즘

실습

'기타 > 글로컬청년취업사관학교' 카테고리의 다른 글

티스토리툴바

[TlL] 240617

편차, 오차, 잔차

빅데이터 분석

통계

a. 차이 검정

b. 관계검정

데이터 전처리

훈련/검증용 데이터 분할

모델 검정

confusionMarix

ROC(receiver operating characteristic)

교차 검정(Cross Validation)

과적합(Overfitting)

학습 곡선(Learning Curve)

검증 곡선(Validation Curve)

하이퍼파리미터 튜닝

의사결정나무

분석 방법

주요 방법

의사결정나무 구분

재귀적 분할 알고리즘

실습

'기타 > 글로컬청년취업사관학교' 카테고리의 다른 글

'기타/글로컬청년취업사관학교' Related Articles

티스토리툴바