본문 바로가기

기타/글로컬청년취업사관학교

[TlL] 240617

 

편차, 오차, 잔차 

- 크면 클 수록 안좋음 

편차(Deviation) 평균값과 관측치 (개별값)의 차이
오차(error) 모집단의 회귀식 관측치 (개별값)의 차이
잔차 (Residual) 표본의 회귀식 관측치 (개별값)의 차이

 

빅데이터 분석

 

통계 

 a. 차이 검정 

 - T검정

  -> 집단이 2개 이하인 경우 

 

 - 분산분석(ANOVA)

  -> 집단이 3개 이상인 경우 

  

 

b. 관계검정

 

 - 교차분석(Chi Square)

 -> 범주형 자료(명목,서열)간의 관계 파악 

 

 - 상관분석(Correlation)

 -> 두 변수간의 선형적 관계가 존재하는지 알아보는 분석 방법 

 

 - 회귀분석(Regression)

  -> 주어진 (독립)변수로 (종속)변수를 예측하기 위해 

  -> 단순회귀  - 독립변수 1개 , 종속 변수 1개

  -> 다중회귀  - 독립변수 2개 이상, 종속 변수 1개 

 

 - 로지스틱 회귀분석(Logistic Regression)

 -> 이항 분포 (이진분류? 둘 중 하나를 결정)

 -> 시그모이드 함수 : 출력이 0과 1사이의 값을 가지면서 S자 형태로 그려지는 함수

sigmoid 함수

 

 

 

지도 - 분류 => AUC, ROC,

        - 수치예측 => R^2, RMSE

 

 

데이터 전처리 

 

 

 

 

훈련/검증용 데이터 분할 

 

- 데이터 속성이 똑같을 경우에는 변환기를 이용해서 한꺼번에 처리

- 그러나 실제 데이터에서는  범주형 변수와 연속변수가 혼합되어 있는 경우가 대부분

- 따라서 훈련/테스트 셋을 나눈후에 전처리 하기 보다는, 전처리 작업후에 훈련/테스트 셋을 구분하는 것이 필요 

 

 

test_size : 테스트 세트 비율

random_state : 무작위 시드 번호

stratify = y : 결과 레이블의 비율대로 분리 

모델 검정

 

 

-훈련된 모델을 이용해 테스트 데이터 검정

-정오 분류표(confuxion matrix)

-정확도, 정밀도, 재현율 등 

 

confusionMarix

 

- 분류 모델의 성능을 평가할 때 사용하는 평가지표 

https://shinminyong.tistory.com/28

 

Confusion Matrix의 손쉬운 이해

안녕하세요. 이번엔 봐도봐도 항상 헷갈릴 수 있는 Confusion Matrix 부터 AUC, ROC Curve에 대해서 설명해드리고자 합니다. 저희는 어떤 미지의 값을 예측할 때 예측에 대한 성능을 다양한 척도(Metric)로

shinminyong.tistory.com

 

- TP(True Positive) : 긍정 예측을 성공

- TN(True Negative) : 부정 예측을 성공

- FP(False Positive) : 긍정 예측을 실패 

- FN(False Negative) : 부정 예측을 실패 

 

 

  Predict
Positive Negative
Actual Positive TP FN
Negative FP TN

 

 

ROC(receiver operating characteristic)

- 보통 1- 특이도로 계산하기 때문에 민감도(TPR) 높고, 1-특이도(FPR)는 낮을수록 좋은 모델 

 

 

 

교차 검정(Cross Validation)

 

- 모델의 성능을 검증하기 위한 방법

- 홀드아웃 교차검정

- K-fold 교차 검증 

 

 

 

과적합(Overfitting)

 

- 학습용 데이터에 완전히 적합

- 학습 데이터를 과하게 학습 

- 학습용 집합에서 잡음(noise)도 모형화하기 때문에 평가용 집합에서 전체 오차는 일반적으로 증가 

 

학습 곡선(Learning Curve)

- 샘플 데이터의 수에 따른 정확도 변화 

 

검증 곡선(Validation Curve)

- 하이퍼 파라미터에 따른 정확도 변화 

 

 

 

하이퍼파리미터 튜닝

- 그리드 서치를 사용한 머신 러닝 모델 세부 튜닝

- 기계학습 모델의 성능을 결정하는 하이퍼 파라미터 튜닝

 

 

 

 

의사결정나무 

 

- 결정규칙(decision rule)을 나무구조(tree)로 도표화하여 분류(classification)와 예측(prediction)을 수행하는 분석방법 

- 예측 변수를 기반으로 결과를 분류하거나 예측

 

 

분석 방법

 

  예측 변수  결과 변수
범주형 수치형 범주형 수치형
의사결정나무
(분류나무)
o o o  
의사결정나무
(회귀나무)
o o   o

 

 

주요 방법

 

1) Trees and Rules 구조 

2)재귀적 분할 

3) 가지치기

 

 

 

 

의사결정나무 구분

 

1) 분류나무(Classification Tree)

 -  목표 변수 : 범주형 변수(분리) 

 -  분류 알고리즘과 불순수도 지표 

  

 

 

2) 회귀나무(Regression Tree) 

 - 목표 변수가 수치형 변수 -> 예측

 

 

재귀적 분할 알고리즘 

 

 

 

 

 

실습

https://github.com/jjiiiwooo/ML.git

 

GitHub - jjiiiwooo/ML

Contribute to jjiiiwooo/ML development by creating an account on GitHub.

github.com

 

 

'기타 > 글로컬청년취업사관학교' 카테고리의 다른 글

[TlL] 240619  (0) 2024.06.19
[TlL] 240618  (0) 2024.06.18
[TIL] 240614  (0) 2024.06.14
[TlL] 240613  (0) 2024.06.13
[TlL] 240612  (1) 2024.06.12