편차, 오차, 잔차
- 크면 클 수록 안좋음
편차(Deviation) | 평균값과 관측치 (개별값)의 차이 |
오차(error) | 모집단의 회귀식과 관측치 (개별값)의 차이 |
잔차 (Residual) | 표본의 회귀식과 관측치 (개별값)의 차이 |
빅데이터 분석
통계
a. 차이 검정
- T검정
-> 집단이 2개 이하인 경우
- 분산분석(ANOVA)
-> 집단이 3개 이상인 경우
b. 관계검정
- 교차분석(Chi Square)
-> 범주형 자료(명목,서열)간의 관계 파악
- 상관분석(Correlation)
-> 두 변수간의 선형적 관계가 존재하는지 알아보는 분석 방법
- 회귀분석(Regression)
-> 주어진 (독립)변수로 (종속)변수를 예측하기 위해
-> 단순회귀 - 독립변수 1개 , 종속 변수 1개
-> 다중회귀 - 독립변수 2개 이상, 종속 변수 1개
- 로지스틱 회귀분석(Logistic Regression)
-> 이항 분포 (이진분류? 둘 중 하나를 결정)
-> 시그모이드 함수 : 출력이 0과 1사이의 값을 가지면서 S자 형태로 그려지는 함수
지도 - 분류 => AUC, ROC,
- 수치예측 => R^2, RMSE
데이터 전처리
훈련/검증용 데이터 분할
- 데이터 속성이 똑같을 경우에는 변환기를 이용해서 한꺼번에 처리
- 그러나 실제 데이터에서는 범주형 변수와 연속변수가 혼합되어 있는 경우가 대부분
- 따라서 훈련/테스트 셋을 나눈후에 전처리 하기 보다는, 전처리 작업후에 훈련/테스트 셋을 구분하는 것이 필요
test_size : 테스트 세트 비율
random_state : 무작위 시드 번호
stratify = y : 결과 레이블의 비율대로 분리
모델 검정
-훈련된 모델을 이용해 테스트 데이터 검정
-정오 분류표(confuxion matrix)
-정확도, 정밀도, 재현율 등
confusionMarix
- 분류 모델의 성능을 평가할 때 사용하는 평가지표
https://shinminyong.tistory.com/28
- TP(True Positive) : 긍정 예측을 성공
- TN(True Negative) : 부정 예측을 성공
- FP(False Positive) : 긍정 예측을 실패
- FN(False Negative) : 부정 예측을 실패
Predict | |||
Positive | Negative | ||
Actual | Positive | TP | FN |
Negative | FP | TN |
ROC(receiver operating characteristic)
- 보통 1- 특이도로 계산하기 때문에 민감도(TPR) 높고, 1-특이도(FPR)는 낮을수록 좋은 모델
교차 검정(Cross Validation)
- 모델의 성능을 검증하기 위한 방법
- 홀드아웃 교차검정
- K-fold 교차 검증
과적합(Overfitting)
- 학습용 데이터에 완전히 적합
- 학습 데이터를 과하게 학습
- 학습용 집합에서 잡음(noise)도 모형화하기 때문에 평가용 집합에서 전체 오차는 일반적으로 증가
학습 곡선(Learning Curve)
- 샘플 데이터의 수에 따른 정확도 변화
검증 곡선(Validation Curve)
- 하이퍼 파라미터에 따른 정확도 변화
하이퍼파리미터 튜닝
- 그리드 서치를 사용한 머신 러닝 모델 세부 튜닝
- 기계학습 모델의 성능을 결정하는 하이퍼 파라미터 튜닝
의사결정나무
- 결정규칙(decision rule)을 나무구조(tree)로 도표화하여 분류(classification)와 예측(prediction)을 수행하는 분석방법
- 예측 변수를 기반으로 결과를 분류하거나 예측
분석 방법
예측 변수 | 결과 변수 | |||
범주형 | 수치형 | 범주형 | 수치형 | |
의사결정나무 (분류나무) |
o | o | o | |
의사결정나무 (회귀나무) |
o | o | o |
주요 방법
1) Trees and Rules 구조
2)재귀적 분할
3) 가지치기
의사결정나무 구분
1) 분류나무(Classification Tree)
- 목표 변수 : 범주형 변수(분리)
- 분류 알고리즘과 불순수도 지표
2) 회귀나무(Regression Tree)
- 목표 변수가 수치형 변수 -> 예측
재귀적 분할 알고리즘
실습
https://github.com/jjiiiwooo/ML.git
'기타 > 글로컬청년취업사관학교' 카테고리의 다른 글
[TlL] 240619 (0) | 2024.06.19 |
---|---|
[TlL] 240618 (0) | 2024.06.18 |
[TIL] 240614 (0) | 2024.06.14 |
[TlL] 240613 (0) | 2024.06.13 |
[TlL] 240612 (1) | 2024.06.12 |