결과 보고서 작성
- 차례
- 분석 요약 한장 중요
- 밑에 분석 프로세스는 같음
chat gpt를 통한 데이터 분석
Kamp 로 랜덤 포레스트 분석
의사 결정 나무
목표
-예측 변수를 기반으로 결과를 분류하거나 예측
- 결정규칙(decision rule)을 나무구조(tree)로 도표화하여 분류(classification)와 예측(prediction)을 수행하는 분석방법
구분
1)분류 나무 (Classification Tree)
- 목표변수 : 범주형 변수(분리)
- 예측변수 : 범주형, 수치형 가능
- 분류 알고리즘과 불순수도 지표
- CAST : 지니지수(Gini index)
- C4.5 : 엔트로피(Entropy index), 정보이익(Information gain), 정보이익비율(Information gain ratio)
- CHAID : 카이제곱 통계량(Chi-Square staticstic)
- 끝마디 : 소속 집단
- 경향(랭킹)도 가능
재귀적 분할(Recursive partitioning)
- 그룹이 최대한 동질(순수)하도록 반복적으로 레코드를 하위 그룹으로 분리
가지치기(Pruning the tree)
- 과적합을 피하기 위해 필요 없는 가지를 간단히 정리
2) 회귀 나무(Regression Tree)
- 목표변수 : 수치형 변수(예측)
- 분류 알고리즘과 불순수도 지표
- CART : F 통계량 - 분산의 감소량
- 끝마디 : 집단의 평균
- 예측일 경우 회귀나무보다 신경망 또는 회귀분석이 더 좋다.
나이브 베이즈 분류기
- 모델 중심이 아닌 데이터(자료) 중심 : 조건부 확률에 기반
- 범주형 예측자료에만 작동
-> 수치형 자료일 경우에는 범주형으로 변환하여 사용
베이즈 정리(Bayes'Rule)
- 사전(prior) 확률과 사후(posterior) 확률 사이의 관계를 조건부 확률을 이용해서 계산하는 확률 이론
나이브 베이즈 정리
- 정확히 일치하는 데이터가 없어도 전체 데이터를 이용해 계산
'기타 > 글로컬청년취업사관학교' 카테고리의 다른 글
[TIL] 240625 (0) | 2024.06.25 |
---|---|
[TlL] 240624 (0) | 2024.06.25 |
[TlL] 240620 (0) | 2024.06.20 |
[TlL] 240619 (0) | 2024.06.19 |
[TlL] 240618 (0) | 2024.06.18 |