본문 바로가기

기타/글로컬청년취업사관학교

[TlL] 240621


결과 보고서 작성 

- 차례 

- 분석 요약 한장 중요 

- 밑에 분석 프로세스는 같음

 

 

 

chat gpt를 통한 데이터 분석 

 

 

 

 

 

Kamp 로 랜덤 포레스트 분석 

 

 

 

 

 

의사 결정 나무 

 

목표

 -예측 변수를 기반으로 결과를 분류하거나 예측

 - 결정규칙(decision rule)을 나무구조(tree)로 도표화하여 분류(classification)와 예측(prediction)을 수행하는 분석방법

 

구분 

 

1)분류 나무 (Classification Tree)

 

- 목표변수  : 범주형 변수(분리)

- 예측변수 : 범주형, 수치형 가능 

- 분류 알고리즘과 불순수도 지표

    - CAST : 지니지수(Gini index)

    - C4.5 : 엔트로피(Entropy index), 정보이익(Information gain), 정보이익비율(Information gain ratio)

    - CHAID : 카이제곱 통계량(Chi-Square staticstic)

- 끝마디 : 소속 집단

- 경향(랭킹)도 가능 

 

재귀적 분할(Recursive partitioning)

  - 그룹이 최대한 동질(순수)하도록 반복적으로 레코드를 하위 그룹으로 분리 

 

 

 

 

가지치기(Pruning the tree)

  - 과적합을 피하기 위해 필요 없는 가지를 간단히 정리 

 

 

2) 회귀 나무(Regression Tree)

 

- 목표변수 : 수치형 변수(예측)

- 분류 알고리즘과 불순수도 지표 

    - CART : F 통계량 - 분산의 감소량 

- 끝마디 : 집단의 평균

- 예측일 경우 회귀나무보다 신경망 또는 회귀분석이 더 좋다. 

 

 

 

나이브 베이즈 분류기

 

- 모델 중심이 아닌 데이터(자료) 중심 : 조건부 확률에 기반 

- 범주형 예측자료에만 작동

  -> 수치형 자료일 경우에는 범주형으로 변환하여 사용 

 

베이즈 정리(Bayes'Rule)

- 사전(prior) 확률과 사후(posterior) 확률 사이의 관계를 조건부 확률을 이용해서 계산하는 확률 이론 

 

 

 

나이브 베이즈 정리 

- 정확히 일치하는 데이터가 없어도 전체 데이터를 이용해 계산 

 

'기타 > 글로컬청년취업사관학교' 카테고리의 다른 글

[TIL] 240625  (0) 2024.06.25
[TlL] 240624  (0) 2024.06.25
[TlL] 240620  (0) 2024.06.20
[TlL] 240619  (0) 2024.06.19
[TlL] 240618  (0) 2024.06.18