본문 바로가기

기타/글로컬청년취업사관학교

[TlL] 240619

 

참고 사이트 

https://www.kamp-ai.kr/analysis

 

인공지능 제조 플랫폼

인공지능 제조플랫폼에 오신 것을 환영합니다. 회원가입 후 로그인하시면 다양한 서비스와 컨텐츠를 제공받으실 수 있습니다.

www.kamp-ai.kr

 

 

전처리 빨리 하는 방법 - gpt 이용

 

 

 

 

머신 러닝

 

4) 특징 추출(feature extraction)

- 특징 벡터의 준비

- 차원 감소(축소)기법을 사용하기도 함 

 

 

PCA 분석(주성분 분석) 

 

 

머신 러닝 기술

 

1) 분류 :

2) 수치예측:

3) 군집 :

 

분류 회귀, 수치 회귀 

 

 

p.346

 

Training set

- 모델 훈련에 사용하는 데이터 셋

 

Validation(확인/입증) set

- 모델 훈련에 적절한 지점을 찾기 위해 사용하는 데이터 셋으로 과적합 또는 과소 적합을 방지하기 위한 stopping point를 찾음

 

 

 

 

데이터 셋 구성을 통한 검증방법

 

1. Holdout

 

- 데이터 셋을 train set, test set 두 셋으로 나눔

- 훈련용 셋이 테스트 셋보다는 많아야 함 

 

2. Random subsampling

 

 - 

 

3. Cross validation

-  통상적으로 제일 많이 쓰임

 

 

4. K fold cross validation

 - k개의 교차 검증

 

 

5. Stratified sampling

 

- 층별 표집 방법

- 데이터를 클래스에 따라 각 그룹으로 분리 후, 각 그룹으로 부터 일정 비율의 샘플을 무작위로 추출하는 방법

 

 

6. Bootstrap 

 

- 중복 허용 = 복원 추출

- 샘플 추출 시 각 데이터의 중복 추출을 허용함 

- 전체 데이터에서 n개의 샘플을 추출 하는데, 다음 시도에서 기존에 추출했던 샘플 다시 추출될 수 있ㄷ음

- 중복을 허용한 샘플 추출이 반복적으로 시행됨

- 최종 성능은 실행된 실험 성능들의 평균으로 도출됨 

 

 

숙제 

- 아래 개념 정립하기 

'기타 > 글로컬청년취업사관학교' 카테고리의 다른 글

[TlL] 240621  (0) 2024.06.21
[TlL] 240620  (0) 2024.06.20
[TlL] 240618  (0) 2024.06.18
[TlL] 240617  (0) 2024.06.17
[TIL] 240614  (0) 2024.06.14