참고 사이트
https://www.kamp-ai.kr/analysis
전처리 빨리 하는 방법 - gpt 이용
머신 러닝
4) 특징 추출(feature extraction)
- 특징 벡터의 준비
- 차원 감소(축소)기법을 사용하기도 함
PCA 분석(주성분 분석)
머신 러닝 기술
1) 분류 :
2) 수치예측:
3) 군집 :
분류 회귀, 수치 회귀
p.346
Training set
- 모델 훈련에 사용하는 데이터 셋
Validation(확인/입증) set
- 모델 훈련에 적절한 지점을 찾기 위해 사용하는 데이터 셋으로 과적합 또는 과소 적합을 방지하기 위한 stopping point를 찾음
데이터 셋 구성을 통한 검증방법
1. Holdout
- 데이터 셋을 train set, test set 두 셋으로 나눔
- 훈련용 셋이 테스트 셋보다는 많아야 함
2. Random subsampling
-
3. Cross validation
- 통상적으로 제일 많이 쓰임
4. K fold cross validation
- k개의 교차 검증
5. Stratified sampling
- 층별 표집 방법
- 데이터를 클래스에 따라 각 그룹으로 분리 후, 각 그룹으로 부터 일정 비율의 샘플을 무작위로 추출하는 방법
6. Bootstrap
- 중복 허용 = 복원 추출
- 샘플 추출 시 각 데이터의 중복 추출을 허용함
- 전체 데이터에서 n개의 샘플을 추출 하는데, 다음 시도에서 기존에 추출했던 샘플 다시 추출될 수 있ㄷ음
- 중복을 허용한 샘플 추출이 반복적으로 시행됨
- 최종 성능은 실행된 실험 성능들의 평균으로 도출됨
숙제
- 아래 개념 정립하기
'기타 > 글로컬청년취업사관학교' 카테고리의 다른 글
[TlL] 240621 (0) | 2024.06.21 |
---|---|
[TlL] 240620 (0) | 2024.06.20 |
[TlL] 240618 (0) | 2024.06.18 |
[TlL] 240617 (0) | 2024.06.17 |
[TIL] 240614 (0) | 2024.06.14 |