기계학습에서 필요한 라이브러리
- 아나콘다 배포판
- 주피터 노트북
- 넘파이
- 맷플롯립
- 판다스
- 싸이킷런
-텐서플로
-케라스
추천 도서
- 데이터분석가가 반드시 알아야 할 모든 것
- 머신러닝 교과서 with 파이썬, 사이킷런, 텐서플로
- 케라스 창시자에게 배우는 딥러닝
데이터 처리
#데이터 불러오기==>
import numpy as np
import pandas as pd #판다슬르 애칭 pd.
# CSV 파일을 DataFrame으로 읽어옴
df = pd.read_csv('grade.csv') # 경로명을 안쓰는 이유는-> 워킹디렉토리
df.head() # 데이터프레임의 첫 5행을 출력
# 읽어온 데이터를 다시 DataFrame으로 변환
df = pd.DataFrame(df)
df.head() # 변환된 데이터프레임의 첫 5행을 출력
# 데이터프레임의 크기를 확인
df.shape # 데이터프레임의 행과 열의 수를 출력
df.index #데이터의 관측항목 id msex csex gradde
#list(df.columns)
#df.colums.tolist()
df.columns
df.values
df.describe()
df.sum(axis=0)
df.groupby('msex').mean() #msex가 범주형 데이터이기 때문에, 범주별로 평균을 구해라
#dataframe에서 행 선택
df.iloc[5]
#특정값 추출하기
df.iloc[0,3]
#값 변경, 결측값 처리
df.iloc[0,3] = 3.4
실습 - gg 100
- 아황산 가스 결측치에 mean값 집어넣기
기계학습의 기초
기계학습(machine learining)
- 컴퓨터가 학습할 수 있도록 알고리즘과 기술을 개발하는 분야
- 표현 : 데이터의 평가
- 일반화 : 아직 알 수 없는 데이터에 대한 처리 (예측)
모라벡의 역설
- 어려운 것은 쉽고 쉬운 것은 어렵다
- 사람에게 쉬운것 : 지각, 인지
- AI가 쉬운 것 : 저장, 계산
통계
- 표본 데이터를 이용하여 모집단에 대해 추론
기계학습
- 전체데이터를 이용해 개별값 예측
- 기존 데이터로 모델을 학습시킨 후 새로운 데이터를 입력 했을 때 예측값을 알아내기 위한 목적
- 최근 기준 : 기계학습 = 딥러닝
데이터마이닝
- 가지고 있는 데이터에서 일정한 패턴이나 특성을 발견
- 데이터베이스의 지식 발견 부분의 분석 절차
추천 강좌
https://www.kmooc.kr/view/course/detail/9058?tm=20240614143844
분석 방법
Supervised Learning
- "정답"을 알 수 있어서 바로 바로 피드백을 받으면서 학습
Unsupervised Learning
- 정답이 없는 "분류"와 같은 문제를 푸는 것
Reinforcement Learning
- 정답은 모르지만, 자신이 한 행동에 대한 "보상"을 알 수 있어서 그로부터 학습하는 것
서포트 벡터 머신(SVM)
CRISP-DM
- 비즈니스 이해 -> 데이터 이해 -> 데이터 준비 및 특징 엔지니어링 -> 검증과정을 포함한 모델 프로토타이핑 -> 모델 설치
기본 package 설정
import numpy as np # 넘파이
import pandas as pd # 판다스
import matplotlib.pyplot as plt # 그래프
# 데이터 전처리
from sklearn import datasets #sklearn에 있는 데이터 가져오기
from sklearn.model_selection import train_test_split #훈련용, 검증용 데이터 분리
from sklearn.preprocessing import StandardScaler # 연속변수 표준화
from sklearn.preprocessing import LabelEncoder # 범주형 변수 수치화
##분류 모델
from sklearn.naive_bayse import GaussianNB # 나이브 베이즈 모델
from sklearn.tree import DecisionTreeClassifier # 의사결정나무
from sklearn.ensemble import RandomForestClassifier #랜덤 포레스트
from sklearn.linear_model import LogisticRegression #로지스틱 회귀분석
from sklearn.neural_network import MLPClassifier #다층 인공신경망
## 모델 검정
from sklearn.metrics import confusion_matrix, classification_report
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, make_scorer
데이터 가져오기
데이터 정규화(표준화)
- 숫자형 자료를 표준화로 변환
- 결정나무, 랜덤 포레스트, 나이브베이즈 분류 : 원본 데이터 그대로 유지
- 로지스틱회귀분석, 회귀분석, 인공신경망 : 표준화 후 분석
- 군집분석의 경우 정규화 필요
자습
- pandas
- 포트폴리오 만들기
'기타 > 글로컬청년취업사관학교' 카테고리의 다른 글
[TlL] 240618 (0) | 2024.06.18 |
---|---|
[TlL] 240617 (0) | 2024.06.17 |
[TlL] 240613 (0) | 2024.06.13 |
[TlL] 240612 (1) | 2024.06.12 |
[TIL] 240611 (0) | 2024.06.11 |