본문 바로가기

기타/글로컬청년취업사관학교

[TIL] 240614

기계학습에서 필요한 라이브러리 

 

- 아나콘다 배포판

- 주피터 노트북

- 넘파이

- 맷플롯립

- 판다스

- 싸이킷런

-텐서플로

-케라스

 

추천 도서

- 데이터분석가가 반드시 알아야 할 모든 것

- 머신러닝 교과서 with 파이썬, 사이킷런, 텐서플로 

- 케라스 창시자에게 배우는 딥러닝

 

데이터 처리 

#데이터 불러오기==>
import numpy as np
import pandas as pd #판다슬르 애칭 pd.

# CSV 파일을 DataFrame으로 읽어옴 
df = pd.read_csv('grade.csv') # 경로명을 안쓰는 이유는-> 워킹디렉토리
df.head()  # 데이터프레임의 첫 5행을 출력

# 읽어온 데이터를 다시 DataFrame으로 변환
df = pd.DataFrame(df)
df.head()  # 변환된 데이터프레임의 첫 5행을 출력

# 데이터프레임의 크기를 확인
df.shape  # 데이터프레임의 행과 열의 수를 출력

 

df.index #데이터의 관측항목 id msex csex gradde

#list(df.columns)
#df.colums.tolist()
df.columns

df.values

df.describe()
df.sum(axis=0)
df.groupby('msex').mean() #msex가 범주형 데이터이기 때문에, 범주별로 평균을 구해라

#dataframe에서 행 선택
df.iloc[5]

#특정값 추출하기 
df.iloc[0,3] 

#값 변경, 결측값 처리 
df.iloc[0,3] = 3.4

 

 

실습 - gg 100

 

- 아황산 가스 결측치에 mean값 집어넣기 

 

 

 

기계학습의 기초 

 

기계학습(machine learining)

 

- 컴퓨터가 학습할 수 있도록 알고리즘과 기술을 개발하는 분야

- 표현 : 데이터의 평가

- 일반화 : 아직 알 수 없는 데이터에 대한 처리 (예측)

 

모라벡의 역설

 

- 어려운 것은 쉽고 쉬운 것은 어렵다 

- 사람에게 쉬운것 : 지각, 인지

- AI가 쉬운 것 : 저장, 계산

 

 

통계

- 표본 데이터를 이용하여 모집단에 대해 추론

 

기계학습

- 전체데이터를 이용해 개별값 예측

- 기존 데이터로 모델을 학습시킨 후 새로운 데이터를 입력 했을 때 예측값을 알아내기 위한 목적

- 최근 기준 : 기계학습 = 딥러닝

 

데이터마이닝

- 가지고 있는 데이터에서 일정한 패턴이나 특성을 발견

- 데이터베이스의 지식 발견 부분의 분석 절차 

 

 

통계가 기본~~

 

추천 강좌 

 

https://www.kmooc.kr/view/course/detail/9058?tm=20240614143844

 

K-MOOC 자료실

 

www.kmooc.kr

 

 

분석 방법

 

Supervised Learning

- "정답"을 알 수 있어서 바로 바로 피드백을 받으면서 학습

 

Unsupervised Learning

- 정답이 없는 "분류"와 같은 문제를 푸는 것

 

Reinforcement Learning

- 정답은 모르지만, 자신이 한 행동에 대한 "보상"을 알 수 있어서 그로부터 학습하는 것

 

 

서포트 벡터 머신(SVM)

 

 

CRISP-DM

- 비즈니스 이해 -> 데이터 이해 -> 데이터 준비 및 특징 엔지니어링 -> 검증과정을 포함한 모델 프로토타이핑 -> 모델 설치 

 

 

기본 package 설정

 

import numpy as np # 넘파이
import pandas as pd # 판다스
import matplotlib.pyplot as plt # 그래프 

# 데이터 전처리
from sklearn import datasets #sklearn에 있는 데이터 가져오기
from sklearn.model_selection import train_test_split #훈련용, 검증용 데이터 분리
from sklearn.preprocessing import StandardScaler # 연속변수 표준화
from sklearn.preprocessing import LabelEncoder # 범주형 변수 수치화 

##분류 모델
from sklearn.naive_bayse import GaussianNB # 나이브 베이즈 모델
from sklearn.tree import DecisionTreeClassifier # 의사결정나무
from sklearn.ensemble import RandomForestClassifier #랜덤 포레스트
from sklearn.linear_model import LogisticRegression #로지스틱 회귀분석
from sklearn.neural_network import MLPClassifier #다층 인공신경망

## 모델 검정
from sklearn.metrics import confusion_matrix, classification_report
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, make_scorer

 

 

데이터 가져오기 

 

 

데이터 정규화(표준화)

- 숫자형 자료를 표준화로 변환

- 결정나무, 랜덤 포레스트, 나이브베이즈 분류 : 원본 데이터 그대로 유지

- 로지스틱회귀분석, 회귀분석, 인공신경망 : 표준화 후 분석

- 군집분석의 경우 정규화 필요 

 

 

 

자습

- pandas

- 포트폴리오 만들기 

 

 

 

'기타 > 글로컬청년취업사관학교' 카테고리의 다른 글

[TlL] 240618  (0) 2024.06.18
[TlL] 240617  (0) 2024.06.17
[TlL] 240613  (0) 2024.06.13
[TlL] 240612  (1) 2024.06.12
[TIL] 240611  (0) 2024.06.11