본문 바로가기

데이터/머신러닝

(13)
[혼공] ch 5. 트리 알고리즘 1. 결정 트리  1) 로지스틱 회귀로 와인 분류하기  - 와인 데이터 불러오기  import pandas as pdwine = pd.read_csv('https://bit.ly/wine_csv_data')wine.head()  - 레드 와인과 화이트 와인을 구분하는 이진분류 문제, 화이트 와인이 양성 클래스 - 전체 와인 데이터에서 화이트 와인을 골라내는 문제  - info() 메서드는 데이터프레임의 각 열의 데이터 타입과 누락된 데이터가 있는지 확인하는 데 유용  wine.info()  - describe()는 열에 대한 간략한 통계를 출력 wine.describe()  - 판다스 데이터프레임을 넘파이 배열로 바꾸고 훈련 세트와 테스트 세트로 나눔 - 알코올 도수, 당도, PH 값의 스케일이 다름- ..
[혼공] ch 4. 다양한 분류 알고리즘 1. 로지스틱 회귀  1) 럭키백의 확률  - 럭키백에 들어갈 수 있는 생선은 7개- 럭키백에 들어간 생선의 크기, 무게 등이 주어졌을 때 7개 생선에 대한 확률을 출력  - K-최근점 이웃은 주변 이웃을 찾아주니까 이웃의 클래스 비율을 확률이라고 출력   - X 주위에 가장 가까운 이웃 샘플 10개를 표시- 사각형이 3개, 삼각형이 5개, 원이 2개- 이웃한 샘플의 클래스를 확률로 삼는다면 샘플 X가 사각형일 확률은 30%, 삼각형일 확률은 50%, 원일 확률은 20%이다.  데이터 준비  import pandas as pdfish = pd.read_csv('https://bit.ly/fish_csv_data')fish.head()  - 어떤 종류의 생선이 있는지 Species 열에서 고유한 값 추출 ..
[혼공] ch 3. 회귀 알고리즘과 모델 규제 1. K-최근접 이웃 회귀  농의 높이, 길이 등의 수치로 농어의 무게를 예측하라  1) k-최근접 이웃 회귀  - 지도 학습은 분류와 회귀(regression)로 나뉜다. - 회귀는 클래스 중 하나로 분류하는 것이 아니라 임의의 어떤 숫자를 예측하는 문제 - 이웃한 샘플의 타깃은 어떤 클래스가 아니라 임의의 수치 - 샘플의 수치를 이용해 새로운 샘플 X의 타깃을 에측하기 위해 수치들의 평균을 구함 - 가장 먼저 가까운 k개의 이웃을 찾고 이웃 샘플의 타깃값을 평균하여 이 샘플의 예측값으로 사용    2) 데이터 준비  import numpy as npperch_length = np.array([8.4, 13.7, 15.0, 16.2, 17.4, 18.0, 18.7, 19.0, 19.6, 20.0, 21..
[혼공] ch 2. 데이터 다루기 1. 훈련 세트와 테스트 세트 - 지도 학습 알고리즘은 훈련하기 위한 데이터와 정답이 필요 - 지도 학습에서는 데이터와 정답을 입력(input)과 타깃(target)이라고 하고, 이 둘을 합쳐 훈련 데이터(training data)라고 부름 - 머신러닝 알고리즘의 성능을 제대로 평가하려면 훈련 데이터와 평가에 사용할 데이터가 각각 달라야 함 - 테스트 세트(test set) : 평가에 사용하는 데이터 - 훈련 세트(train set) : 훈련에 사용되는 데이터 - 생선 길이와 무게를 위한 리스트 준비 fish_length = [25.4, 26.3, 26.5, 29.0, 29.0, 29.7, 29.7, 30.0, 30.0, 30.7, 31.0, 31.0, 31.5, 32.0, 32.0, 32.0, 33.0..
[혼공] ch 1. 나의 첫 머신러닝 1. 인공지능과 머신러닝, 딥러닝 인공지능(artificial intelligence) - 사람처럼 학습하고 추론할 수 있는 지능을 가진 컴퓨터 시스템을 만드는 기술 머신러닝(machine learning) - 규칙을 일일이 프로그래밍하지 않아도 자동으로 데이터에서 규칙을 학습하는 알고리즘을 연구하는 분야 딥러닝(deep learning) - 많은 머신러닝 알고리즘 중에서 인공 신경망(artificial neural network)을 기반으로 한 방법들을 통칭 2. 코랩과 주피터 노트북 구글 코랩(Colab) - 클라우드 기반의 주피터 노트북 개발환경 - 머신러닝은 컴퓨터 사양이 중요한데, 구글 코랩을 사용하면 컴퓨터 성능과 상관없이 프로그램을 실습해 볼 수 있음 셀(cell) - 코랩에서 실행할 수 있..