본문 바로가기

데이터

(36)
[혼공] ch 4. 다양한 분류 알고리즘 1. 로지스틱 회귀  1) 럭키백의 확률  - 럭키백에 들어갈 수 있는 생선은 7개- 럭키백에 들어간 생선의 크기, 무게 등이 주어졌을 때 7개 생선에 대한 확률을 출력  - K-최근점 이웃은 주변 이웃을 찾아주니까 이웃의 클래스 비율을 확률이라고 출력   - X 주위에 가장 가까운 이웃 샘플 10개를 표시- 사각형이 3개, 삼각형이 5개, 원이 2개- 이웃한 샘플의 클래스를 확률로 삼는다면 샘플 X가 사각형일 확률은 30%, 삼각형일 확률은 50%, 원일 확률은 20%이다.  데이터 준비  import pandas as pdfish = pd.read_csv('https://bit.ly/fish_csv_data')fish.head()  - 어떤 종류의 생선이 있는지 Species 열에서 고유한 값 추출 ..
[혼공] ch 3. 회귀 알고리즘과 모델 규제 1. K-최근접 이웃 회귀  농의 높이, 길이 등의 수치로 농어의 무게를 예측하라  1) k-최근접 이웃 회귀  - 지도 학습은 분류와 회귀(regression)로 나뉜다. - 회귀는 클래스 중 하나로 분류하는 것이 아니라 임의의 어떤 숫자를 예측하는 문제 - 이웃한 샘플의 타깃은 어떤 클래스가 아니라 임의의 수치 - 샘플의 수치를 이용해 새로운 샘플 X의 타깃을 에측하기 위해 수치들의 평균을 구함 - 가장 먼저 가까운 k개의 이웃을 찾고 이웃 샘플의 타깃값을 평균하여 이 샘플의 예측값으로 사용    2) 데이터 준비  import numpy as npperch_length = np.array([8.4, 13.7, 15.0, 16.2, 17.4, 18.0, 18.7, 19.0, 19.6, 20.0, 21..
[혼공] ch 2. 데이터 다루기 1. 훈련 세트와 테스트 세트 - 지도 학습 알고리즘은 훈련하기 위한 데이터와 정답이 필요 - 지도 학습에서는 데이터와 정답을 입력(input)과 타깃(target)이라고 하고, 이 둘을 합쳐 훈련 데이터(training data)라고 부름 - 머신러닝 알고리즘의 성능을 제대로 평가하려면 훈련 데이터와 평가에 사용할 데이터가 각각 달라야 함 - 테스트 세트(test set) : 평가에 사용하는 데이터 - 훈련 세트(train set) : 훈련에 사용되는 데이터 - 생선 길이와 무게를 위한 리스트 준비 fish_length = [25.4, 26.3, 26.5, 29.0, 29.0, 29.7, 29.7, 30.0, 30.0, 30.7, 31.0, 31.0, 31.5, 32.0, 32.0, 32.0, 33.0..
[혼공] ch 1. 나의 첫 머신러닝 1. 인공지능과 머신러닝, 딥러닝 인공지능(artificial intelligence) - 사람처럼 학습하고 추론할 수 있는 지능을 가진 컴퓨터 시스템을 만드는 기술 머신러닝(machine learning) - 규칙을 일일이 프로그래밍하지 않아도 자동으로 데이터에서 규칙을 학습하는 알고리즘을 연구하는 분야 딥러닝(deep learning) - 많은 머신러닝 알고리즘 중에서 인공 신경망(artificial neural network)을 기반으로 한 방법들을 통칭 2. 코랩과 주피터 노트북 구글 코랩(Colab) - 클라우드 기반의 주피터 노트북 개발환경 - 머신러닝은 컴퓨터 사양이 중요한데, 구글 코랩을 사용하면 컴퓨터 성능과 상관없이 프로그램을 실습해 볼 수 있음 셀(cell) - 코랩에서 실행할 수 있..
R 프로그래밍 기초 (4) 1. 결측치 찾기 결측치(Missing Value) - 누락된 값 - 결측치가 있으면 함수가 적용되지 않거나 분석 결과가 왜곡되는 문제 발생 1) 결측치가 포함된 데이터 프레임 생성 df ## sex score 1 M 5 2 F 4 3 3 4 M 4 5 F NA 2) 결측치 확인하기 - is.na()를 이용하면 데이터에 결측치가 들어있는지 알 수 있음 - is.na()에 df를 적용하면 결측치는 TRUE, 결측치가 아닌 값은 FLASE로 표시해 데이터를 출력 is.na(df) #결측치 확인 ## sex score [1,] FALSE FALSE [2,] FALSE FALSE [3,] TRUE FALSE [4,] FALSE FALSE [5,] FALSE TRUE 3) 결측치 빈도 확인 - is.na()를 t..
R 프로그래밍 기초 (3) 1. 데이터 전처리 데이터 전처리(Data Preprocessing) - 분석에 적합하게 데이터를 가공하는 작업 - 일부를 추출하거나, 종류별로 나누거나, 여러 데이터를 합치는 등 데이터를 자유롭게 가공할 수 있어야 목적에 맞게 분석 가능 - dplyr은 데이터 전처리 작업에 가장 많이 사용되는 패키지 dplyr 함수 기능 filter() 행 추출 select() 열(변수) 추출 arrange() 정렬 mutate() 변수 추가 summarise() 통계치 산출 group_by() 집단별로 나누기 left_join() 데이터 합치기(열) bind_rows() 데이터 합치기(행) 2. 조건에 맞는 데이터만 추출하기 - dplyr 패키지의 filter()를 이용하면 원하는 데이터를 추출할 수 있음 ● dpl..
R 프로그래밍 기초(2) 1. 데이터 파악하기 1) 데이터를 파악할 때 사용하는 함수들 함수 기능 head() 데이터 앞부분 출력 tail() 데이터 뒷부분 출력 View() 뷰어 창에서 데이터 확인 dim() 데이터 차원 출력 str() 데이터 속성 출력 summary() 요약 통계량 출력 ● head() - 데이터 앞부분 확인하기 - 데이터의 일부만 출력해 데이터의 형태를 확인할 떄 head()를 이용 - head()는 데이터의 앞부분을 출력하는 기능 head(exam) #앞에서부터 6행까지 출력 id class math english science 1 1 1 50 98 50 2 2 1 60 97 60 3 3 1 45 86 78 4 4 1 30 98 58 5 5 2 25 80 65 6 6 2 50 89 98 - 데이터 프레임..
R 프로그래밍 기초 (1) 1. 변수 만들기 a