본문 바로가기

데이터/R 프로그래밍

(4)
R 프로그래밍 기초 (4) 1. 결측치 찾기 결측치(Missing Value) - 누락된 값 - 결측치가 있으면 함수가 적용되지 않거나 분석 결과가 왜곡되는 문제 발생 1) 결측치가 포함된 데이터 프레임 생성 df ## sex score 1 M 5 2 F 4 3 3 4 M 4 5 F NA 2) 결측치 확인하기 - is.na()를 이용하면 데이터에 결측치가 들어있는지 알 수 있음 - is.na()에 df를 적용하면 결측치는 TRUE, 결측치가 아닌 값은 FLASE로 표시해 데이터를 출력 is.na(df) #결측치 확인 ## sex score [1,] FALSE FALSE [2,] FALSE FALSE [3,] TRUE FALSE [4,] FALSE FALSE [5,] FALSE TRUE 3) 결측치 빈도 확인 - is.na()를 t..
R 프로그래밍 기초 (3) 1. 데이터 전처리 데이터 전처리(Data Preprocessing) - 분석에 적합하게 데이터를 가공하는 작업 - 일부를 추출하거나, 종류별로 나누거나, 여러 데이터를 합치는 등 데이터를 자유롭게 가공할 수 있어야 목적에 맞게 분석 가능 - dplyr은 데이터 전처리 작업에 가장 많이 사용되는 패키지 dplyr 함수 기능 filter() 행 추출 select() 열(변수) 추출 arrange() 정렬 mutate() 변수 추가 summarise() 통계치 산출 group_by() 집단별로 나누기 left_join() 데이터 합치기(열) bind_rows() 데이터 합치기(행) 2. 조건에 맞는 데이터만 추출하기 - dplyr 패키지의 filter()를 이용하면 원하는 데이터를 추출할 수 있음 ● dpl..
R 프로그래밍 기초(2) 1. 데이터 파악하기 1) 데이터를 파악할 때 사용하는 함수들 함수 기능 head() 데이터 앞부분 출력 tail() 데이터 뒷부분 출력 View() 뷰어 창에서 데이터 확인 dim() 데이터 차원 출력 str() 데이터 속성 출력 summary() 요약 통계량 출력 ● head() - 데이터 앞부분 확인하기 - 데이터의 일부만 출력해 데이터의 형태를 확인할 떄 head()를 이용 - head()는 데이터의 앞부분을 출력하는 기능 head(exam) #앞에서부터 6행까지 출력 id class math english science 1 1 1 50 98 50 2 2 1 60 97 60 3 3 1 45 86 78 4 4 1 30 98 58 5 5 2 25 80 65 6 6 2 50 89 98 - 데이터 프레임..
R 프로그래밍 기초 (1) 1. 변수 만들기 a