데이터/데이터 분석 (7) 썸네일형 리스트형 [혼공] ch 7. 검증하고 예측하기 1. 통계적으로 추론하기 1) 모수 검정이란 - 통계학에서는 모집단(population)에 대한 파라미터를 추정하는 방법을 모수검정(parametric test)이라고 한다. - 파라미터는 평균, 분산 등이며 모집단은 관심 대상이 되는 전체 데이터를 의미한다. - 모집단에서 선택한 일부 샘플은 표본(sample)이라고 부른다. 2) 표준점수 구하기 - 데이터가 정규분포를 따른다고 가정하고, 각 값이 평균에서 얼마나 떨어져 있는지 표준편차를 사용해 변환한 점수를 표준 점수(standard score) 또는 z 점수(z score)이라고 한다. - z 점수는 평균까지 거리를 표준편차로 나눈 것이다. z 점수 구하기 - 다섯 개의 값으로 이루어진 배열 x가 있을 때 숫자 7에 대한 z 점수를 계산.. [혼공] ch 6. 복잡한 데이터 표현하기 1. 객체지향 API로 그래프 꾸미기 1) pyplot 방식과 객체지향 API 방식 - 맷플롭립으로 그래프를 그리는 방식은 2가지 이다. matplotlib.pyplot에 있는 함수를 사용하는 pyplot 방식명시적으로 피겨 객체를 만들고 이 객체의 메서드를 사용하는 객체지향 API pyplot 방식으로 그래프 그리기 - matplotlib.pyplot에 있는 함수를 사용하면 함수들이 하나의 피겨 객체에 대한 상태를 공유한다. - 다음과 같이 간단한 선 그래프를 그리면 plot() 함수와 title() 함수는 동일한 피겨 객체에 적용된다. - plot() 함수에 리스트 형태로 데이터를 전달하고, title() 함수에는 그래프 제목을 넣어 그리기 plt.plot([1,4,9,16])plt.title.. [혼공] ch 5. 데이터 시각화하기 1. 맷플롯립 기본 요소 알아보기 1) Figure 객체 - 맷플롯립에는 Figure라는 모든 그래프 구성 요소를 담고 있는 최상위 객체가 있다. - figure() 함수로 명시적으로 피겨 객체를 만들어 활용하면 다양항 그래프 옵션을 조절할 수 있다. import pandas as pdns_book7 = pd.read_csv('ns_book7.csv', low_memory=False)ns_book7.head() - 맷플롯립을 임포트한 후 scatter() 함수로 '도서권수'열을 x축, '대출건수'열을 y축으로 그린다. - 투명도를 0.1로 지정 import matplotlib.pyplot as pltplt.scatter(ns_book7['도서권수'], ns_book7['대출건수'], alpha.. [혼공] ch 4. 데이터 요약하기 1. 기술통계 구하기 - 기술통계(descriptive statistics)는 자료의 내용을 압축하여 설명하는 방법을 말한다, - ns_book6.csv 파일을 데이터프레임으로 불러 온 후 처음 다섯 개 행을 출력import pandas as pdns_book6 = pd.read_csv('ns_book6.csv', low_memory=False)ns_book6.head() - 판다스는 데이터프레임에서 기본적인 몇 가지 기술통계를 자동으로 추출해주는 describe() 메서드를 제공한다. ns_book6.describe() - describe() 메서드는 기본적으로 수치형 열에 대한 요약 통계를 보여준다. count누락된 값을 제외한 데이터 개수mean평균std표준편차min최솟값50%중앙값25%순서.. [혼공] ch 3. 데이터 정제하기 1. 불필요한 데이터 삭제하기 데이터 정제(data cleaning) - 데이터에서 손상되거나 부정확한 부분을 수정하고, 불필요한 데이터를 삭제하거나 불완전한 값을 교체하는 등의 작업 - 데이터를 분석 목적에 맞게 변환하는 데이터 랭글링(data wrangling) 또는 데이터 먼징(data munging)의 일부로 수행될 수 있다. 1) 열 삭제하기 - gdown 패키지를 사용해 남산도서관 데이터를 다운로드 import gdowngdown.download('https://bit.ly/3RhoNho', 'ns_202104.csv', quiet=False) - 판다스 데이터프레임으로 읽어서 처음 다섯개 행을 출력 import pandas as pdns_df = pd.read_csv('ns_2021.. [혼공] ch 2. 데이터 수집하기 1. API 사용하기 1) API란 - API(Application Programming Interface)는 두 프로그램이 서로 대화하기 위한 방법을 정의한 것 웹 페이지를 전송하기 위한 통신 규약 : HTTP - 웹 사이트는 웹 페이지를 서비스하기 위해 웹 서버(Web server) 소프트웨어를 사용한다. 대표적인 웹 서버 프로그램으로는 NGINX, Apache 등이 있다 이런 웹 서버 프로그램은 웹 브라우저와 통신할 때 HTTP 프로토콜을 사용한다. - HTTP(Hyper Text Transfer Protocol)는 인터넷에서 웹 페이지를 전송하는 기본 통신 방법이다. - 웹 브라우저가 웹 서버에 웹 페이지를 요청하고, 웹 서버는 요청에 맞는 웹 페이지를 웹 브라우저에게 전송한다. 웹 페.. [혼공] ch 1. 데이터 분석을 시작하며 1. 데이터 분석이란? 1) 데이터 분석과 데이터 과학 - 데이터 과학(data science)은 통계학(statistics), 데이터 분석, 머신러닝(machine learning), 데이터 마이닝(data mining) 등을 아우르는 큰 개념으로 볼 수 있다. - 데이터 분석은 올바른 의사결정을 돕기 위한 통찰(insight)을 제공하는 데 초점을 맞추고, 데이터 과학은 한 걸음 더 나아가 문제 해결을 위한 최선의 솔루션(solution)을 만드는 데 초점을 둔다. - 통계적 관점에서 보면 데이터 분석은 크게 세 가지로 나눌 수 있다. 기술 통계- 관측이나 실험을 통해 수집한 데이터를 정량화하거나 요약하는 기법탐색적 데이터 분석- 데이터를 시각적으로 표현하여 주요 특징을 찾고 분석하는 방법가설.. 이전 1 다음