본문 바로가기

데이터

(36)
[혼공] ch 7. 검증하고 예측하기 1. 통계적으로 추론하기  1) 모수 검정이란 - 통계학에서는 모집단(population)에 대한 파라미터를 추정하는 방법을 모수검정(parametric test)이라고 한다. - 파라미터는 평균, 분산 등이며 모집단은 관심 대상이 되는 전체 데이터를 의미한다. - 모집단에서 선택한 일부 샘플은 표본(sample)이라고 부른다.  2) 표준점수 구하기  - 데이터가 정규분포를 따른다고 가정하고, 각 값이 평균에서 얼마나 떨어져 있는지 표준편차를 사용해 변환한 점수를 표준 점수(standard score) 또는 z 점수(z score)이라고 한다. - z 점수는 평균까지 거리를 표준편차로 나눈 것이다.    z 점수 구하기  - 다섯 개의 값으로 이루어진 배열 x가 있을 때 숫자 7에 대한 z 점수를 계산..
[혼공] ch 6. 복잡한 데이터 표현하기 1. 객체지향 API로 그래프 꾸미기  1) pyplot 방식과 객체지향 API 방식  - 맷플롭립으로 그래프를 그리는 방식은 2가지 이다. matplotlib.pyplot에 있는 함수를 사용하는 pyplot 방식명시적으로 피겨 객체를 만들고 이 객체의 메서드를 사용하는 객체지향 API pyplot 방식으로 그래프 그리기  - matplotlib.pyplot에 있는 함수를 사용하면 함수들이 하나의 피겨 객체에 대한 상태를 공유한다. - 다음과 같이 간단한 선 그래프를 그리면 plot() 함수와 title() 함수는 동일한 피겨 객체에 적용된다. - plot() 함수에 리스트 형태로 데이터를 전달하고, title() 함수에는 그래프 제목을 넣어 그리기  plt.plot([1,4,9,16])plt.title..
[혼공] ch 5. 데이터 시각화하기 1. 맷플롯립 기본 요소 알아보기  1) Figure 객체   - 맷플롯립에는 Figure라는 모든 그래프 구성 요소를 담고 있는 최상위 객체가 있다. - figure() 함수로 명시적으로 피겨 객체를 만들어 활용하면 다양항 그래프 옵션을 조절할 수 있다.  import pandas as pdns_book7 = pd.read_csv('ns_book7.csv', low_memory=False)ns_book7.head()   - 맷플롯립을 임포트한 후 scatter() 함수로 '도서권수'열을 x축, '대출건수'열을 y축으로 그린다. - 투명도를 0.1로 지정 import matplotlib.pyplot as pltplt.scatter(ns_book7['도서권수'], ns_book7['대출건수'], alpha..
[혼공] ch 4. 데이터 요약하기 1. 기술통계 구하기  - 기술통계(descriptive statistics)는 자료의 내용을 압축하여 설명하는 방법을 말한다, - ns_book6.csv 파일을 데이터프레임으로 불러 온 후 처음 다섯 개 행을 출력import pandas as pdns_book6 = pd.read_csv('ns_book6.csv', low_memory=False)ns_book6.head()  - 판다스는 데이터프레임에서 기본적인 몇 가지 기술통계를 자동으로 추출해주는 describe() 메서드를 제공한다. ns_book6.describe()  - describe() 메서드는 기본적으로 수치형 열에 대한 요약 통계를 보여준다.  count누락된 값을 제외한 데이터 개수mean평균std표준편차min최솟값50%중앙값25%순서..
[혼공] ch 3. 데이터 정제하기 1. 불필요한 데이터 삭제하기  데이터 정제(data cleaning) - 데이터에서 손상되거나 부정확한 부분을 수정하고, 불필요한 데이터를 삭제하거나 불완전한 값을 교체하는 등의 작업 - 데이터를 분석 목적에 맞게 변환하는 데이터 랭글링(data wrangling) 또는 데이터 먼징(data munging)의 일부로 수행될 수 있다.   1) 열 삭제하기  - gdown 패키지를 사용해 남산도서관 데이터를 다운로드  import gdowngdown.download('https://bit.ly/3RhoNho', 'ns_202104.csv', quiet=False) - 판다스 데이터프레임으로 읽어서 처음 다섯개 행을 출력 import pandas as pdns_df = pd.read_csv('ns_2021..
[혼공] ch 2. 데이터 수집하기 1. API 사용하기  1) API란 - API(Application Programming Interface)는 두 프로그램이 서로 대화하기 위한 방법을 정의한 것  웹 페이지를 전송하기 위한 통신 규약 : HTTP - 웹 사이트는 웹 페이지를 서비스하기 위해 웹 서버(Web server) 소프트웨어를 사용한다.  대표적인 웹 서버 프로그램으로는 NGINX, Apache 등이 있다 이런 웹 서버 프로그램은 웹 브라우저와 통신할 때 HTTP 프로토콜을 사용한다.  - HTTP(Hyper Text Transfer Protocol)는 인터넷에서 웹 페이지를 전송하는 기본 통신 방법이다. - 웹 브라우저가 웹 서버에 웹 페이지를 요청하고, 웹 서버는 요청에 맞는 웹 페이지를 웹 브라우저에게 전송한다.   웹 페..
[혼공] ch 1. 데이터 분석을 시작하며 1. 데이터 분석이란? 1) 데이터 분석과 데이터 과학  - 데이터 과학(data science)은 통계학(statistics), 데이터 분석, 머신러닝(machine learning), 데이터 마이닝(data mining) 등을 아우르는 큰 개념으로 볼 수 있다.  - 데이터 분석은 올바른 의사결정을 돕기 위한 통찰(insight)을 제공하는 데 초점을 맞추고, 데이터 과학은 한 걸음 더 나아가 문제 해결을 위한 최선의 솔루션(solution)을 만드는 데 초점을 둔다.  - 통계적 관점에서 보면 데이터 분석은 크게 세 가지로 나눌 수 있다.  기술 통계- 관측이나 실험을 통해 수집한 데이터를 정량화하거나 요약하는 기법탐색적 데이터 분석- 데이터를 시각적으로 표현하여 주요 특징을 찾고 분석하는 방법가설..
[혼공] ch 9. 텍스트를 위한 인공신경망 1. 순차 데이터와 순환 신경망 1) 순차 데이터  순차 데이터(sequential data) - 텍스트나 시계열 데이터(time series data)와 같이 순서에 의미가 있는 데이터 - 순차 데이터를 다룰 때는 이전에 입력한 데이터를 기억하는 기능이 필요하다.  - 합성곱 신경망이나 완전 연결 신경망과 같이 입력 데이터의 흐름이 앞으로만 전달되는 신경망을 피드포워드 신경망(feedforward neural network, FFNN)이라고 한다.   2) 순환 신경망  순환 신경망(recurrent neural network, RNN) - 순차 데이터에 잘 맞는 인공 신경망의 한 종류 - 완전 연결 신경망에 이전 데이터의 처리 흐름을 순환하는 고리 하나만 추가하면 된다.  - 뉴런의 출력이 다시 자기..