wordcount(데이터빈도분석) 실습 : 장르별 영화 빈도 분석하기
- 영화 제목, 장르 데이터에서 장르별 영화 빈도 분석하기
- 실습 데이터 : 영화의 제목과 장르 데이터에서 장르별 영화 빈도 분석하기
1)
- 데이터를 파이썬으로 불러오기
- pandas 모듈을 활용하여 데이터를 불러 올 수 있는데 read_csv 함수를 활용하여 데이터의 구분자가 "::"이므로 다음과 같이 파일을 불러 올 수 있다.
2)
- 반복문을 활용하여 장르 리스트에 모든 영화들의 장르를 분리하여 저장
- 장르가 구분자 '|'로 구분되어 있는 것을 활용하여 split으로 분리 한 뒤 반복문을 활용하여 리스트에 추가
3)
- 이때, 장르는 만여 개의 영화마다 각각의 장르를 모두 저장한 것으로 중복된 값이 많다.
- 따라서 중복된 장르를 제거해준다.
4)
- 장르별 영화 빈도 수를 분석하기 위해 영화, 장르 행렬을 만들어 영화마다 각각의 장르를 입력한다.
- NumPy의 zeros 함수를 활용하여 영화 개수, 장르 개수 크기의 값이 0인 행렬을 만들어 틀을 만들어준다.
- NumPy로 크기만큼의 0 행렬을 만든 후 데이터프레임으로 변환한다.
5)
- 비어있는 영화/장르 테이블에 값을 빈도 수를 입력하기 위해 반복문을 활용하여 값을 입력
- movie.genres에는 영화의 장르가 있고, enumerate를 했기 때문에 순서대로 영화의 장르가 반복문에서 실행이 된다.
6)
- 영화 장르별 통계를 내기 위해 합계 함수를 활용하여 장르별 빈도 수를 모두 더해준다.
7)
- sort_values 함수를 활용하여 정렬된 값을 그래프로 출력
외부 데이터 다루기
1. 파이썬의 파일 입출력 활용
- open() 함수를 활용하여 텍스트 데이터를 불러 올 수 있다.
2. csv 파일을 읽고 쓰기 위해 csv 모듈 활용
3. Pandas 모듈 내 엑셀 함수를 활용
- 불러오 엑셀 데이터는 DataFrame 객체로 Pandas의 dataframe 객체로 Pandas의 dataframe 내 기능을 모두 활용할 수 있다.
- 엑셀을 불러오기 전에 옵션을 활용하여 원하는 특정 데이터만 골라서 가져올 수 있다.
'기타 > 글로컬청년취업사관학교' 카테고리의 다른 글
[TlL] 240624 (0) | 2024.06.25 |
---|---|
[TlL] 240621 (0) | 2024.06.21 |
[TlL] 240619 (0) | 2024.06.19 |
[TlL] 240618 (0) | 2024.06.18 |
[TlL] 240617 (0) | 2024.06.17 |