본문 바로가기

기타/글로컬청년취업사관학교

[TlL] 240620

wordcount(데이터빈도분석) 실습 : 장르별 영화 빈도 분석하기 

 

- 영화 제목, 장르 데이터에서 장르별 영화 빈도 분석하기

- 실습 데이터 : 영화의 제목과 장르 데이터에서 장르별 영화 빈도 분석하기 

 

1) 

- 데이터를 파이썬으로 불러오기

- pandas 모듈을 활용하여 데이터를 불러 올 수 있는데 read_csv 함수를 활용하여 데이터의 구분자가 "::"이므로 다음과 같이 파일을 불러 올 수 있다. 

 

 

2)

- 반복문을 활용하여 장르 리스트에 모든 영화들의 장르를 분리하여 저장

- 장르가 구분자 '|'로 구분되어 있는 것을 활용하여 split으로 분리 한 뒤 반복문을 활용하여 리스트에 추가

 

 

3) 

- 이때, 장르는 만여 개의 영화마다 각각의 장르를 모두 저장한 것으로 중복된 값이 많다. 

- 따라서 중복된 장르를 제거해준다. 

 

 

4)

- 장르별 영화 빈도 수를 분석하기 위해 영화, 장르 행렬을 만들어 영화마다 각각의 장르를 입력한다. 

- NumPy의 zeros 함수를 활용하여 영화 개수, 장르 개수 크기의 값이 0인 행렬을 만들어 틀을 만들어준다. 

- NumPy로 크기만큼의 0 행렬을 만든 후 데이터프레임으로 변환한다. 

 

 

 

 

 

5)

- 비어있는 영화/장르 테이블에 값을 빈도 수를 입력하기 위해 반복문을 활용하여 값을 입력

- movie.genres에는 영화의 장르가 있고, enumerate를 했기 때문에 순서대로 영화의 장르가 반복문에서 실행이 된다. 

 

 

 

6)

- 영화 장르별 통계를 내기 위해 합계 함수를 활용하여 장르별  빈도 수를 모두 더해준다. 

 

 

 

7)

- sort_values 함수를 활용하여 정렬된 값을 그래프로 출력 

 

 

 

 

외부 데이터 다루기 

 

 

1. 파이썬의 파일 입출력 활용 

- open() 함수를 활용하여 텍스트 데이터를 불러 올 수 있다. 

 

 

 

 

2. csv 파일을 읽고 쓰기 위해 csv 모듈 활용 

 

 

 

3. Pandas 모듈 내 엑셀 함수를 활용

 

- 불러오 엑셀 데이터는 DataFrame 객체로 Pandas의 dataframe 객체로 Pandas의 dataframe 내 기능을 모두 활용할 수 있다.

- 엑셀을 불러오기 전에 옵션을 활용하여 원하는 특정 데이터만 골라서 가져올 수 있다. 

 

 

'기타 > 글로컬청년취업사관학교' 카테고리의 다른 글

[TlL] 240624  (0) 2024.06.25
[TlL] 240621  (0) 2024.06.21
[TlL] 240619  (0) 2024.06.19
[TlL] 240618  (0) 2024.06.18
[TlL] 240617  (0) 2024.06.17