[23파이썬특강] 5강. 실전, 데이터 분석

2024-01-15 2 분 소요

1. 개요

5강 ~ 8강에서는 본래 계획을 수정해서 교재 9장 이후는 일부만 살펴보고 역사 데이터를 분석하는 실제 사례를 중심으로 하고자 한다.
5강에서는 교재 9장~11장의 일부 내용을 살펴본 후, 실제 사료 분석을 위해 필요한 파이썬 문법 및 판다스 문자열 처리를 집중적으로 익힌다.
교재 9장: ‘한국복지패널 데이터’ 분석에서는 샘플 데이터가 아닌 실제 데이터를 가지고 데이터 분석 절차를 진행해 보는 의의가 있다. 교재의 09-1은 기본 분석 절차를 다룬 것이고 09-2 ~ 09-9는 분석 패턴이 비슷하기 때문에 09-1과 09-2만 살펴볼 것이다.
교재 10장: 이 교재의 텍스트 마이닝은 간략 검토. 형태소 분석기는 KoNLPy 대신 Kiwi(Korean Intelligent Word Identifier)를 사용한다. 시각화로는 막대그래프만 살펴보고 워드 클라우드는 생략한다.
교재 11장: 지도 시각화는 11-1만 살펴볼 것이다.
실습 코드
- 2023win_python_lec_05_basic.ipynb
실습 데이터
- Koweps_hpwc14_2019_beta2.sav → Koweps_hpwc14_2019_beta2.md을 클릭하면 접속 링크가 나옴
- speech_moon.txt
- news_comment_BTS.csv
- SIG.geojson
- Population_SIG.csv

2. ‘한국복지패널 데이터’ 분석: 성별에 따라 월급이 다를까?

2.1. 데이터 준비하기

전술한 실습 데이터 다운로드 → 워킹 디렉터리: 실습 데이터는 통계 분석 소프트웨어인 SPSS 전용 파일
데이터: 2020년 발간. 6,331가구, 14,418명의 정보 수록. 14,418 * 830
2.2. 패키지 설치 및 로드
pyreadstat: 다양한 통계 분석 소프트웨어의 데이터 파일 불러올 수 있는 패키지
이외에 pandas, numpy, seaborn 등
2.3. 데이터 불러오기
pd.read_spss()

복사본 만들기: df1 = df.copy()

2.4. 데이터 검토하기

welfare               # 앞부분, 뒷부분 출력
welfare.shape         # 행, 열 개수 출력
welfare.info()        # 변수 속성 출력
welfare.describe()    # 요약 통계량

2.5. 변수명 바꾸기

분석에 사용할 변수를 이해하기 쉬운 변수명으로 변경
코드북(codebook) 활용
2.6. 데이터 분석 절차
1단계: 변수 검토 및 전처리: 변수 특징 파악 → 이상치, 결측치 정제 → 변수 값을 다루기 편하게 변환. * 분석에 활용할 변수 각각 진행
2단계: 변수 간 관계 분석: 데이터를 요약한 표와, 데이터의 특징을 쉽게 이해할 수 있는 그래프 등을 작성 → 분석 결과를 해석

3. 유튜브 동영상을 통한 파이썬 문법 익히기

리스트와 딕셔너리

제어문: 조건문과 반복문

문자열 분리와 합치기: split, join

함수

판다스 문자열 처리: 정규표현식, apply 함수, 중복데이터 삭제 등

머신러닝: 사이킷런으로 단어벡터 만들기

공유하기

Twitter Facebook LinkedIn

댓글남기기

참고

[개벽의 사회주의] 01. 사회주의, 개벽, TNA

2024-03-05 최대 1 분 소요

[개벽의 사회주의] 00. 환경설정

2024-03-05 3 분 소요

1. 개요 파이썬은 데이터 분석 작업에 많이 사용되는 프로그래밍 언어이다. 파이썬을 익히려면 파이썬 설치뿐 아니라 파이썬을 활용한 분석 작업을 쉽게 만들어주는 통합 개발 환경(IDE, Integrated Development Environment)을 갖추는 것이 좋다. I...

[23파이썬특강] 7강. TNA 5단계

2024-01-22 2 분 소요

텍스트 연결망 분석 5단계도

[23파이썬특강] 6-8강. 『개벽』 데이터 분석

2024-01-17 최대 1 분 소요

단계 내용 데이터 분석 코드 1. 연구 목표와 탐구 방법 1.1. 『개벽』의 사료적 가치 ...