2 분 소요

1. 개요

  • 5강 ~ 8강에서는 본래 계획을 수정해서 교재 9장 이후는 일부만 살펴보고 역사 데이터를 분석하는 실제 사례를 중심으로 하고자 한다.
  • 5강에서는 교재 9장~11장의 일부 내용을 살펴본 후, 실제 사료 분석을 위해 필요한 파이썬 문법 및 판다스 문자열 처리를 집중적으로 익힌다.
  • 교재 9장: ‘한국복지패널 데이터’ 분석에서는 샘플 데이터가 아닌 실제 데이터를 가지고 데이터 분석 절차를 진행해 보는 의의가 있다. 교재의 09-1은 기본 분석 절차를 다룬 것이고 09-2 ~ 09-9는 분석 패턴이 비슷하기 때문에 09-1과 09-2만 살펴볼 것이다.
  • 교재 10장: 이 교재의 텍스트 마이닝은 간략 검토. 형태소 분석기는 KoNLPy 대신 Kiwi(Korean Intelligent Word Identifier)를 사용한다. 시각화로는 막대그래프만 살펴보고 워드 클라우드는 생략한다.
  • 교재 11장: 지도 시각화는 11-1만 살펴볼 것이다.

  • 실습 코드
  • 실습 데이터

2. ‘한국복지패널 데이터’ 분석: 성별에 따라 월급이 다를까?

2.1. 데이터 준비하기

  • 전술한 실습 데이터 다운로드 → 워킹 디렉터리: 실습 데이터는 통계 분석 소프트웨어인 SPSS 전용 파일
  • 데이터: 2020년 발간. 6,331가구, 14,418명의 정보 수록. 14,418 * 830

    2.2. 패키지 설치 및 로드

  • pyreadstat: 다양한 통계 분석 소프트웨어의 데이터 파일 불러올 수 있는 패키지
  • 이외에 pandas, numpy, seaborn 등

    2.3. 데이터 불러오기

  • pd.read_spss()
  • 복사본 만들기: df1 = df.copy()

    2.4. 데이터 검토하기

    welfare               # 앞부분, 뒷부분 출력
    welfare.shape         # 행, 열 개수 출력
    welfare.info()        # 변수 속성 출력
    welfare.describe()    # 요약 통계량
    

    2.5. 변수명 바꾸기

  • 분석에 사용할 변수를 이해하기 쉬운 변수명으로 변경
  • 코드북(codebook) 활용

    2.6. 데이터 분석 절차

  • 1단계: 변수 검토 및 전처리: 변수 특징 파악 → 이상치, 결측치 정제 → 변수 값을 다루기 편하게 변환. * 분석에 활용할 변수 각각 진행
  • 2단계: 변수 간 관계 분석: 데이터를 요약한 표와, 데이터의 특징을 쉽게 이해할 수 있는 그래프 등을 작성 → 분석 결과를 해석

3. 유튜브 동영상을 통한 파이썬 문법 익히기

리스트와 딕셔너리

제어문: 조건문과 반복문

문자열 분리와 합치기: split, join

함수

판다스 문자열 처리: 정규표현식, apply 함수, 중복데이터 삭제 등

머신러닝: 사이킷런으로 단어벡터 만들기

업데이트:

댓글남기기