[23파이썬특강] 6강-gb2. 텍스트 연결망 분석
2.1. 『개벽』의 논조와 주요논설
- 『개벽』의 논조 및 그 중요성: ‘논조’는 『개벽』 주도층의 주장을 살펴보기 위해 설정한 추상적 범주이다.
- 선행연구에서 주목한 ‘주요논설’의 성격: ‘주요논설’은 목차 공간에서 확인할 수 있는 구체적 기사 분류로서, 권두언, 사설, 대표적 논설 등을 포함한다.
- 『개벽』의 논조와 ‘주요논설’의 관계: 『개벽』의 논조는 ‘주요논설’에 집약되어 있다고 말할 수 있다.
2.2. 개벽 말뭉치 생성
- ‘개벽 주요논설 말뭉치’(‘개벽 말뭉치’)의 필요성: TNA를 실행하려면, 주요논설 전산 자료를 전처리한 ‘개벽 말뭉치’가 필요
- ‘개벽 말뭉치’의 생성 과정: 『개벽』 전산 자료를 수집 → ‘주요논설’을 선별 → 본문 기사를 ‘문장’ 단위로 구분 → 전처리 → 개벽 말뭉치
- ‘개벽 말뭉치’의 특징: 10회 이상 사용된 명사가 중심이며, DB형태로 이루어져 있다.
2.2.1. 개벽 논설 데이터 수집
- “개벽” 웹사이트 우측 위의 화살표 아이콘 눌러 기사정보 다운로드: 한국근현대잡지자료.txt → 워킹디렉토리에 저장
- 한국사데이터베이스/한국근현대잡지/개벽: url부분 마우스 우클릭 → “항상 전체 선택 url 표시”
- https://db.history.go.kr/item/level.do?sort=levelId&dir=ASC&start=1&limit=20&page=1&pre_page=1&setId=-1&prevPage=0&prevLimit=&itemId=ma&types=&synonym=off&chinessChar=on&brokerPagingInfo=&levelId=ma_013_0010_0001&position=-1
- 가변부분(기사 id에 해당): ma_013_0010_0001
- url의 불변 부분과 가변 부분을 분리, 조합하는 방식으로 반복문 작성 → 2,549건
2.2.2. 전처리
- Kiwi 사용
2.3. 문서-단어 행렬과 특성
- TNA에서 ‘문서-단어 행렬’ (Document Term Matrix)의 중요성: DTM은 TNA 입력값으로 사용되는 기본 데이터 형식으로, 문서, 특성, 특성 벡터로 구성되어 있다.
- ‘특성’ 및 ‘특성벡터’ 개념: 단어빈도-역문서 빈도(TF-IDF) 합계 상위 50개 단어를 특성으로 삼으며, 이 단어의 문서별 TF-IDF들이 곧 특성벡터이다.
- ‘특성 간의 관계’ 이해와 필요성: 특성 간의 관계를 코사인 유사도로 숫자화하면, 그 관계를 연결망으로 시각화할 수 있다.
댓글남기기