자연어처리(2)
-
NLP 실습 - (2) BERT 모델 학습
지난 포스팅에서는 신문사 분류 모델링을 위해 직접 데이터를 수집한 과정과 함께 토큰화, 불용어처리와 같은 전처리 과정에 대해 소개하였습니다. 이번 글에서는 신문사 분류를 위해 이미 학습된 모델인 BERT를 활용한 모델링 코드 예시와 함께 성능에 대해 간단히 소개하겠습니다. 1. 데이터 전처리 모델 학습에 앞서 타겟변수에 대한 라벨 인코딩 및 학습-평가 데이터 셋 분리하는 작업이 필요합니다. 1.1. 라벨 인코딩 sklearn의 preprocessing 라이브러리를 활용하여 라벨 인코딩을 해주었습니다. import pandas as pd from sklearn import preprocessing ## Load data (토큰화, 불용어처리 완료) df = pd.read_csv('train_news.csv..
2023.02.02 -
NLP 실습 - (1) 데이터 수집 및 전처리
이번 포스팅에서는 2020년 초반에 자연어처리를 공부하면서 실습했던 내용 중 데이터 수집과 정제 위주로 내용을 정리해보려고 합니다. 자연어 처리 실습을 위해 처음 정한 주제는 "신문사 분류" 였습니다. 데이터 수집과 성능 평가 관점에서 해당 주제를 선정하게 되었습니다. 네이버 뉴스의 경우 비교적 접근이 쉽고, 방대한 양의 데이터 수집이 가능하므로 학습에 활용하기 적절합니다. 그리고 자연어 처리에는 '요약', '번역', '문장 생성' 등 다양한 분야가 있지만 모델 구현을 연습하는 단계에서 성능 평가 기준이 명확해야하므로 '분류' 모델로 방향을 잡았습니다. 1. 데이터 크롤링 1.1. 수집 데이터 정의 데이터는 네이버뉴스를 크롤링을 통해 수집하였습니다. 이때, 뉴스 키워드는 '코로나'로 2020.02.15 ..
2023.01.29