NLP 실습 - (1) 데이터 수집 및 전처리
이번 포스팅에서는 2020년 초반에 자연어처리를 공부하면서 실습했던 내용 중 데이터 수집과 정제 위주로 내용을 정리해보려고 합니다. 자연어 처리 실습을 위해 처음 정한 주제는 "신문사 분류" 였습니다. 데이터 수집과 성능 평가 관점에서 해당 주제를 선정하게 되었습니다. 네이버 뉴스의 경우 비교적 접근이 쉽고, 방대한 양의 데이터 수집이 가능하므로 학습에 활용하기 적절합니다. 그리고 자연어 처리에는 '요약', '번역', '문장 생성' 등 다양한 분야가 있지만 모델 구현을 연습하는 단계에서 성능 평가 기준이 명확해야하므로 '분류' 모델로 방향을 잡았습니다. 1. 데이터 크롤링 1.1. 수집 데이터 정의 데이터는 네이버뉴스를 크롤링을 통해 수집하였습니다. 이때, 뉴스 키워드는 '코로나'로 2020.02.15 ..
2023.01.29