Machine Learning(7)
-
테이블형 데이터에 트리 기반 모델이 딥러닝 보다 잘 작동하는 이유
안녕하세요, 이번 포스팅에서는 트리 기반 모델과 딥러닝 모델의 특징을 중심으로 테이블형 데이터에 트리 기반 모델이 딥러닝 모델보다 대체로 성능이 잘 나오는 이유에 대해 알아보겠습니다. 저도 업무에서 테이블형 데이터를 활용한 모델링을 주로 하는데요. 트리 계열의 부스팅 알고리즘과 딥러닝 알고리즘 모두 활용해보고 성능을 비교해보면 대부분 성능이 유사하거나, 부스팅 알고리즘의 성능이 높은 경우가 많습니다. 이런 경우 계산 비용이 적게 소모되는 부스팅 알고리즘을 사용하는 것이 합리적입니다. 따라서 딥러닝이라고 해서 성능이 항상 우수한 것이 아니며, 데이터와 상황에 맞는 알고리즘을 선택해야한다고 생각하고 있습니다. 그렇다면 테이블형 데이터에서 트리 계열 알고리즘이 더 잘 작동하는 이유는 뭘까요? 저는 어렴풋이 트..
2023.08.25 -
ChatGPT란? (개념 및 원리)
이번 포스팅에서는 최근 일상 속에서 큰 화두가 된 'ChatGPT'에 대해 알아보려고 합니다. 몇 년 전 인공지능 공부를 시작한 뒤 챗봇이 발전하려면 꽤나 시간이 필요할 것이라고 생각했었습니다. 하지만 기술이 세상을 놀라게 하는데는 오랜 시간이 걸리지 않았습니다. 이런 변화에 맞춰 기술을 제대로 이해하고, 잘 활용하는 방법에 대해 고민해보는 것이 중요하다고 생각하여 GhatGPT에 대해 조금씩 공부해보려고 합니다.1. ChatGPT 란? ChatGPT 를 소개하며, 우리는 대화 방식으로 상호작용하는 모델을 훈련시켰고, ChatGPT 라고 부릅니다. 대화 형식은 ChatGPT 가 후속 질문에 답변하고, 실수를 인정하고, 잘못된 전제에 이의를 제기하고, 부적절한 요청을 거부할 수 있도록 합니다. - Open..
2023.04.14 -
공부 기록 1일. AutoML 도입 효과 및 학습 목적
지난 포스팅에서는 AutoML의 종류와 장단점에 대해 조사한 내용을 정리해보았습니다. AutoML 이란? (종류 및 장단점) 이번 글에서는 머신러닝을 쉽고 빠르게 도입할 수 있도록 도와주는 AutoML (Automated Machine Learning) 에 대해 간단히 정리해보고자 한다. AutoML 이란 무엇이고, AutoML 에는 어떤 종류가 있고, 종류별 특 data-minggeul.tistory.com 이후 블로그 포스팅과 공부 의지가 약해져서 패스트캠퍼스 강의를 들으며 배운 내용을 블로그에 정리함으로써 공부습관을 다지고자 합니다. 패스트캠퍼스에 업무 관련 수많은 강의가 있는데 먼저 업무와 가장 관련이 깊은 AutoML 부터 정복해보고자 '길스랩' 강사님의 'AutoML 시스템 구축으로 익히는 모..
2023.02.16 -
NLP 실습 - (2) BERT 모델 학습
지난 포스팅에서는 신문사 분류 모델링을 위해 직접 데이터를 수집한 과정과 함께 토큰화, 불용어처리와 같은 전처리 과정에 대해 소개하였습니다. 이번 글에서는 신문사 분류를 위해 이미 학습된 모델인 BERT를 활용한 모델링 코드 예시와 함께 성능에 대해 간단히 소개하겠습니다. 1. 데이터 전처리 모델 학습에 앞서 타겟변수에 대한 라벨 인코딩 및 학습-평가 데이터 셋 분리하는 작업이 필요합니다. 1.1. 라벨 인코딩 sklearn의 preprocessing 라이브러리를 활용하여 라벨 인코딩을 해주었습니다. import pandas as pd from sklearn import preprocessing ## Load data (토큰화, 불용어처리 완료) df = pd.read_csv('train_news.csv..
2023.02.02 -
NLP 실습 - (1) 데이터 수집 및 전처리
이번 포스팅에서는 2020년 초반에 자연어처리를 공부하면서 실습했던 내용 중 데이터 수집과 정제 위주로 내용을 정리해보려고 합니다. 자연어 처리 실습을 위해 처음 정한 주제는 "신문사 분류" 였습니다. 데이터 수집과 성능 평가 관점에서 해당 주제를 선정하게 되었습니다. 네이버 뉴스의 경우 비교적 접근이 쉽고, 방대한 양의 데이터 수집이 가능하므로 학습에 활용하기 적절합니다. 그리고 자연어 처리에는 '요약', '번역', '문장 생성' 등 다양한 분야가 있지만 모델 구현을 연습하는 단계에서 성능 평가 기준이 명확해야하므로 '분류' 모델로 방향을 잡았습니다. 1. 데이터 크롤링 1.1. 수집 데이터 정의 데이터는 네이버뉴스를 크롤링을 통해 수집하였습니다. 이때, 뉴스 키워드는 '코로나'로 2020.02.15 ..
2023.01.29 -
AutoML 이란? (종류 및 장단점)
이번 글에서는 머신러닝을 쉽고 빠르게 도입할 수 있도록 도와주는 AutoML (Automated Machine Learning) 에 대해 간단히 정리해보고자 한다. AutoML 이란 무엇이고, AutoML 에는 어떤 종류가 있고, 종류별 특징 및 장단점은 무엇인지 알아보자. 1. AutoML 이란? AutoML 은 머신러닝 모델을 학습하고, 배포하는 과정을 자동화하는 기술 혹은 도구를 말하는데, AutoML 을 이해하기 위해서는 먼저 머신러닝 프로세스를 이해해야한다. 머신러닝 프로세스는 크게 데이터 전처리, 모델링, 후처리의 3단계로 구분할 수 있다[1]. 데이터 전처리 단계에서는 데이터 수집(Acquisition), 데이터 클렌징(Cleaning), 결측값 처리(Imputation), 분포 변환(Tra..
2022.11.21