본문 바로가기

Study/MachineLearning8

[MachineLearning] Text Mining(영화리뷰 감성분석) 1. 문제정의 영화리뷰데이터를 활용해서 긍정, 부정 감성 분석 감성분석이란? 특정주제에 대한 글의 감성 태도를 파악하는 것 (긍정/부정) 텍스트데이터를 다루는 방법에 대해서 이해해보자 In [1]: # 파일 불러오는 방법 from sklearn.datasets import load_files import numpy as np import pandas as pd In [2]: # 파일 불러오기 data_url = 'data/aclImdb/train/' rv_train = load_files(data_url, shuffle=True) rv_train Out[2]: {'data': [b"Zero Day leads you to think, even re-think why two boys/young men wou.. 2023. 9. 22.
[MachineLearning] 보스턴 주택 가격 예측/ 회귀모델(LinearRegression) 문제정의 보스턴 주택 가격 데이터를 사용하여 주택 가격을 예측해보자 회귀모델 LinearRegression, SGDRegressor 데이터 수집 In [1]: from sklearn import datasets X, y = datasets.fetch_openml('boston', return_X_y=True) In [2]: X Out[2]: In [3]: y Out[3]: 0 24.0 1 21.6 2 34.7 3 33.4 4 36.2 ... 501 22.4 502 20.6 503 23.9 504 22.0 505 11.9 Name: MEDV, Length: 506, dtype: float64 In [4]: X.info() RangeIndex: 506 entries, 0 to 505 Data columns .. 2023. 9. 19.
[MachineLearning] Ensemble 모델을 활용한 유방암 분류 실습 1. 유방암 데이터를 활용하여 Ensemble 모델을 학습해보자 wisconsin의 유방암 데이터 셋 총 569건의 데이터(악성-212, 양성-357) In [1]: # 데이서 셋 불러오기 from sklearn.datasets import load_breast_cancer cancer_data = load_breast_cancer() cancer_data # 데이터 형태: 전체적인 형태 - 딕셔너리 구조, bunch 객체 Out[1]: {'data': array([[1.799e+01, 1.038e+01, 1.228e+02, ..., 2.654e-01, 4.601e-01, 1.189e-01], [2.057e+01, 1.777e+01, 1.329e+02, ..., 1.860e-01, 2.750e-01, 8.. 2023. 9. 14.
[MachineLearning] titanic 분류 실습 목표 타이타닉 데이터를 활용하여 생존자/사망자 예측해보자 kaggle 경진대회에 참가하여 우리 점수를 확인해보자 머신러닝의 전체 과정을 체험해보자 머신러닝 과정 문제정의: 목표설정, 어떤 모델 데이터 수집: 분류를 할거라면 class로 담긴 레이블이 있는 데이터 수집 같은 데이터 전처리: 이상치/결측치 처리, 특성 처리(특성공학) 데이터 탐색(탐색적 데이터 분석): 기술 통계, 특성 간의 관계 모델 선택 및 하이퍼 파라미터 설정 모델 예측 및 평가 모델 서비스화 In [1]: import numpy as np import pandas as pd import matplotlib.pyplot as plt # 시각화 라이브러리 import seaborn as sns # 시각화 라이브러리 # train, tes.. 2023. 9. 12.