본문 바로가기

machinelearning11

[MachineLearning] Text Mining(영화리뷰 감성분석) 1. 문제정의 영화리뷰데이터를 활용해서 긍정, 부정 감성 분석 감성분석이란? 특정주제에 대한 글의 감성 태도를 파악하는 것 (긍정/부정) 텍스트데이터를 다루는 방법에 대해서 이해해보자 In [1]: # 파일 불러오는 방법 from sklearn.datasets import load_files import numpy as np import pandas as pd In [2]: # 파일 불러오기 data_url = 'data/aclImdb/train/' rv_train = load_files(data_url, shuffle=True) rv_train Out[2]: {'data': [b"Zero Day leads you to think, even re-think why two boys/young men wou.. 2023. 9. 22.
[MachineLearning] 선형분류(LogisticRegression, SVM) 손글씨 숫자데이터 분류 문제정의 손글씨 숫자(0~9)를 분류하는 모델을 만들어보자 이미지 데이터의 형태를 이해해보자 데이터 수집 In [1]: import numpy as np import pandas as pd import matplotlib.pyplot as plt In [2]: # 데이터 가져오기 data = pd.read_csv('./data/digit_train.csv') In [3]: # 데이터 크기 확인 data.shape Out[3]: (42000, 785) In [4]: data.head() # label : 정답 # pixel0 ~ pixel783 : 문제 (28*28 이미지 데이터) Out[4]: In [5]: # 데이터 시각화 --> 이미지 데이터로 첫번째 행의 label을 제외한 모든 컬럼 가져오기 im.. 2023. 9. 20.
[MachineLearning] 보스턴 주택 가격 예측/ 회귀모델(LinearRegression) 문제정의 보스턴 주택 가격 데이터를 사용하여 주택 가격을 예측해보자 회귀모델 LinearRegression, SGDRegressor 데이터 수집 In [1]: from sklearn import datasets X, y = datasets.fetch_openml('boston', return_X_y=True) In [2]: X Out[2]: In [3]: y Out[3]: 0 24.0 1 21.6 2 34.7 3 33.4 4 36.2 ... 501 22.4 502 20.6 503 23.9 504 22.0 505 11.9 Name: MEDV, Length: 506, dtype: float64 In [4]: X.info() RangeIndex: 506 entries, 0 to 505 Data columns .. 2023. 9. 19.
[MachineLearning] 선형회귀 선형모델 입력특성(데이터, 문제)을 설명할 수 있는 선형함수를 구하는 것 선형함수 기본식 문제가 1개일 때 : y= wx + b 문제가 p개일 때 : y = w1x1 + w2x2 + .... + wpxp + b w : 가중치 - 각 문제마다 다른 가중치 적용, b : 편향 입력 데이터를 완벽하게 설명하는 것은 불가능 ==> 오차가 가장 작은 선형함수를 찾아야함 오차가 가장 작은 선형함수를 찾는다는 것은? 평균제곱오차(MSE)가 가장 작은 선형함수를 찾는다. 평균제곱오차(MSE)가 가장 작은 선형함수 ==> 최적의 선형함수 평균제곱오차가 가장 작은 선형함수를 찾는 방법 수학 공식을 이용한 해석적 방법(공식으로 해결) 장점: 적은 계산으로 구함 --> 한번에 최적의 선형함수를 찾음 단점: 공식이 완벽하지 않.. 2023. 9. 15.