본문 바로가기

Study/MachineLearning8

[MachineLearning] mushroom_tree 분류 mushroom_tree 버섯의 특징을 활용해 독/식용 이진 분류 Decision Tree 모델 활용 Decision Tree 학습현황 시각화 & 과대적합 제어(하이퍼 파라미터 튜닝) 특성의 중요도를 파악 확인(불순한 정도를 파악하는 것: 지니 불순도) In [1]: import pandas as pd import numpy as np import matplotlib.pyplot as plt # train, test 랜덤 샘플링 도구 from sklearn.model_selection import train_test_split from sklearn.tree import DecisionTreeClassifier 데이터 불러오기 In [2]: # data 변수에 담아주기 # data 폴더에 있는 mushr.. 2023. 9. 11.
[MachineLearning] iris 분류(knn모델) knn : k개의 최근접 이웃 알고리즘 가장 가까운 이웃의 정답을 확인하고 test를 예측하는 것 거리를 계산 : 유클리디안 거리공식 (다차원의 거리를 계산할 수 있다) knn 이웃의 수를 조정하는 매개변수 : n_neighbors 이웃의 수 값이 작으면 과대적합일 확류이 높음 적당한 이웃의 수를 찾아야 함 --> 일반화 이웃의 수 값이 너무나도 크면 과소적합일 확률이 높다 (과소적합) train 학습이 제대로 되지 않아서 test성능도 떨어지는 상태(예측 못하는 상태) (과대적합) train 학습을 너무 맞춰서 하다보니 규칙이 복잡해져 test에대한 성능은 떨어지는 상태(test예측 못하는 상태) (일반화) train에 대한 학습도 적당히 잘 되고, test대한 성능도 어느정도 잘 나오는 상태 => 어.. 2023. 9. 8.
[MachineLearning] bmi 학습하기 문제 500명의 키와 몸무게, 비만도 라벨을 이용하여 비만을 판단하는 모델을 만들어보자 In [1]: # 판다스. 시각화 import pandas as pd import matplotlib.pyplot as plt # 모델 관련한 불러오는 코드 (2줄) # knn 모델 불러오기, 측정 도구 불러오기 from sklearn.neighbors import KNeighborsClassifier from sklearn.metrics import accuracy_score 데이터 준비(수집) In [2]: # pd.read_csv('파일 경로 설정') # data 변수에 담아주기 # Label 컬럼을 인덱스로 설정해서 불러오기 data = pd.read_csv('./data/bmi_500.csv', index_c.. 2023. 9. 7.
[MachineLearning] and 연산 머신러닝이란? 기계 학습 입력된 데이터를 학습하고 그에 따른 패턴과 규칙을 찾아 예측하는 것 머신러닝 종류 지도학습(교사학습) : 문제데이터 + 답데이터(교사) 유형 종류2: 분류 : 여러 클래스 중에서 하나를 찾는 것 회귀 : 연속적인 수치값을 예측하는 것 비지도학습(비교사학습) : 문제데이터 데이터의 의미를 파악, 비슷한 데이터끼리 묶음 군집화(clustering) 강화학습(reinforcement learning) : 로봇(행동 주체자)에게 환경에 대해 학습하게 하는 일련의 과정 문제정의 훈련 데이터와 테스트 데이터 이해하기 머신러닝의 일련의 과정 이해하기 AND 연산의 결과를 도출하는 머신러닝 모델 학습하기 In [1]: import pandas as pd import numpy as np imp.. 2023. 9. 6.