국비 교육/머신러닝, 딥러닝37 [머신러닝] 분류분석 : 나이브 베이즈 분류 확률- 독립사건: 사건 A가 발생하고 그 다음 사건 B가 발생할 때 선행 사건의 결과가 후행 사건의 결과에 영향을 미치지 않는 경우- 종속사건: 선행 실험의 결과가 후행 실험의 결과에 영향을 미치는 경우- 조건부확률 : 사건 A가 발생한 상태에서 사건 B가 발생활 확률 = P(B|A) - P(B|A) = P(A∩B) / P(A) 이다. (단, 독립사건의 경우 P(B|A) = p(B) 이다.)- 베이즈 이론: 추론대상의 사전확률과 추가적인 정보를 기반으로 해당 대상의 사후 확률을 추론하는 통계적 방법(경험을 바탕으로 추론한다는 점이 머신러닝/ 딥러닝과의 공통점이어서 많이 사용된다.) - P(B|A) = P(A|B)*P(B) / P(A) 이다. - P(A∩B) = P.. 2023. 11. 22. [머신러닝] 분류분석 : [다지분류]로지스틱 회귀분석 임계값 Threshold : 결정함수각 샘플의 결정함수를 사용하여 점수를 계산하고 이 점수가 임계값 보다 크면 샘플을 양성으로 판단하고 그렇지 않으면 음성으로 판단한다.임계값의 위치에 따라 정밀도와 재현율이 달라지는 것을 알 수 있다.다중클래스 혼동행렬1:n 의 모양으로 혼동행렬을 만든다. 예시에서는 사과인 것과 - 사과가 아닌 것Micro F1마이크로 평균 F1 score 라고 하며 모델의 전체 TP, 전체 FP, 전체 FN을 고려하여 계산된다.하나의 클래스 간에 TP끼리, FP끼리, FN 끼리 더한다.Macro F1각 클래스에 대해 메트릭을 계산한 다음 측정값의 가중되지 않은 평균을 말한다. (각 클래스 별의 메트릭을 산술평균(f1-score를 산술평균한 것 ))Weighted F1매크로F1 과 달.. 2023. 11. 21. [머신러닝] 분류분석 : [이지분류] 로지스틱 회귀분석 - (실습) 유방암 확률 예측, 개인 신용도 기반 대출 가능 여부 예측 유방암 확률 예측패키지 로딩해당 데이터는 sklearn 에 저장되어있는 유방암 환자 데이터 이다.from sklearn.datasets import load_breast_cancer # 유방암환자 데이터 제공from sklearn.linear_model import LogisticRegressionfrom sklearn.preprocessing import StandardScalerfrom sklearn.metrics import accuracy_score, precision_score, recall_score, roc_curve, roc_auc_score, confusion_matrixfrom sklearn.model_selection import train_test_splitimport pandas .. 2023. 11. 21. [머신러닝] 지도학습 알고리즘 - 분류분석 : 로지스틱 회귀분석 분류분석 Classification Analysis - 로지스틱 회귀분석종속변수가 범주형인 데이터에 대해 데이터의 유사성이 높은 것들을 같은 종류로 분류 되도록 하는 분석방법(종속변수가 미리 결정된 범주 중 하나에 속할 가능성 또는 확률을 예측(확률분포로 나타난다.))종류 - 로지스틱 회귀분석: 종속변수가 범주형일때 사용하는 회귀분석 (이진분류에 많이 사용) - 의사결정트리 : 나무 형태의 그래프로 의사결정을 표현하는 데이터 분류 알고리즘(시각화, 도식화 가능) - 나이브 베이즈: 데이터 집합의 예측변수가 독립적이라고 가정하는 분류 알고리즘(조건부확률 사용) - K-nearest Neighbors: 데이터 포인터 간의 거리를 기반으로 예측 분류 및 예측하는 알고리즘로지스틱 회귀분석 .. 2023. 11. 20. [머신러닝] 회귀분석 - 교차검증 교차검증 Cross Validation데이터를 분할하여 모델 생성 및 적용에 번갈아 가면서 일반화하는 모델검증 평가방법(모든 데이터셋을 검증에 1번씩 사용한다.)1. K-Fold cross validation자료를 k 개로 분류하고 k-1개를 훈련데이터, 1개를 평가데이터로 구분하여 모델생성과정을 k번 검증한다.K-Fold() 는 데이터셋을 순서대로 일정한 간격으로 분할하기 때문에 분류 분석일 경우 종속변수의 데이터 분포가 치우칠 수 있다 (위에서 부터 순차적으로 끊기 때문이다) -> shuffle = True 로 지정하여 임의 추출로 해결할 수 있지만, 한쪽의 비율이 더 많을수도 있다는 단점 존재.주로 회귀분석에서 사용한다.2. Stratified K-Fold cross validation원본데이터의 .. 2023. 11. 20. [머신러닝] 회귀분석 - L1, L2규제 ((문제) 보스톤 집값 예측, 대한민국 육군 몸무게 예측) 보스톤 집값 예측패키지로딩from sklearn.model_selection import train_test_splitfrom sklearn.linear_model import LinearRegression, Lasso, Ridge, ElasticNet # LinearRegression: 규제가 적용되지 않은 선형회귀 모델from sklearn.preprocessing import StandardScalerfrom sklearn.metrics import mean_squared_errorimport numpy as npimport pandas as pd데이터 로드 및 확인boston = pd.read_csv('./dataset/HousingData.csv')print(boston.shape)display.. 2023. 11. 20. [머신러닝] 회귀분석 - 다중공선성, L1 규제 ,L2규제 다중공선성 예시패키지 로딩from statsmodels.datasets.longley import load_pandas # 통계관련 패키지import pandas as pdimport seaborn as snsimport matplotlib.pyplot as pltstatsmodels 은 파이썬에서 통계 모델링을 위한 기능을 제공하는 라이브러리이며, Longley 데이터셋은 공선성이 매우 높은 것으로 알려진 미국 거시경제 지표가 포함 되어있다.load_pandas() 의 Dataset 객체 속성 - data: DataFrame 객체로 전체 데이터 반환 - endog : Series 객체로 종속변수 값 반환 - exog: DataFrame 객체로 독립변수 값 반환변수 설명독립변수 : GNPDFEL - GN.. 2023. 11. 20. [머신러닝] 회귀분석 - 데이터 전처리(원핫 인코딩, 라벨 인코딩, 데이터 스케일링) 데이터 전처리 데이터를 분석 및 처리에 적합한 형태로 만드는 과정을 총칭한다.우수한 예측 분석 결과는 잘 정돈된 데이터에서 출발한다. 정교한 예측 분석 모델을 얻기 위해서는 수집된 데이터에 누락된 부분이나, 오차, 또는 데이터 처리에 있어서 가공할 부분은 없는지 확인해야 한다.One-hot Encoding(원-핫 인코딩)단 하나의 값만 True 이고 나머지는 모두 False 인 인코딩을 의미한다. 모든 범주형 변수를 정수인 0,1 의 이진형 벡터로 표시하면서 변수를 열거하고 해당하지 않는 모든 항목은 0으로 표시, 해당하는 항목은 1로 표시한다.데이터 형태는 0,1 로 이루어져 있기 때문에 컴퓨터가 인식하고 학습하기에 용이하다.입력값으로 2차원 데이터가 필요하다. 인코딩 결과가 밀집 행렬(Dense Ma.. 2023. 11. 20. [머신러닝] 지도학습 알고리즘 - 회귀 분석 Regression Analystic 회귀 분석 Regression Analystic매개변수 모델을 이용하여 통계적으로 변수들 사이의 관계를 추정하는 분석방법 독립변수가 종속변수에 미치는 영향을 확인하고자 사용한다. (연속적인 값을 갖는 연속변수를 예측하는데 주로 활용) 단순 회귀분석: 하나의 종속 변수와 하나의 독립변수 사이의 관계를 분석 다중 회귀분석: 하나의 종속 변수와 여러 독립변수 사이의 관계를 규명 선형관계 : 독립변수가 종속변수에 영향을 준다면 두 변수 사이에 선형관계가 있다는 것이다.회귀분석과 모델독립변수x 와 종속변수 y 데이터가 주어졌을 때 두 변수의 관계를 설명하 수 있는 y = wx+b 선형관계를 찾는 것을 말한다.최소제곱법을 통해 오차를 최소화 할 수 있는 w와 b를 찾는다. (최소제곱법: 회귀선과 관측값들의 잔차를 .. 2023. 11. 16. 이전 1 2 3 4 5 다음