[머신러닝] 머신러닝 개요
AI 란 컴퓨터에서 음성 및 작성된 언어를 보고 이해하고 번역하고 데이터를 분석하고 추천하는 기능을 포함하여 다양한 고급 기능을 수행할 수 있는 일련의 기술을 의미한다.
자세한 내용은 아래 링크를 참고.
https://cloud.google.com/learn/what-is-artificial-intelligence?hl=ko
인공지능(AI)이란 무엇인가요? | Google Cloud
인공지능이란 무엇인가요? 인공 신경망이란 무엇인가요? AI의 이점, 사용 사례, 예시
cloud.google.com
그 안에서 머신러닝과 딥러닝으로 인공지능은 나뉘게 된다.
머신러닝은 데이터 기반 미래 예측/판별 하는 것을 가리키며, 딥러닝은 신경망 인공적 구현하는 것을 가리킨다.
머신러닝
머신러닝은 우선 크게 지도학습과 비지도 학습으로 나뉜다.
거기서 지도학습은 회귀분석과 분류 학습으로, 비지도학습은 군집학습과 잠재요인 추출로 나뉘게 된다.
지도 학습이란 입력자료 x로 부터 정답인 y를 예측하는 학습방법이다.( y = 정답 =label = 타겟 = 종속변수 <> x = 독립변수)
>> 분류학습 : y가 범주형 변수일때 (분류, 인식)
>> 회귀 : y가 연속형 변수일때 (예측)
비지도 학습이란 y가 존재하지 않는 자료 대상 (데이터 내에 특징과 패턴) 의 데이터를 학습하는 방법이다.
>> 군집학습 : 유사성을 이용 (그룹 분류)
>> 잠재요인추출 : 잠재요인 추출(주성분분석)
강화학습 : 컴퓨터 에이전트가 역동적인 환경에서 반복적인 시행착오 상호작용을 통해 작업 수행 방법을 학습하는 방법이다.
(디지털 전환(DT) (게임이나 로봇분야 주 사용)
예시로 사용된 실험 : 스키너 쥐 실험 ( 행동심리학: 강화 > 시행착오, 보상 <)
데이터 유형
- 수치형 데이터
- 연속형 데이터: 연속으로 변하는 양(무게,길이,온도)
- 이산형 데이터: 수를 세어 얻는 양(불량품의 수)
- 범주형 데이터: 불연속 집합의 특성(실수형 데이터)
- 이분형 데이터: 범주가 이분형으로 나뉘는 (찬성/반대)
- 명목형 데이터: 특성 분류만을 이용하여 숫자를 부여 (성별, 선수 등 번호 )
- 순위형 데이터: 관측 대상간의 순서를 부여 (신용등급)
기계학습 처리 절차
컴퓨터에 입력된 데이터를 바탕으로 특정목적(분류 또는 예측)위한 학습을 주어진 데이터를 목적에 맞게 분석할 수 있게 하는 프로세스를 의미한다.
해당 사진은 처리과정을 나타낸것이다. 이전에 데이터 수집, 전처리 과정도 있다는 것을 명심할 것.
훈련데이터를 통해 알고리즘을 선택하여 학습 후에 평가를 하지만, 비지도 학습은 평가를 할 수 없다.
(평가 = 정답이 있는 지도학습의 데이터만 가능하기 때문이다.)
예측: 경험(학습) 바탕으로 모델을 생성하고 새로운 데이터에 대한 결과 값을 예상하는 것
과적합
과적합이란 분석데이터에만 존재하는 특징을 학습하여 데이터의 작은 변화에도 과장된 결과를 초래하여 예측력이 떨어지는 현상
( 학습데이터에는 오차가 감소하지만, 실제 데이터에서는 오차가 증가하는 것을 말한다.)
과적합 방지 위한 추가적 분석 기술
- 교차검증 cross validation : k(전체 데이터를 몇 개로 등분할 것인지)-fold : k개를 분류하고 k-1 훈련데이터로
- 정규화, 표준화 Scailing:
머신러닝_ 큰 데이터에 가중치를 더 주는 특징 존재
정규화 0-1 사이의 데이터로 만드는 방법(편차의 정보를 잃음) / 표준화는 데이터의 평균 0-1 사이 데이터 (분포 정보를 유지)
- Early stopping: 과대적합이 발생할 것으로 예상될때 학습을 종료하고 업데이트 하는 과정을 반복 수행하는 과정
머신러닝 모델구축
어떤 사건의 결과(Y)를 놓고 이에 영향을 주는 설명 변수(X)의 조합이라는 모델을 상정해 놓고 그 모델을 정교하게 만들어 가는 과정을 말한다.
y = wx + b (w : 가중치(학습 파라메터), b: 절편) (y = w1x1+ w2x2 + ...+ wnxn +b)
독립변수 x 종속변수 y에 상관관계에 대한 w 가중치를 찾는 것이 목적이다.