[혼공머신] 1주차 과제 - 데이터 전처리, 훈련/시험세트
1. 1주차 Contents
1) 인공지능, 머신러닝, 딥러닝
2) 코랩, 노트북, 구글드라이브
(1) 코랩 텍스트 셀 툴바
(2) 텍스트 셀에 사용할 수 있는 마크다운
3) 특성, 훈련, KNeighborsClassifier(K-최근접 이웃 알고리즘), 모델, 정확도
(1) matplotlib
(2) sk-learn
4) 지도학습, 비지도학습, 훈련세트, 테스트세트
(1) numpy
(2) seed()
(3) arrange()
(4) shuffle()
5) 데이터 전처리, 표준점수, 브로드캐스팅
(1) sckit-learn
(2) train_test_split()
(3) kneighbors()
2. 기본 미션
: 코랩 실습 캡쳐
3. 선택 미션
1) 머신러닝 알고리즘의 한 종류로서 샘플의 입력과 타깃을 알 고 있을 때 사용할 수있는 학습 방법?
: 지도학습은 샘플을 기반으로 모델이 학습하여, 타깃을 예측하는 학습입니다.
2) 훈련 세트와 테스트 세트가 잘못 만들어져 전체 데이터를 대표하지 못하는 현상을무엇이라 하는 가?
: 샘플링 편향(훈련세트안의 데이터 특성이 테스트세트에 고루 분포되어 있지 않거나 전혀 들어있지 않을 경우 예측이 되지 않으며, 따라서 샘플링 편향이 발생합니다)
3) 사이킷런은 입력 데이터(배열)가 어떻게 구성되어 있을 것으로 기대하는가?: 행: 샘플, 열: 특성(테이블의 행은 수 많은 샘플들로 구성되고, 열은 샘플의 특성들로 구성됩니다. 샘플이 특성에 비해 너무 적으면 overfit이 발생하거나 예측이 안될 수 있습니다)