데이터 분석에서는 input(입력)값과 output(출력)값이 존재한다~
입력 X
= independent variable
= covariates, regressor, explanatory, feature, attributes, stimulus
출력 Y
= dependent variable
= response, regressand, target, label, tag
class : 전체 데이터를 분류하는 군집
label : 데이터가 속하는 분류 군집
binary classification : 클래스가 단 두 개일 경우
Multiclass classification
예를 들어 버섯이 5개가 있다고하면, 각각의 버섯은 이름을 가진다.
느타리버섯, 양송이버섯, 새송이버섯, 표고버섯, 송로버섯
그러면 각각의 버섯은 이 중 하나일 것이다.
느타리버섯 | 양송이버섯 | 새송이버섯 | 표고버섯 | 송로버섯 | |
버섯 1 | 1 | 0 | 0 | 0 | 0 |
버섯 2 | 0 | 1 | 0 | 0 | 0 |
버섯 3 | 0 | 0 | 1 | 0 | 0 |
버섯 4 | 0 | 0 | 0 | 1 | 0 |
버섯 5 | 0 | 0 | 0 | 0 | 1 |
(One-Hot Encoding으로 표현)
One-Hot Encoding : 단어 집합의 크기를 벡터의 차원으로 하고, 표현하고 싶은 단어의 인덱스에 1의 값을 부여하고, 다른 인덱스에는 0을 부여하는 단어의 벡터 표현 방식
버섯이 될 수있는 모든 class는 5개지만 각 버섯의 label은 1개인것!!
Multilabel Classification
여기서도 위와 마찬가지로 버섯 5가지가 있는데~ 100g, 200g, 300g으로도 분류해본다고 하면~
느타리버섯 | 양송이버섯 | 새송이버섯 | 표고버섯 | 송로버섯 | 100g | 200g | 300g | |
버섯 1 | 1 | 0 | 0 | 0 | 0 | 1 | 0 | 0 |
버섯 2 | 0 | 1 | 0 | 0 | 0 | 0 | 1 | 0 |
버섯 3 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 1 |
버섯 4 | 0 | 0 | 0 | 1 | 0 | 1 | 0 | 0 |
버섯 5 | 0 | 0 | 0 | 0 | 1 | 0 | 1 | 0 |
multilabel은 버섯1이 느타리버섯이면서 100g인것~ label을 1개 이상 가진다는거다!!
이 차이점이 있다~
qastack.kr/stats/11859/what-is-the-difference-between-multiclass-and-multilabel-problem
[Github] How to upload modified file to git(Windows) (0) | 2020.09.22 |
---|---|
[Github] How to upload a project to Github(Windows) (0) | 2020.09.22 |
[Virtual Environments] pip / pyenv / virtualenv / anaconda (0) | 2020.08.29 |
[Pip / conda] pip 와 conda (0) | 2020.08.09 |
[Python] Anaconda 가상환경 생성/삭제하기 (0) | 2020.08.09 |