반응형
블로그 목적
- 머신러닝에서 데이터(data)에 대한 의미에 대해서 알아본다.
머신러닝에서 말하는 데이터(data)란?
- 학습을 위한 필수 구성 요소
- 다양한 포맷, 빈도수, 규모로 이뤄져 있음을 내포하고 있음.
머신러닝에서 데이터의 처리에 대해서 알아보자.
- 대규모 데이터 셋을 다루기 위한 방법은 아래와 같음.
- 병렬처리(parallel processing)
- 분산저장(distributed storage)
- 분산실행(distributed execution)
- 기타 등등.
- 또한, 데이터 처리 시 차원(dimension)이란 요소는 매우 중요하게 고려해야함.
- 만약 데이터가 있다면,
- 하나, 행(row)과 열(column) 로 구성되어 있는지 확인
- 둘, 정형화된 데이터(structured data) / 비정형화된 데이터(unstructured data)로 구분함.
- 만약 데이터가 있다면,
그럼, 데이터와 관련된 용어들을 하나씩 정리해보자.
- 피처 / 어트리뷰트 / 필드 / 변수 (feature / attribute / field / variable)
- 데이터의 열을 의미함.
- 보통, 학습 알고리즘의 입력 데이터로 사용되거나 분석 결과로 참조되기도 함.
- 데이터의 열을 의미함.
- 인스턴스 (instance)
- 데이터셋을 구성하는 단위 데이터를 말함.
- 피처 벡터 / 튜플(feature vector / tuple)
- 피처 목록을 의미함.
- 차원(dimension)
- 데이터의 속성을 표현하는 어트리뷰트의 일부를 뜻함.
- ex) "날짜" 라는 차원이 일 / 월 / 연도 3개의 속성으로 구성됨을 말하듯...
- 데이터의 속성을 표현하는 어트리뷰트의 일부를 뜻함.
- 데이터셋(dataset)
- 인스턴스를 하나로 모은 결과물을 말함.
- 학습용(training)
- 테스트용(testing)
- 평가용(evaluation)
- 참고로, 머신러닝 알고리즘은,
- 모델의 정확도를 측정하는 각 단계에 따라 다른 데이터 셋을 이용해 실행됨.
- 보통 아래 비율로 데이터를 나눔
- 학습용 60%
- 테스트용 30%
- 평가용 10%
- 총 100%
- 보통 아래 비율로 데이터를 나눔
- 모델의 정확도를 측정하는 각 단계에 따라 다른 데이터 셋을 이용해 실행됨.
- 추가적으로 설명하면 아래와 같음.
- 학습 데이터셋
- 모델을 개발하고 학습시키기 위해 사용되는 기본 데이터셋을 말함.
- 테스트 데이터셋
- 생성된 모델에 대해서 성능을 평가하는 용도로 사용됨.
- 평가 데이터셋
- 모델의 최종 검증 용도로 사용됨.
- 학습 데이터셋
- 인스턴스를 하나로 모은 결과물을 말함.
- 데이터타입(data type)
- 위에서 설명한, 어튜리뷰트 / 피처는 다양한 데이터 타입으로 표현가능함.
- 아래는 주요 데이터 타입을 정리함.
- 범주형(categorical)
- ex) 나이가 적다/많다.
- 순서형
- ex) 0,1,2,3,4,5.....
- 수치형
- ex) 1.5 / 2.1 / 3.6 ...
- 범주형(categorical)
- 아래는 주요 데이터 타입을 정리함.
- 위에서 설명한, 어튜리뷰트 / 피처는 다양한 데이터 타입으로 표현가능함.
- 커버리지(coverage)
- 데이터셋 중에서 모델을 통해 분석 가능한 비율을 말함.
- 다시말해서, 모델의 예측능력에 대한 신뢰도를 결정하는 요소라고 말할 수 있음.
- 데이터셋 중에서 모델을 통해 분석 가능한 비율을 말함.
마지막으로, 머신러닝 관점의 레이블 데이터에 대해서 알아보자.
- 아래와 같이 구분된다.
- 레이블 데이터(labeled data)
- 아래의 레이블 없는 데이터에 의미를 첨가한 데이터를 말함.
- 특징은
- 데이터에 대한 연관성을 정의하고 해석할 수 있게 해당 데이터에 반드시 레이블(label) / 태그(tag)를 붙여야한다는 것.
- 해당 레이블은 사람이 매핑시키고 정의함.
- 노력이 들어갔다는 것을 의미하므로, 데이터 확보시 많은 비용이 들게됨.
- 지도 학습(supervised learning)에 적용됨.
- ex) 사진
- 동물 / 나무 처럼 구체적으로 무엇을 찍었는지 자세히 알 수 있어야함.
- 레이블 없는데이터(unlabeled data)
- 가공 작업을 거치지 않는 데이터
- 즉, 자연적으로 생성되거나, 인간에 의해 제작된 데이터.
- 특징은
- 데이터량도 많고 확보하기도 쉬움.
- 데이터를 설명하거나 어떤 의미를 지고 있는지에 대한 부가 정보가 없음.
- 비지도 학습(unsupervised learning)에 적용됨.
- ex) 비디오 스트림 데이터 / 오디오 데이터 / 사진 데이터 / 네이트온 메시지 정보등등
- 가공 작업을 거치지 않는 데이터
- 레이블 데이터(labeled data)
- 정리하자면, 학습모델은 레이블데이터 / 레이블 없는 데이터 모두 적용가능함.
- 그리고, 해당 레이블 데이터 /레이블 없는 데이터를 잘 조합해 사용함으로써 학습모델의 정확도를 높임.
- 즉, 준지도 학습(semi-supervised learning) / 딥러닝(deep learning) 에서 모두 적용함.
- 그리고, 해당 레이블 데이터 /레이블 없는 데이터를 잘 조합해 사용함으로써 학습모델의 정확도를 높임.
결론
- 데이터란 학습을 위한 필수 구성 요소이며, 다양한 포맷, 빈도수, 규모로 이뤄져 있음을 내포하고 있음.
- 오늘도 머신러닝관점의 데이터에 대한 지식 한가지 획득완료! 감사합니다.
300x250
'좋아하는 것_매직IT > 24.tensorflow' 카테고리의 다른 글
5.tensorflow, 머신러닝에서 학습관련 세부 분야에 대해서 알아보자. (0) | 2020.12.31 |
---|---|
4.tensorflow, 머신러닝에서 데이터관련 비일관성문제에 대해서 알아보자. (0) | 2020.12.31 |
3.tensorflow, 머신러닝에서 태스크, 알고리즘,모델에 대해서 간단하게 정리하고 알아보자. (0) | 2020.12.31 |
1.tensorflow, 학습(Learning)에 대해서 알아보자. (0) | 2020.12.31 |
0.tensorflow, 머신러닝(machine learning)이란? (0) | 2020.09.27 |