728x90

블로그 목적

머신러닝에서 데이터(data)에 대한 의미에 대해서 알아본다.

머신러닝에서 말하는 데이터(data)란?

학습을 위한 필수 구성 요소
- 다양한 포맷, 빈도수, 규모로 이뤄져 있음을 내포하고 있음.

머신러닝에서 데이터의 처리에 대해서 알아보자.

대규모 데이터 셋을 다루기 위한 방법은 아래와 같음.
- 병렬처리(parallel processing)
- 분산저장(distributed storage)
- 분산실행(distributed execution)
- 기타 등등.
또한, 데이터 처리 시 차원(dimension)이란 요소는 매우 중요하게 고려해야함.
- 만약 데이터가 있다면,
  - 하나, 행(row)과 열(column) 로 구성되어 있는지 확인
  - 둘, 정형화된 데이터(structured data) / 비정형화된 데이터(unstructured data)로 구분함.

그럼, 데이터와 관련된 용어들을 하나씩 정리해보자.

피처 / 어트리뷰트 / 필드 / 변수 (feature / attribute / field / variable)
- 데이터의 열을 의미함.
  - 보통, 학습 알고리즘의 입력 데이터로 사용되거나 분석 결과로 참조되기도 함.
인스턴스 (instance)
- 데이터셋을 구성하는 단위 데이터를 말함.
피처 벡터 / 튜플(feature vector / tuple)
- 피처 목록을 의미함.
차원(dimension)
- 데이터의 속성을 표현하는 어트리뷰트의 일부를 뜻함.
  - ex) "날짜" 라는 차원이 일 / 월 / 연도 3개의 속성으로 구성됨을 말하듯...
데이터셋(dataset)
- 인스턴스를 하나로 모은 결과물을 말함.
  - 학습용(training)
  - 테스트용(testing)
  - 평가용(evaluation)
- 참고로, 머신러닝 알고리즘은,
  - 모델의 정확도를 측정하는 각 단계에 따라 다른 데이터 셋을 이용해 실행됨.
    - 보통 아래 비율로 데이터를 나눔
      - 학습용 60%
      - 테스트용 30%
      - 평가용 10%
        
        총 100%
- 추가적으로 설명하면 아래와 같음.
  - 학습 데이터셋
    - 모델을 개발하고 학습시키기 위해 사용되는 기본 데이터셋을 말함.
  - 테스트 데이터셋
    - 생성된 모델에 대해서 성능을 평가하는 용도로 사용됨.
  - 평가 데이터셋
    - 모델의 최종 검증 용도로 사용됨.
데이터타입(data type)
- 위에서 설명한, 어튜리뷰트 / 피처는 다양한 데이터 타입으로 표현가능함.
  - 아래는 주요 데이터 타입을 정리함.
    - 범주형(categorical)
      - ex) 나이가 적다/많다.
    - 순서형
      - ex) 0,1,2,3,4,5.....
    - 수치형
      - ex) 1.5 / 2.1 / 3.6 ...
커버리지(coverage)
- 데이터셋 중에서 모델을 통해 분석 가능한 비율을 말함.
  - 다시말해서, 모델의 예측능력에 대한 신뢰도를 결정하는 요소라고 말할 수 있음.

마지막으로, 머신러닝 관점의 레이블 데이터에 대해서 알아보자.

아래와 같이 구분된다.
- 레이블 데이터(labeled data)
  - 아래의 레이블 없는 데이터에 의미를 첨가한 데이터를 말함.
  - 특징은
    - 데이터에 대한 연관성을 정의하고 해석할 수 있게 해당 데이터에 반드시 레이블(label) / 태그(tag)를 붙여야한다는 것.
    - 해당 레이블은 사람이 매핑시키고 정의함.
      - 노력이 들어갔다는 것을 의미하므로, 데이터 확보시 많은 비용이 들게됨.
    - 지도 학습(supervised learning)에 적용됨.
  - ex) 사진
    - 동물 / 나무 처럼 구체적으로 무엇을 찍었는지 자세히 알 수 있어야함.
- 레이블 없는데이터(unlabeled data)
  - 가공 작업을 거치지 않는 데이터
    - 즉, 자연적으로 생성되거나, 인간에 의해 제작된 데이터.
  - 특징은
    - 데이터량도 많고 확보하기도 쉬움.
    - 데이터를 설명하거나 어떤 의미를 지고 있는지에 대한 부가 정보가 없음.
    - 비지도 학습(unsupervised learning)에 적용됨.
  - ex) 비디오 스트림 데이터 / 오디오 데이터 / 사진 데이터 / 네이트온 메시지 정보등등
정리하자면, 학습모델은 레이블데이터 / 레이블 없는 데이터 모두 적용가능함.
- 그리고, 해당 레이블 데이터 /레이블 없는 데이터를 잘 조합해 사용함으로써 학습모델의 정확도를 높임.
  - 즉, 준지도 학습(semi-supervised learning) / 딥러닝(deep learning) 에서 모두 적용함.

결론

데이터란 학습을 위한 필수 구성 요소이며, 다양한 포맷, 빈도수, 규모로 이뤄져 있음을 내포하고 있음.
오늘도 머신러닝관점의 데이터에 대한 지식 한가지 획득완료! 감사합니다.

728x90

저작자표시 비영리 변경금지 (새창열림)

'좋아하는 것_매직IT > 24.tensorflow' 카테고리의 다른 글

5.tensorflow, 머신러닝에서 학습관련 세부 분야에 대해서 알아보자. (0)	2020.12.31
4.tensorflow, 머신러닝에서 데이터관련 비일관성문제에 대해서 알아보자. (0)	2020.12.31
3.tensorflow, 머신러닝에서 태스크, 알고리즘,모델에 대해서 간단하게 정리하고 알아보자. (0)	2020.12.31
1.tensorflow, 학습(Learning)에 대해서 알아보자. (0)	2020.12.31
0.tensorflow, 머신러닝(machine learning)이란? (0)	2020.09.27

모든 실수에는 마술이 숨어있다.

2.tensorflow, 머신러닝에서 데이터(data)에 대한 의미란?

블로그 목적

머신러닝에서 말하는 데이터(data)란?

머신러닝에서 데이터의 처리에 대해서 알아보자.

그럼, 데이터와 관련된 용어들을 하나씩 정리해보자.

마지막으로, 머신러닝 관점의 레이블 데이터에 대해서 알아보자.

결론

'좋아하는 것_매직IT > 24.tensorflow' 카테고리의 다른 글

티스토리툴바

2.tensorflow, 머신러닝에서 데이터(data)에 대한 의미란?

블로그 목적

머신러닝에서 말하는 데이터(data)란?

머신러닝에서 데이터의 처리에 대해서 알아보자.

그럼, 데이터와 관련된 용어들을 하나씩 정리해보자.

마지막으로, 머신러닝 관점의 레이블 데이터에 대해서 알아보자.

결론

'좋아하는 것_매직IT > 24.tensorflow' 카테고리의 다른 글

'좋아하는 것_매직IT/24.tensorflow' Related Articles

티스토리툴바