본문 바로가기

좋아하는 것_매직IT/24.tensorflow

2.tensorflow, 머신러닝에서 데이터(data)에 대한 의미란?

반응형

블로그 목적

  • 머신러닝에서 데이터(data)에 대한 의미에 대해서 알아본다.

머신러닝에서 말하는 데이터(data)란?

  • 학습을 위한 필수 구성 요소
    • 다양한 포맷, 빈도수, 규모로 이뤄져 있음을 내포하고 있음.

머신러닝에서 데이터의 처리에 대해서 알아보자.

  • 대규모 데이터 셋을 다루기 위한 방법은 아래와 같음.
    • 병렬처리(parallel processing)
    • 분산저장(distributed storage)
    • 분산실행(distributed execution)
    • 기타 등등.
  • 또한, 데이터 처리 시 차원(dimension)이란 요소는 매우 중요하게 고려해야함.
    • 만약 데이터가 있다면,
      • 하나, 행(row)과 열(column) 로 구성되어 있는지 확인
      • 둘, 정형화된 데이터(structured data) / 비정형화된 데이터(unstructured data)로 구분함.

그럼, 데이터와 관련된 용어들을 하나씩 정리해보자.

  • 피처 / 어트리뷰트 / 필드 / 변수 (feature / attribute / field / variable)
    • 데이터의 열을 의미함.
      • 보통, 학습 알고리즘의 입력 데이터로 사용되거나 분석 결과로 참조되기도 함.
  • 인스턴스 (instance)
    • 데이터셋을 구성하는 단위 데이터를 말함.
  • 피처 벡터 / 튜플(feature vector / tuple)
    • 피처 목록을 의미함.
  • 차원(dimension)
    • 데이터의 속성을 표현하는 어트리뷰트의 일부를 뜻함.
      • ex)  "날짜" 라는 차원이 일 / 월 / 연도 3개의 속성으로 구성됨을 말하듯...
  • 데이터셋(dataset)
    • 인스턴스를 하나로 모은 결과물을 말함.
      • 학습용(training)
      • 테스트용(testing)
      • 평가용(evaluation)
    • 참고로, 머신러닝 알고리즘은,
      • 모델의 정확도를 측정하는 각 단계에 따라 다른 데이터 셋을 이용해 실행됨.
        • 보통 아래 비율로 데이터를 나눔
          • 학습용 60%
          • 테스트용 30%
          • 평가용 10%
            • 총 100%
    • 추가적으로 설명하면 아래와 같음.
      • 학습 데이터셋
        • 모델을 개발하고 학습시키기 위해 사용되는 기본 데이터셋을 말함.
      • 테스트 데이터셋
        • 생성된 모델에 대해서 성능을 평가하는 용도로 사용됨.
      • 평가 데이터셋
        • 모델의 최종 검증 용도로 사용됨.
  • 데이터타입(data type)
    • 위에서 설명한, 어튜리뷰트 / 피처는 다양한 데이터 타입으로 표현가능함.
      • 아래는 주요 데이터 타입을 정리함.
        • 범주형(categorical)
          • ex) 나이가 적다/많다.
        • 순서형
          • ex) 0,1,2,3,4,5.....
        • 수치형
          • ex) 1.5 / 2.1 / 3.6 ...
  • 커버리지(coverage)
    • 데이터셋 중에서 모델을 통해 분석 가능한 비율을 말함.
      • 다시말해서, 모델의 예측능력에 대한 신뢰도를 결정하는 요소라고 말할 수 있음.

마지막으로, 머신러닝 관점의 레이블 데이터에 대해서 알아보자.

  • 아래와 같이 구분된다.
    • 레이블 데이터(labeled data)
      • 아래의 레이블 없는 데이터에 의미를 첨가한 데이터를 말함.
      • 특징은
        • 데이터에 대한 연관성을 정의하고 해석할 수 있게 해당 데이터에 반드시 레이블(label) / 태그(tag)를 붙여야한다는 것.
        • 해당 레이블은 사람이 매핑시키고 정의함.
          • 노력이 들어갔다는 것을 의미하므로, 데이터 확보시 많은 비용이 들게됨.
        • 지도 학습(supervised learning)에  적용됨.
      • ex) 사진
        • 동물 / 나무 처럼 구체적으로 무엇을 찍었는지 자세히 알 수 있어야함.
    • 레이블 없는데이터(unlabeled data)
      • 가공 작업을 거치지 않는 데이터
        • 즉, 자연적으로 생성되거나, 인간에 의해 제작된 데이터.
      • 특징은
        • 데이터량도 많고 확보하기도 쉬움.
        • 데이터를 설명하거나 어떤 의미를 지고 있는지에 대한 부가 정보가 없음.
        • 비지도 학습(unsupervised learning)에 적용됨.
      • ex) 비디오 스트림 데이터 / 오디오 데이터 / 사진 데이터 / 네이트온 메시지 정보등등
  • 정리하자면, 학습모델은 레이블데이터 / 레이블 없는 데이터 모두 적용가능함.
    • 그리고, 해당 레이블 데이터 /레이블 없는 데이터를 잘 조합해 사용함으로써 학습모델의 정확도를 높임.
      • 즉, 준지도 학습(semi-supervised learning) / 딥러닝(deep learning) 에서 모두 적용함.

결론

  • 데이터란 학습을 위한 필수 구성 요소이며, 다양한 포맷, 빈도수, 규모로 이뤄져 있음을 내포하고 있음.
  • 오늘도 머신러닝관점의 데이터에 대한 지식 한가지 획득완료! 감사합니다.

 

300x250