본문 바로가기

반응형

좋아하는 것_매직IT

7.tensorflow, 머신러닝관련 알고리즘을 정리해보자. 블로깅 목적 머신러닝관련 알고리즘에 대해서 정리해본다. 우선, 머신러닝 알고리즘을 분류해보자. 기준 학습모델 우선, 의사결정 트리 기반 알고리즘에 대해서 알아보자 의사결정 트리 기반 알고리즘(decision tree based algorithms)이란? 제공된 데이터를 이용해 반복적 or 재귀적인 방법을 통해 모델을 정의하는 것. 목표 주어진 입력변수에 대한 데이터를 기반으로 타켓 변수를 예측하는 것. 트리 기반의 기법을 사용해 분류(classification) / 회귀(regression) 문제를 해결함. 주요 알고리즘 랜덤 포레스트(Random Forest) CART(Classification And Regression Tree) C4.5 및 C5.0 카이제곱(Chi-square) GBM(Gradie.. 더보기
6.tensorflow, 머신러닝의 주요 분야에 대해서 알아보고 정리해보자. 블로그 목적 머신러닝과 밀접하게 관련된 분야에 대해서 알아본다. 머신러닝과 밀접하게 관련된 분야는 무엇이있을까? 하나, 데이터마이닝(Data Mining) 둘, 통계학(Statistical Learning) 셋, 데이터과학(Data Science) 넷, 인공지능(Artificial Intelligence, AI) 그럼, 데이터 마이닝과 비교해보자. 데이터 마이닝이란? 데이터를 분석하고 대규모 데이터에 비즈니스 규칙을 적용해 가치 있는 정보를 얻는 과정 머신러닝과 데이터 마이닝 비교 유사한점 데이터에서 의미있는 정보를 찾는 것이 목적. 차이점 머신러닝 이미 알고 있는 지식/경험을 이용하는 것에 초점 분석을 통해 얻은 지능 정보를 컴퓨터 머신에서 사용. 데이터마이닝 이제까지 알지 못한 지식을 찾아내는 것에 .. 더보기
5.tensorflow, 머신러닝에서 학습관련 세부 분야에 대해서 알아보자. 블로그 목적 머신러닝에서 학습관련 세부 분야가 무엇이 있는지 알아보자. 머신러닝에서 학습과정 분류 학습과정은 아래와 같이 크게 5가지로 나눌 수 있음. 지도학습(supervised learning) 비지도 학습(unsupervised learning) 준지도 학습(semi-supervised learning) 강화 학습(reinforcement learning) 딥러닝(deep learning) 그럼, 지도 학습에 대해서 알아보자 지도학습이란? 이미 알고 있는 예상 결과를 다루는 것을 말함. 즉, 이미 정의되어 있는 데이터에서 무엇을 분석해야 하는지에 중점을 둠. 지도학습 알고리즘의 핵심 입력데이터 / 결과 데이터를 모두 알고 있을 경우, 이를 서로 매핑시키는 것. 다시말해서, 주어진 데이터에 대해서 연.. 더보기
4.tensorflow, 머신러닝에서 데이터관련 비일관성문제에 대해서 알아보자. 블로그의 목적 머신러닝에서 데이터 관련 비일관성 문제에 대해서 정리해본다. 데이터 관련 비일관성 문제 언더피팅(under-fitting) 오버피팅(over-fitting) 데이터 불안정성(data instability) 예측 불가한 미래(unpredictable future) 그럼, 언더피팅에 대해서 알아보자. 언더피팅이란? 실제 데이터를 정확하게 모델링하기 위해 충분한 정보를 고려하지 못한 경우을 말함. 즉, 오차가 늘고, 모델의 정확도도 저하됨. 주로, 언더피팅은 아래의 경우에 잘 발생함. 분류기(classifier)가 특정 데이터에만 적용 가능한 상태이거나 수준 미달일 정도로 단순한 경우 즉,데이터가 충분하지 않고, 모델링이 제대로 이뤄지지 않아서... 다시말해서, 데이터셋 크기가 너무 작으면 최적.. 더보기
3.tensorflow, 머신러닝에서 태스크, 알고리즘,모델에 대해서 간단하게 정리하고 알아보자. 블로그 목적 머신러닝안에서 태스크 / 알고리즘 / 모델에 대해서 알아본다. 머신러닝에서 말하는 태스크란? 머신러닝이 해결해야 하는 문제임. 그럼, 태스크의 대한 성능이란 의미는? 문제가 해결될 수 있다고 확신할 수 있는 일종의 수준을 의미함. 여러 종류 데이터셋 / 다양한 알고리즘을 적용 하면, 결과적으로, 많은 종류의 모델이 만들어 짐. 결론적으로, 여러종류의 모델에 대한 일관성 있는 성능 측정이 필요함. 머신러닝에서 말하는 알고리즘이란? 머신러닝에서 알고리즘 적용 시 필요한것은 ? 하나, 문제를 명확하게 이해해야함. 둘, 문제 파악의 명확함속에서, 어떤데이터에 해당하는 알고리즘이 적합한지와 적용가능한지 여부를 아는 것이 중요함. 왜냐하면, 세상에 알고리즘이 너무많이 때문에....-_-;;; 그럼, 알.. 더보기
2.tensorflow, 머신러닝에서 데이터(data)에 대한 의미란? 블로그 목적 머신러닝에서 데이터(data)에 대한 의미에 대해서 알아본다. 머신러닝에서 말하는 데이터(data)란? 학습을 위한 필수 구성 요소 다양한 포맷, 빈도수, 규모로 이뤄져 있음을 내포하고 있음. 머신러닝에서 데이터의 처리에 대해서 알아보자. 대규모 데이터 셋을 다루기 위한 방법은 아래와 같음. 병렬처리(parallel processing) 분산저장(distributed storage) 분산실행(distributed execution) 기타 등등. 또한, 데이터 처리 시 차원(dimension)이란 요소는 매우 중요하게 고려해야함. 만약 데이터가 있다면, 하나, 행(row)과 열(column) 로 구성되어 있는지 확인 둘, 정형화된 데이터(structured data) / 비정형화된 데이터(un.. 더보기
1.tensorflow, 학습(Learning)에 대해서 알아보자. 블로그 목적 머신러닝에서 학습에 대한 정의를 알아본다. 학습(Learning) 이란? 현재까지 축적한 데이터(historical data)를 실행 가능한 태스크를 예측하고 도출하는 데 사용하는 것을 말함. 즉, 학습할 수 있어야 지능형 시스템이 될 수 있음. 학습을 정의하기 위한 고려사항 정리 하나, 학습모델 및 필요한 것이 무엇인지 정의함. 둘, 데이터관련 요구 사항 / 데이터셋 확인. 셋, 학습 모델의 대상 데이터셋의 전체 / 일부 에 대해 정의함. 모델이란? 데이터 셋에 알고리즘을 적용해 얻은 결과를 말하고, 패턴형태로 나타나게됨. 그럼, 머신러닝에서 사용되는 2가지 데이터 셋(dataset)에 대해서 알아보자. 하나, 입력 데이터 / 예상결과데이터가 모두 포함된 데이터 셋 수작업을 통해서 마련됨... 더보기
0.hadoop, 아파치 하둡(Apache Hadoop) 이란 무엇인가? 블로그 목적 머신러닝 공부 및 구현을 위한, 플랫폼인 하둡에 대한 기본지식을 습득한다. 하둡의 에코시스템에 대해서도 간략하게 알아본다. 아파치 하둡(Apache Hadoop)에 대해서 알아보자. 아파치 하둡이란? 아파치 소프트웨어 재단의 오픈 소스, 자바 기반의 프로젝트 중 하나라고 머리속에 넣어두자. ​ 특징 빅데이터를 분산 저장 및 처리 확장성 지원 장애허용 지원 ​ 목적 저렴한 비용의 서버들로 구성된 노드 클러스터의 이점을 활용하여, 병렬처리를 가능하게 하는 것. ​ 하둡 로고 코끼리 사견인데.. 우리 아이가 너무 좋아하는 동물입니다. ^-^ 코끼리 하면 코! 하고 (옹알이중 ㅋ) 그래서 더욱 정감이 아네요.. 하둡에...^^ 그럼, 하둡이란 이름은 누가 지었을까? 하둡의 창시자, 더그 커팅(Dou.. 더보기

반응형