반응형
블로그 목적
- 데이터 과학에 대한 정의 및 역사에 대한 지식을 머리속에 넣어둔다.
데이터 과학(data science)이란?
- 데이터 과학
- 데이터 마이닝(Data Mining)과 유사하게 정형, 비정형 형태를 포함한 다양한 데이터로부터 지식과 인사이트를 추출하는데 과학적 방법론, 프로세스, 알고리즘, 시스템을 동원하는 융합분야를 말함
- 참고페이지 wiki
- https://en.wikipedia.org/wiki/Data_science
- Data science is an inter-disciplinary field that uses scientific methods, processes, algorithms and systems to extract knowledge and insights from many structural and unstructured data.
- https://en.wikipedia.org/wiki/Data_science
- 그리고, 데이터 과학은 아래 2가지 핵심측면을 아우른다.
- 하나, 데이터 탐색
- 데이터에서 어떤 의미나 통찰을 발견하고 과학적방법을 이용하는 것.
- 과정
- 질문 -> 가설수립 -> 구현 및 테스트 -> 결과 평가
- 둘, 소프트웨어 시스템의 구축
- 발견한 의미와 통찰을 비즈니스 맥락에서 활용하는 것.
- 즉, 데이터 과학으로 구현된 기술 or 알고리즘이 비즈니스에 즉시 활용할 수 있는 결과를 만들어야함.
- 하나, 데이터 탐색
- 참고페이지 wiki
그럼, 데이터 과학이 등장한 배경에 대해서 알아보자.
- 데이터 과학이 등장한 배경은,
- 지난 수십년간 일어난 기술적/과학적 진보와 밀접함.
- 보통 2가지로 나눌 수 있음.
- 하나, 통계학 및 머신러닝 분야의 연구로 머신이 효율적으로 데이터 패턴을 학습하는 실용적이고 성숙한 기술이 등장하게됨.
- 즉, 머신 러닝 알고리즘을 빠르고 안정적으로 구현한 오픈소스 라이브러리가 많이 개발됨.
- 둘, 컴퓨팅 기술이 진보하면서 대량의 데이터를 수집/저장/처리 하는 작업이 이전보다 수월하고 비용도 더욱 저렴해짐.
- 즉, 통계학 / 머신러닝 분야의 진보된 알고리즘을 사용해 대량 데이터에서 통찰을 발굴하는 과정의 비용대비 효율성이 개선됨.
- 하나, 통계학 및 머신러닝 분야의 연구로 머신이 효율적으로 데이터 패턴을 학습하는 실용적이고 성숙한 기술이 등장하게됨.
그럼, 통계 및 데이터과학의 역사에 대해서 간단하게 알아보자.
- 통계의 역사는 기원전 5세기 초까지 거슬러 올라갈 수 있음.
- 19세기 말 ~ 20세기 초
- 아래 3명의 통계학자에 의해 체계적인 학문으로 정리됨.
- 프랜시스 골턴
- 칼 피어슨
- 로널드 피셔
- 통계학자가 고안한 통계기법
- 회귀 분석(regression)
- 우도(likelihood)
- 분산 분석(analysis of variance)
- 상관 분석(correlation)
- 아래 3명의 통계학자에 의해 체계적인 학문으로 정리됨.
- 20세기 중반
- 통계학은 데이터 분석과 긴밀하게 연관됨.
- 응용 통계학의 중요한 이정표
- 1962년 논문, 저자 존 터키
- "데이터 분석의 미래(The Future of Data Analysis)"
- 지은이, 존 터키
- 미국 수학자/통계학자
- 고속 푸리에 변환 / 박스차트로 잘알려짐.
- 지은이, 존 터키
- 위 논문에서 "결국 나의 가장 큰 관심은 데이터 분석에 있다" 고 언급함.
- 논문 PDF
- 응용 통계학의 중요한 이정표
- 통계학은 데이터 분석과 긴밀하게 연관됨.
- 1950년대 후반
- 컴퓨터 과학자들은 사람의 신경 전달모델에서 착안한 인공신경망(neural networks)을 연구하기 시작함.
- 퍼셉트론(perceptron) 알고리즘
- 퍼셉트론(perceptron)은 인공신경망의 한 종류로서, 1957에 코넬 항공 연구소(Cornell Aeronautical Lab)의 프랑크 로젠블라트 (Frank Rosenblatt)에 의해 고안됨.
- 퍼셉트론이 동작하는 방식
- 각 노드의 가중치와 입력치를 곱한 것을 모두 합한 값이 활성함수에 의해 판단되는데, 그 값이 임계치(보통 0)보다 크면 뉴런이 활성화되고 결과값으로 1을 출력한다. 뉴런이 활성화되지 않으면 결과값으로 -1을 출력함.
- ADALINE이라는 신경망 모델을 제안함.
- 버나드 위드로(스탠포트 교수) / 테드호프(버나드 위드로의 제자)
- 새로운 분야에 대한 연구자들의 폭발적인 관심을 불러일으킴.
- 참고페이지 wiki
- https://en.wikipedia.org/wiki/ADALINE
- ADALINE (Adaptive Linear Neuron or later Adaptive Linear Element) is an early single-layer artificial neural network and the name of the physical device that implemented this network.[1][2][3][4][5] The network uses memistors. It was developed by Professor Bernard Widrow and his graduate student Ted Hoff at Stanford University in 1960. It is based on the McCulloch–Pitts neuron. It consists of a weight, a bias and a summation function.
- https://en.wikipedia.org/wiki/ADALINE
- 그리고, 인공신경망의 초기 성공에 뒤이어 수십년간, 데이터로부터 패턴을 자동으로 학습하는 다양한 머신러닝 기법이 고안됨
- 최근접 이웃(nearest neighbor)
- 의사 결정 트리(decision tree)
- k-평균 군집화(k-means clustering)
- 서포트 벡터머신(SVM, Support Vector Machine)
- 기타 등등
- 컴퓨터 과학자들은 사람의 신경 전달모델에서 착안한 인공신경망(neural networks)을 연구하기 시작함.
- 1989년
- KDD(Knowledge Discovery in Database) Workshop 개최함.
- 그레고리 피아테스키-샤피로
- GTE 연구소, 데이터 과학자
- 그후, 매년 KDD Cup 데이터 마이닝 대회를 주관하는 ACM-SIGKDD 학회로 발전함.
- 홈페이지
- 2001년
- 통계학자와 머신러닝 실무자가 세상을 바라보는 관점의 근본적인 차이를 기술함.
- "통계적 모델링: 두 개의 문화(Statistical Modeling: The Two Cultures)"
- 지은이, 레오 브라이먼
- UC 버클리의 통계학자
- "데이터에서 결론에 도달하기 위한 통계 모델링을 사용하는 데 두가지 문화가 존재한다. 한편에서는 데이터가 이미 주어진확률모델로부터 생성된다고 가정하는 반면, 다른 한편에서는 데이터의 기저 메커니즘을 사전에 알 수 없다는 가정을 바탕으로 알고리즘 모델을 사용한다."
- 통계학자와 머신러닝 실무자가 세상을 바라보는 관점의 근본적인 차이를 기술함.
- 그 이후...
- 머신러닝 / 통계기법은 발전을 거듭하게 됨.
- 새로운 개념 등장
- 분산 학습(distributed learning)
- 온라인 학습(online learning)
- 준지도 학습(semi-supervised learning)
- 기타 등등
- 최근
- 딥러닝(deep learning)이 소개됨.
- 딥 러닝(deep structured learning, deep learning 또는 hierarchical learning)은 여러 비선형 변환기법의 조합을 통해 높은 수준의 추상화(abstractions, 다량의 데이터나 복잡한 자료들 속에서 핵심적인 내용 또는 기능을 요약하는 작업)를 시도하는 기계 학습 알고리즘의 집합으로 정의되며, 큰 틀에서 사람의 사고방식을 컴퓨터에게 가르치는 기계학습의 한 분야를 말함.
- 참고페이지 wiki
- https://en.wikipedia.org/wiki/Deep_learning
- Deep learning (also known as deep structured learning) is part of a broader family of machine learning methods based on artificial neural networks with representation learning. Learning can be supervised, semi-supervised or unsupervised.
- https://en.wikipedia.org/wiki/Deep_learning
- 알고리즘이 데이터에서 적절한 모델을 도출하고 원시 데이터를 최적의 특징 변수로 변환하는 방법까지도 학습하게됨.
- 그리고, 인터넷 기업들은 데이터 과학 분야에서 혁신을 이룩하게 됨.
- 하나, 빅데이터 분야에서 아래에 언급한, 새로운 소프트웨어 및 기술 개발을 함.
- 구글 파일 시스템(GFS)
- 맵리듀스(MapReduce)
- 하둡(Haddop)
- 피그(Pig)
- 하이브(Hive)
- 카산드라(Cassandra)
- 스파크(Spark)
- 스톰(Storm)
- 기타등등
- 둘, 기업들은 대규모 데이터를 수집하고 저장하기 위한 비용이 대폭 절감됨.
- 저렴하고 빠른 스토리지 기술 / 클러스터 컴퓨팅 기술
- 데이터 과학 오픈 소스 패캐지가 공개됨으로써, 머신 러닝/통계학 기반의 고급 데이터 마이닝 알고리즘을 쉽고 유연한 방식으로 적용할 수 있게됨.
- Python scikit-learn
- R
- Spark MLlib
- 기타 등등
- 하나, 빅데이터 분야에서 아래에 언급한, 새로운 소프트웨어 및 기술 개발을 함.
결론
- 지금까지, 데이터 과학에 대한 정의 및 역사에 대해서 간략하게 알아보고 정리해봄
- 데이터 과학은 아래 2가지 핵심측면을 아우른다.
- 하나, 데이터 탐색
- 둘, 소프트웨어 시스템의 구축
- 오늘도 데이터 과학 및 역사에 대한 지식 한가지 획득완료! 감사합니다.
300x250
'좋아하는 것_매직IT > 2.hadoop' 카테고리의 다른 글
5.hadoop, 하둡의 핵심 기술관련 리소스관리자 및 스케줄러 에 대해서 정리해보자. (0) | 2021.01.27 |
---|---|
4.hadoop, 하둡의 핵심 기술관련 분산파일 시스템에 대해서 정리해보자. (0) | 2021.01.27 |
3.hadoop, 데이터(data)의 정의와 특성에 대해서 머리속에 일목요연하게 정리해 보자. (0) | 2021.01.27 |
1.hadoop, 하둡을 손쉽게 시작할 수 있는 호튼웍스 샌드박스를 소개합니다. (0) | 2021.01.04 |
0.hadoop, 아파치 하둡(Apache Hadoop) 이란 무엇인가? (0) | 2020.10.05 |