본문 바로가기

반응형

hadoop

5.hadoop, 하둡의 핵심 기술관련 리소스관리자 및 스케줄러 에 대해서 정리해보자. 블로그 목적 하둡의 핵심 기술관련 리소스관리자 및 스케줄러 에 대해서 정리해본다. 하둡의 스케줄링 시스템에 대해서 알아보자. YARN(Yet Another Resource Negotiator) 란 무엇인가? 하둡에서 가장 효율적인 방법으로 리소스를 할당하고, 사용자 어플리케이션을 스케줄링하는 시스템. 스케줄링과 리소스관리로 데이터 지역성을 극대화하고 계산량이 많은 어플리케이션이 리소스를 독점하지 않게 제어하는 기능을 함. 교체 가능한 스케줄링 시스템을 지원함. 공용 리소스 시스템의 스케줄링에 필요한 기본적인 환경 설정을 스케줄러에 입력할 수 있음. 사용자당 리소스 제한 작업 대기열당 리소스 할당량 기타 등등 클러스터의 리소스를 컨테이너(Container)로 분할함. 컨테이너의 정의 CPU 코어수 메모리 .. 더보기
4.hadoop, 하둡의 핵심 기술관련 분산파일 시스템에 대해서 정리해보자. 블로그 목적 아파치 하둡의 기술구성요소 중 분산파일 시스템에 대해서 정리해본다. 아파치 하둡(Apache Hadoop)이란? 대규모 검색 색인을 구축하려고 자바로 개발된 오픈 소스 분산 플랫폼을 말함. 개발목적 최초 검색 색인 이후 다방면으로 활용되고 차츰 개선되어, 대규모 원시 데이터를 처리하고 분석하는 데이터 센터 운영 시스템의 핵심 소프트웨어 생태계를 이루게됨. 아파치 하둡의 웹페이지 https://hadoop.apache.org/ 그럼, 하둡의 기술 구성 요소 중 분산파일 시스템에 대해서 정리해보자. 하둡 스토리지 HDFS(Hadoop Distributed File System) 구글의 GFS(Google File System)을 기반으로 설계됨. https://dl.acm.org/doi/10.1.. 더보기
3.hadoop, 데이터(data)의 정의와 특성에 대해서 머리속에 일목요연하게 정리해 보자. 블로그 목적 데이터에 대해서 머리속에 일목요연하게 정리하기 위해서 블로그를 작성한다. IT업계에 종사하면서, 데이터에 대해서 많이 들어봤지만, 누군가가 나에게 데이터가 무엇인가요? 라고 물어봤을때.... 어떻게 대답할것인가? 에 대한 고민을 가지고 블로그를 작성해본다. 누가 물어봤을 경우, 아래의 내용을 일목요연하게 정리해서 대답한다면.. 질문했던 사람은 속으로 아래와 같이 판단하지 않을까? "오호! 이사람은...데이터에 대해서 어느정도 개념이 잡혀있는데...놀라울정도로..^^;" 우선, 데이터에 대해서 정의해보자. 옥스포드 대사전에서 말하는 데이터 "데이터는 추론과 추정의 근거를 이루는 사실" 이라고 정의하고 있음. 1940년대 이후 컴퓨터시대가 시작되면서 자연과학뿐만 아니라, 경영학/통계학등등 다양한.. 더보기
2.hadoop, 데이터 과학(data science)에 대해서 알아보자. 블로그 목적 데이터 과학에 대한 정의 및 역사에 대한 지식을 머리속에 넣어둔다. 데이터 과학(data science)이란? 데이터 과학 데이터 마이닝(Data Mining)과 유사하게 정형, 비정형 형태를 포함한 다양한 데이터로부터 지식과 인사이트를 추출하는데 과학적 방법론, 프로세스, 알고리즘, 시스템을 동원하는 융합분야를 말함 참고페이지 wiki https://en.wikipedia.org/wiki/Data_science Data science is an inter-disciplinary field that uses scientific methods, processes, algorithms and systems to extract knowledge and insights from many struct.. 더보기
1.hadoop, 하둡을 손쉽게 시작할 수 있는 호튼웍스 샌드박스를 소개합니다. 블로그 목적 하둡을 손쉽게 시작할 수 있는 환경인 호튼 웍스 샌드박스를 소개하고 직접 설치해 본다. 호튼웍스 샌드박스란? The HDP Sandbox makes it easy to get started with Apache Hadoop, Apache Spark, Apache Hive, Apache HBase, Druid and Data Analytics Studio (DAS). HDP Sandbox를 사용하면 Apache Hadoop, Apache Spark, Apache Hive, Apache HBase, Druid 및 DAS (Data Analytics Studio)를 쉽게 시작할 수 있음. 즉, 가상 머신에서 구동되고 하둡 단일 노드 버전이 설치 되어 있음. 지원 윈도우 macOS 리눅스 다운로드 .. 더보기
0.hadoop, 아파치 하둡(Apache Hadoop) 이란 무엇인가? 블로그 목적 머신러닝 공부 및 구현을 위한, 플랫폼인 하둡에 대한 기본지식을 습득한다. 하둡의 에코시스템에 대해서도 간략하게 알아본다. 아파치 하둡(Apache Hadoop)에 대해서 알아보자. 아파치 하둡이란? 아파치 소프트웨어 재단의 오픈 소스, 자바 기반의 프로젝트 중 하나라고 머리속에 넣어두자. ​ 특징 빅데이터를 분산 저장 및 처리 확장성 지원 장애허용 지원 ​ 목적 저렴한 비용의 서버들로 구성된 노드 클러스터의 이점을 활용하여, 병렬처리를 가능하게 하는 것. ​ 하둡 로고 코끼리 사견인데.. 우리 아이가 너무 좋아하는 동물입니다. ^-^ 코끼리 하면 코! 하고 (옹알이중 ㅋ) 그래서 더욱 정감이 아네요.. 하둡에...^^ 그럼, 하둡이란 이름은 누가 지었을까? 하둡의 창시자, 더그 커팅(Dou.. 더보기

반응형