데이터/데이터 엔지니어링2 하둡 Hadoop MapReduce MapReduce?하둡 데이터 처리 프레임워크대용량 데이터를 분산 처리Map과 Reduce라는 함수 기반으로 주로 구성데이터를 특정 크기의 블록으로 나누고 각 블록에 대해 Map Task와 Reduce Task를 수행mapper->reducer dataset의 변환으로 진행Mapper-처리한 데이터를 로 묶어줌-output: public static class Map extends Mapper{map output key type, map output value type>{ public void map(T key, T value, Context context) { //map 함수 정의 }} : 각각의 타입 지정 Shufflehadoop이 같은 key를 갖고 있는 data들을 모아 li.. 2023. 5. 16. 하둡(Hadoop) Hadoop?-대용량의 데이터를 분산처리해줄 수 있도록 해주는 아파치 톱 레벨 오픈소스 프로젝트-자바로 작성된 소프트웨어 프레임워크-크게 HDFS와 분산처리시스템(MapReduce), Hadoop Yarn, Hadoop Common으로 구성됨 Hadoop HDFSThe Google FileSystem이란 논문을 바탕으로 작성된 파일시스템파일을 여러개의 블록으로 나눠 저장한 데이터 블록을 보통 3군데에 저장파일의 내용을 바꾸려면 파일 전체를 새로 써야함하나의 NameNode와 여러 DataNode들로 구성 Hadoop MapreduceMapReduce:Simpligied Data Processing on Large Cluster라는 논문을 바탕으로 작성된 분산처리시스템 분산되어 저장된 데이터를 병렬 .. 2023. 5. 11. 이전 1 다음