Presentation is loading. Please wait.

Presentation is loading. Please wait.

Big Data Analytics with R and Hadoop

Similar presentations


Presentation on theme: "Big Data Analytics with R and Hadoop"— Presentation transcript:

1 Big Data Analytics with R and Hadoop
Ch2. Writing Hadoop MapReduce Programs 자체 평가 테스트 소프트웨어 테스팅의 심리학과 경제학 Software Engineering Lab. 백승찬

2 Content Understanding the basics of MapReduce
Introducing Hadoop MapReduce Understanding the Hadoop MapReduce fundamentals Writing a Hadoop MapReduce example Understanding several possible MapReduce definitions to solve business problems Learning different ways to write Hadoop MapReduce in R 첫번째 장 자기 계발 테스트 에서는 소프트웨어가 매우 보편화되고 광벙위한 곳에 사용되면서 그에 따라 소프트 웨어 테스팅이 중요하다는 것과 소프트웨어 테스팅이 가져야할 의미에 대해서 나타내고 있습니다. 세 번째를 보시면 소프트웨어 테스팅은 의도한 것은 의도한대로 의도하지 않은것은 행동하지 않은것을 확인하는 과정입니다.

3 1. Understanding the basics of MapReduce
To process Big Data with tools such as R and several machine learning techniques requires a high-configuration machine, but that's not the permanent solution. Distributed processing is the key to handling this data. MapReduce is the one that answers the Big Data question. Logically, to process data we need parallel processing, which means processing over large computation. 첫번째 장 자기 계발 테스트 에서는 소프트웨어가 매우 보편화되고 광벙위한 곳에 사용되면서 그에 따라 소프트 웨어 테스팅이 중요하다는 것과 소프트웨어 테스팅이 가져야할 의미에 대해서 나타내고 있습니다. 세 번째를 보시면 소프트웨어 테스팅은 의도한 것은 의도한대로 의도하지 않은것은 행동하지 않은것을 확인하는 과정입니다.

4 1. Understanding the basics of MapReduce
Google MapReduce research and a white paper written by Jeffrey Dean and Sanjay Ghemawat They introduced MapReduce as simplified data processing software on large clusters. This data processing platform is easier for programmers to perform various operations. This is very helpful in terms of cost and is also a time-saving system for processing large datasets over the cluster. Also, it will efficiently use computer resources to perform analytics over huge data. 첫번째 장 자기 계발 테스트 에서는 소프트웨어가 매우 보편화되고 광벙위한 곳에 사용되면서 그에 따라 소프트 웨어 테스팅이 중요하다는 것과 소프트웨어 테스팅이 가져야할 의미에 대해서 나타내고 있습니다. 세 번째를 보시면 소프트웨어 테스팅은 의도한 것은 의도한대로 의도하지 않은것은 행동하지 않은것을 확인하는 과정입니다.

5 1. Understanding the basics of MapReduce
For MapReduce, programmers need to just design/migrate applications into two phases: Map and Reduce. To design Map functions for processing a key-value pair to generate a set of intermediate key-value pairs. To design Reduce functions to merge all the intermediate keys. 키 안에 있는 값들이 합병된다.

6 1. Understanding the basics of MapReduce
The key aspect of the MapReduce algorithm is that if every Map and Reduce is independent of all other ongoing Maps and Reduces in the network, the operation will run in parallel on different keys and lists of data. A distributed filesystem spreads multiple copies of data across different machines. This offers reliability as well as fault tolerance. 결함 안정성

7 1. Understanding the basics of MapReduce
The master node of the MapReduce daemon will take care of all the responsibilities of the MapReduce jobs. Companies using MapReduce include: Amazon: This is an online e-commerce and cloud web service provider for Big Data analytics. eBay: This is an e-commerce portal for finding articles by its description. Google: This is a web search engine for finding relevant pages relating to a particular topic. LinkedIn: This is a professional networking site for Big Data storage and generating personalized recommendations. Trovit: This is a vertical search engine for finding jobs that match a given description. Twitter: This is a social networking site for finding messages. 첫번째 장 자기 계발 테스트 에서는 소프트웨어가 매우 보편화되고 광벙위한 곳에 사용되면서 그에 따라 소프트 웨어 테스팅이 중요하다는 것과 소프트웨어 테스팅이 가져야할 의미에 대해서 나타내고 있습니다. 세 번째를 보시면 소프트웨어 테스팅은 의도한 것은 의도한대로 의도하지 않은것은 행동하지 않은것을 확인하는 과정입니다.

8 2. Introducing Hadoop MapReduce
Hadoop MapReduce is a popular Java framework for easily written applications. The Map and Reduce tasks run sequentially in a cluster, and the output of the Map phase becomes the input of the Reduce phase. All data input elements in MapReduce cannot be updated. The Mapper output will be piped to the appropriate Reducer grouped with the key attribute as input. MapReduce programs transform the input dataset present in the list format into output data that will also be in the list format. 첫번째 장 자기 계발 테스트 에서는 소프트웨어가 매우 보편화되고 광벙위한 곳에 사용되면서 그에 따라 소프트 웨어 테스팅이 중요하다는 것과 소프트웨어 테스팅이 가져야할 의미에 대해서 나타내고 있습니다. 세 번째를 보시면 소프트웨어 테스팅은 의도한 것은 의도한대로 의도하지 않은것은 행동하지 않은것을 확인하는 과정입니다.

9 2. Introducing Hadoop MapReduce
Hadoop MapReduce entities Client: This initializes the job JobTracker: This monitors the job TaskTracker: This executes the job HDFS: This stores the input and output data Hadoop MapReduce scenario The loading of data into HDFS The execution of the Map phase Shuffling and sorting The execution of the Reduce phase 첫번째 장 자기 계발 테스트 에서는 소프트웨어가 매우 보편화되고 광벙위한 곳에 사용되면서 그에 따라 소프트 웨어 테스팅이 중요하다는 것과 소프트웨어 테스팅이 가져야할 의미에 대해서 나타내고 있습니다. 세 번째를 보시면 소프트웨어 테스팅은 의도한 것은 의도한대로 의도하지 않은것은 행동하지 않은것을 확인하는 과정입니다.

10 2. Introducing Hadoop MapReduce
Loading data into HDFS The input dataset needs to be uploaded to the Hadoop directory so it can be used by MapReduce nodes. Hadoop Distributed File System (HDFS) will divide the input dataset into data splits and store them to DataNodes in a cluster by taking care of the replication factor for fault tolerance. All the data splits will be processed by TaskTracker for the Map and Reduce tasks in a parallel manner. There are some alternative ways to get the dataset in HDFS with Hadoop components Sqoop : Suppose your application has already been configured with the MySQL database and you want to use the same data for performing data analytic Flume : This is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amounts of log data to HDFS. 첫번째 장 자기 계발 테스트 에서는 소프트웨어가 매우 보편화되고 광벙위한 곳에 사용되면서 그에 따라 소프트 웨어 테스팅이 중요하다는 것과 소프트웨어 테스팅이 가져야할 의미에 대해서 나타내고 있습니다. 세 번째를 보시면 소프트웨어 테스팅은 의도한 것은 의도한대로 의도하지 않은것은 행동하지 않은것을 확인하는 과정입니다.

11 2. Introducing Hadoop MapReduce
Executing the Map phase copies the job resources. stores it to HDFS. requests JobTracker to execute the job – initializes the job. creates a Map task for each job. JobTracker will call TaskTracker --- run Map task Map task reads this input split data as input (key, value) pairs provided to the Mapper method, which then produces intermediate (key, value) pairs. 첫번째 장 자기 계발 테스트 에서는 소프트웨어가 매우 보편화되고 광벙위한 곳에 사용되면서 그에 따라 소프트 웨어 테스팅이 중요하다는 것과 소프트웨어 테스팅이 가져야할 의미에 대해서 나타내고 있습니다. 세 번째를 보시면 소프트웨어 테스팅은 의도한 것은 의도한대로 의도하지 않은것은 행동하지 않은것을 확인하는 과정입니다. (Key,Value) (Key,Value) (Key,Value) (Key,Value) (Key,Value)

12 2. Introducing Hadoop MapReduce
Shuffling and sorting All the emitted intermediate (key, value) pairs will be partitioned by a Partitioner at the Mapper side, only if the Partitioner is present. The output of the Partitioner will be sorted out based on the key attribute at the Mapper side. 첫번째 장 자기 계발 테스트 에서는 소프트웨어가 매우 보편화되고 광벙위한 곳에 사용되면서 그에 따라 소프트 웨어 테스팅이 중요하다는 것과 소프트웨어 테스팅이 가져야할 의미에 대해서 나타내고 있습니다. 세 번째를 보시면 소프트웨어 테스팅은 의도한 것은 의도한대로 의도하지 않은것은 행동하지 않은것을 확인하는 과정입니다.

13 2. Introducing Hadoop MapReduce
Reducing phase execution As soon as the Mapper output is available, TaskTracker in the Reducer node will retrieve the available partitioned Map's output data, and they will be grouped together and merged into one large file Finally, this will be sorted out before data is provided to the Reducer method. 첫번째 장 자기 계발 테스트 에서는 소프트웨어가 매우 보편화되고 광벙위한 곳에 사용되면서 그에 따라 소프트 웨어 테스팅이 중요하다는 것과 소프트웨어 테스팅이 가져야할 의미에 대해서 나타내고 있습니다. 세 번째를 보시면 소프트웨어 테스팅은 의도한 것은 의도한대로 의도하지 않은것은 행동하지 않은것을 확인하는 과정입니다. Value

14 2. Introducing Hadoop MapReduce
the limitations of MapReduce The MapReduce framework is notoriously difficult to leverage for transformational logic Data querying is inefficient over distributed, unindexed data than in a database created with indexed data. We can't parallelize the Reduce task to the Map task to reduce the overall processing time because Reduce tasks do not start until the output of the Map tasks is available to it. 첫번째 장 자기 계발 테스트 에서는 소프트웨어가 매우 보편화되고 광벙위한 곳에 사용되면서 그에 따라 소프트 웨어 테스팅이 중요하다는 것과 소프트웨어 테스팅이 가져야할 의미에 대해서 나타내고 있습니다. 세 번째를 보시면 소프트웨어 테스팅은 의도한 것은 의도한대로 의도하지 않은것은 행동하지 않은것을 확인하는 과정입니다.

15 2. Introducing Hadoop MapReduce
Hadoop's ability to solve problems Hadoop's just a good technique to use when large data needs to be divided into small chunks and distributed across servers that need to be processed in a parallel fashion. This saves time and the cost of performing analytics over a huge dataset. If we are able to design the Map and Reduce phase for the problem, it will be possible to solve it with MapReduce. 첫번째 장 자기 계발 테스트 에서는 소프트웨어가 매우 보편화되고 광벙위한 곳에 사용되면서 그에 따라 소프트 웨어 테스팅이 중요하다는 것과 소프트웨어 테스팅이 가져야할 의미에 대해서 나타내고 있습니다. 세 번째를 보시면 소프트웨어 테스팅은 의도한 것은 의도한대로 의도하지 않은것은 행동하지 않은것을 확인하는 과정입니다.

16 2. Introducing Hadoop MapReduce
the different Java concepts used in Hadoop programming Remote procedure calls: This is an interprocess communication without the programmer explicitly coding the details for this remote interaction. Serialization/Deserialization: With serialization, a Java Virtual Machine (JVM) can write out the state of the object to some stream so that we can basically read all the members and write out their state to a stream, disk, and so on. Through this, machines can send data across the network. Java generics: This allows a type or method to operate on objects of various types while providing compile-time type safety, making Java a fully static typed language. 첫번째 장 자기 계발 테스트 에서는 소프트웨어가 매우 보편화되고 광벙위한 곳에 사용되면서 그에 따라 소프트 웨어 테스팅이 중요하다는 것과 소프트웨어 테스팅이 가져야할 의미에 대해서 나타내고 있습니다. 세 번째를 보시면 소프트웨어 테스팅은 의도한 것은 의도한대로 의도하지 않은것은 행동하지 않은것을 확인하는 과정입니다.

17 2. Introducing Hadoop MapReduce
the different Java concepts used in Hadoop programming Java collection: This framework is a set of classes and interfaces for handling various types of data collection with single Java objects. Java concurrency : This has been designed to support concurrent programming, and all execution takes place in the context of threads concurrent 공존하는 concurrent operation 병행 조작

18 3. Understanding the Hadoop MapReduce fundamentals
Understand MapReduce objects Learn how to decide the number of Maps in MapReduce Learn how to decide the number of Reduces in MapReduce Understand MapReduce dataflow Take a closer look at Hadoop MapReduce terminologies 첫번째 장 자기 계발 테스트 에서는 소프트웨어가 매우 보편화되고 광벙위한 곳에 사용되면서 그에 따라 소프트 웨어 테스팅이 중요하다는 것과 소프트웨어 테스팅이 가져야할 의미에 대해서 나타내고 있습니다. 세 번째를 보시면 소프트웨어 테스팅은 의도한 것은 의도한대로 의도하지 않은것은 행동하지 않은것을 확인하는 과정입니다.

19 3. Understanding the Hadoop MapReduce fundamentals
Understanding MapReduce objects Mapper: Mapper starts MapReduce operations by carrying input files and splitting them into several pieces. For each piece, it will emit a key-value data pair as the output value. Reducer: Reducer accepts key-based grouped data from the Mapper output, reduces it by aggregation logic, and emits the (key, value) pair for the group of values. Driver: This is the main file that drives the MapReduce process. The Driver file is responsible for building the configuration of a job and submitting it to the Hadoop cluster. MapReduce is initialized by calling this main() function of the Driver class. 첫번째 장 자기 계발 테스트 에서는 소프트웨어가 매우 보편화되고 광벙위한 곳에 사용되면서 그에 따라 소프트 웨어 테스팅이 중요하다는 것과 소프트웨어 테스팅이 가져야할 의미에 대해서 나타내고 있습니다. 세 번째를 보시면 소프트웨어 테스팅은 의도한 것은 의도한대로 의도하지 않은것은 행동하지 않은것을 확인하는 과정입니다.

20 3. Understanding the Hadoop MapReduce fundamentals
Deciding the number of Maps in MapReduce The number of Maps is usually defined by the size of the input data and size of the data split block that is calculated by the size of the HDFS file / data split. But sometimes, the number of Mappers created will be more than this count because of speculative execution. This is true when the input is a file, though it entirely depends on the InputFormat class. From the Hadoop API with the getNumMapTasks() method, we can get an idea of the number of Mappers. speculative 추측하다.

21 3. Understanding the Hadoop MapReduce fundamentals
Deciding the number of Reducers in MapReduce A numbers of Reducers are created based on the Mapper's input. We can set the number of Reducers at runtime along with the MapReduce command at the command prompt -D mapred.reduce. tasks, with the number you want. Programmatically, it can be set via conf.setNumReduceTasks(int). 첫번째 장 자기 계발 테스트 에서는 소프트웨어가 매우 보편화되고 광벙위한 곳에 사용되면서 그에 따라 소프트 웨어 테스팅이 중요하다는 것과 소프트웨어 테스팅이 가져야할 의미에 대해서 나타내고 있습니다. 세 번째를 보시면 소프트웨어 테스팅은 의도한 것은 의도한대로 의도하지 않은것은 행동하지 않은것을 확인하는 과정입니다.

22 3. Understanding the Hadoop MapReduce fundamentals
<color, 1> Preloading data in HDFS. Running MapReduce by calling Driver. Reading of input data by the Mappers, which results in the splitting of the data execution of the Mapper custom logic and the generation of intermediate key-value pairs. Executing Combiner and the shuffle phase to optimize the overall Hadoop MapReduce process. Sorting and providing of intermediate key-value pairs to the Reduce phase. The Reduce phase is then executed. Reducers take these partitioned keyvalue pairs and aggregate them based on Reducer logic. The final output data is stored at HDFS. <color, 1> 4 6 5 1

23 3. Understanding the Hadoop MapReduce fundamentals
Taking a closer look at Hadoop MapReduce terminologies The attributes of the Map phase are as follows: The InputFiles term refers to input, raw datasets that have been created/ extracted to be analyzed for business analytics, which have been stored in HDFS. The InputFormat is a Java class to process the input files by obtaining the text of each line of offset and the contents. It defines how to split and read input data files. We can set the several input types, such as TextInputFormat, KeyValueInputFormat, and SequenceFileInputFormat, of the input format that are relevant to the Map and Reduce phase. The InputSplits class is used for setting the size of the data split. 첫번째 장 자기 계발 테스트 에서는 소프트웨어가 매우 보편화되고 광벙위한 곳에 사용되면서 그에 따라 소프트 웨어 테스팅이 중요하다는 것과 소프트웨어 테스팅이 가져야할 의미에 대해서 나타내고 있습니다. 세 번째를 보시면 소프트웨어 테스팅은 의도한 것은 의도한대로 의도하지 않은것은 행동하지 않은것을 확인하는 과정입니다.

24 3. Understanding the Hadoop MapReduce fundamentals
The attributes of the Map phase are as follows: The RecordReader is a Java class that comes with several methods to retrieve key and values by iterating them among the data splits. The Mapper instance is created for the Map phase. The Mapper class takes input (key, value) pairs (generated by RecordReader) and produces an intermediate (key, value) pair by performing user-defined code in a Map() method. The Map() method mainly takes two input parameters: key and value; the remaining ones are OutputCollector and Reporter. . 첫번째 장 자기 계발 테스트 에서는 소프트웨어가 매우 보편화되고 광벙위한 곳에 사용되면서 그에 따라 소프트 웨어 테스팅이 중요하다는 것과 소프트웨어 테스팅이 가져야할 의미에 대해서 나타내고 있습니다. 세 번째를 보시면 소프트웨어 테스팅은 의도한 것은 의도한대로 의도하지 않은것은 행동하지 않은것을 확인하는 과정입니다. InputFormat Map RecordReader data splits key and values key and values

25 3. Understanding the Hadoop MapReduce fundamentals
The attributes of the Reduce phase are as follows: After completing the Map phase, the generated intermediate (key, value) pairs are partitioned based on a key attribute similarity consideration in the hash function. This partitioning and shuffling will be done automatically by the MapReduce job after the completion of the Map phase. before initializing the Reduce task, the intermediate (key, value) pairs are sorted based on a key attribute value by the Hadoop MapReduce job. The Reduce instance is created for the Reduce phase. A Reduce() method of the Reducer class mainly takes two parameters along with OutputCollector and Reporter. 첫번째 장 자기 계발 테스트 에서는 소프트웨어가 매우 보편화되고 광벙위한 곳에 사용되면서 그에 따라 소프트 웨어 테스팅이 중요하다는 것과 소프트웨어 테스팅이 가져야할 의미에 대해서 나타내고 있습니다. 세 번째를 보시면 소프트웨어 테스팅은 의도한 것은 의도한대로 의도하지 않은것은 행동하지 않은것을 확인하는 과정입니다.

26 3. Understanding the Hadoop MapReduce fundamentals
The attributes of the Reduce phase are as follows: Finally, in OutputFormat the generated output (key, value) pairs are provided to the OutputCollector parameter and then written to OutputFiles, which is governed by OutputFormat. The factory RecordWriter used by OutputFormat to write the output data in the appropriate format. The output files are the output data written to HDFS by RecordWriter after the completion of the MapReduce job. 첫번째 장 자기 계발 테스트 에서는 소프트웨어가 매우 보편화되고 광벙위한 곳에 사용되면서 그에 따라 소프트 웨어 테스팅이 중요하다는 것과 소프트웨어 테스팅이 가져야할 의미에 대해서 나타내고 있습니다. 세 번째를 보시면 소프트웨어 테스팅은 의도한 것은 의도한대로 의도하지 않은것은 행동하지 않은것을 확인하는 과정입니다. Map shuffling Reduce key&values key&values OutputFiles

27 4. Writing a Hadoop MapReduce example
The goal of this example is to calculate how many times each word occurs in the provided documents. We will see more on Hadoop MapReduce programming using Hadoop MapReduce's old API. Basically, Hadoop MapReduce has three main objects: Mapper, Reducer, and Driver. 첫번째 장 자기 계발 테스트 에서는 소프트웨어가 매우 보편화되고 광벙위한 곳에 사용되면서 그에 따라 소프트 웨어 테스팅이 중요하다는 것과 소프트웨어 테스팅이 가져야할 의미에 대해서 나타내고 있습니다. 세 번째를 보시면 소프트웨어 테스팅은 의도한 것은 의도한대로 의도하지 않은것은 행동하지 않은것을 확인하는 과정입니다.

28 4. Writing a Hadoop MapReduce example
첫번째 장 자기 계발 테스트 에서는 소프트웨어가 매우 보편화되고 광벙위한 곳에 사용되면서 그에 따라 소프트 웨어 테스팅이 중요하다는 것과 소프트웨어 테스팅이 가져야할 의미에 대해서 나타내고 있습니다. 세 번째를 보시면 소프트웨어 테스팅은 의도한 것은 의도한대로 의도하지 않은것은 행동하지 않은것을 확인하는 과정입니다.

29 4. Writing a Hadoop MapReduce example
첫번째 장 자기 계발 테스트 에서는 소프트웨어가 매우 보편화되고 광벙위한 곳에 사용되면서 그에 따라 소프트 웨어 테스팅이 중요하다는 것과 소프트웨어 테스팅이 가져야할 의미에 대해서 나타내고 있습니다. 세 번째를 보시면 소프트웨어 테스팅은 의도한 것은 의도한대로 의도하지 않은것은 행동하지 않은것을 확인하는 과정입니다. Initialize

30 4. Writing a Hadoop MapReduce example
Initialize 첫번째 장 자기 계발 테스트 에서는 소프트웨어가 매우 보편화되고 광벙위한 곳에 사용되면서 그에 따라 소프트 웨어 테스팅이 중요하다는 것과 소프트웨어 테스팅이 가져야할 의미에 대해서 나타내고 있습니다. 세 번째를 보시면 소프트웨어 테스팅은 의도한 것은 의도한대로 의도하지 않은것은 행동하지 않은것을 확인하는 과정입니다. INPUT

31 4. Writing a Hadoop MapReduce example
첫번째 장 자기 계발 테스트 에서는 소프트웨어가 매우 보편화되고 광벙위한 곳에 사용되면서 그에 따라 소프트 웨어 테스팅이 중요하다는 것과 소프트웨어 테스팅이 가져야할 의미에 대해서 나타내고 있습니다. 세 번째를 보시면 소프트웨어 테스팅은 의도한 것은 의도한대로 의도하지 않은것은 행동하지 않은것을 확인하는 과정입니다.

32 4. Writing a Hadoop MapReduce example
첫번째 장 자기 계발 테스트 에서는 소프트웨어가 매우 보편화되고 광벙위한 곳에 사용되면서 그에 따라 소프트 웨어 테스팅이 중요하다는 것과 소프트웨어 테스팅이 가져야할 의미에 대해서 나타내고 있습니다. 세 번째를 보시면 소프트웨어 테스팅은 의도한 것은 의도한대로 의도하지 않은것은 행동하지 않은것을 확인하는 과정입니다.

33 4. Writing a Hadoop MapReduce example
첫번째 장 자기 계발 테스트 에서는 소프트웨어가 매우 보편화되고 광벙위한 곳에 사용되면서 그에 따라 소프트 웨어 테스팅이 중요하다는 것과 소프트웨어 테스팅이 가져야할 의미에 대해서 나타내고 있습니다. 세 번째를 보시면 소프트웨어 테스팅은 의도한 것은 의도한대로 의도하지 않은것은 행동하지 않은것을 확인하는 과정입니다.

34 4. Writing a Hadoop MapReduce example
첫번째 장 자기 계발 테스트 에서는 소프트웨어가 매우 보편화되고 광벙위한 곳에 사용되면서 그에 따라 소프트 웨어 테스팅이 중요하다는 것과 소프트웨어 테스팅이 가져야할 의미에 대해서 나타내고 있습니다. 세 번째를 보시면 소프트웨어 테스팅은 의도한 것은 의도한대로 의도하지 않은것은 행동하지 않은것을 확인하는 과정입니다.

35 4. Writing a Hadoop MapReduce example
Learning to monitor and debug a Hadoop MapReduce job We can access this via a browser by entering the URL (web UI for the JobTracker daemon). This will show the logged information of the Hadoop MapReduce jobs, which looks like following screenshot Exploring HDFS data In this section, we will see how to explore HDFS directories without running any Bash command. We just need to locate it at 첫번째 장 자기 계발 테스트 에서는 소프트웨어가 매우 보편화되고 광벙위한 곳에 사용되면서 그에 따라 소프트 웨어 테스팅이 중요하다는 것과 소프트웨어 테스팅이 가져야할 의미에 대해서 나타내고 있습니다. 세 번째를 보시면 소프트웨어 테스팅은 의도한 것은 의도한대로 의도하지 않은것은 행동하지 않은것을 확인하는 과정입니다.

36 5. Understanding several possible MapReduce definitions to solve business problems
Server web log processing: Through this MapReduce definition, we can perform web log analysis. Logs of the web server provide information about web requests, such as requested page's URL, date, time, and protocol. the identification of no traffic at night will help us save money by scaling down the server. Web analytics with website statistics: Website statistics can provide more detailed information about the visitor's metadata, such as the source, campaign, visitor type, visitor location, search keyword, requested page URL, browser, and total time spent on pages. Search engine: MapReduce will help us find keywords so we can build a search engine for Big Data. Stock market analysis: Let's say that we have collected stock market data (Big Data) for a long period of time and now want to identify the pattern and predict it for the next time period. 첫번째 장 자기 계발 테스트 에서는 소프트웨어가 매우 보편화되고 광벙위한 곳에 사용되면서 그에 따라 소프트 웨어 테스팅이 중요하다는 것과 소프트웨어 테스팅이 가져야할 의미에 대해서 나타내고 있습니다. 세 번째를 보시면 소프트웨어 테스팅은 의도한 것은 의도한대로 의도하지 않은것은 행동하지 않은것을 확인하는 과정입니다.

37 6. Learning the different ways to write Hadoop MapReduce in R
Rhadoop : RHadoop is a great open source software framework of R for performing data analytics with the Hadoop platform via R functions. The RHadoop project has three different R packages: rhdfs, rmr, and rhbase. Rhdfs – HDFS access rmr - MapReduce interface rhbase – handling data RHIPE : RHIPE is widely used for performing Big Data analysis with D&R analysis. D&R analysis is used to divide huge data, process it in parallel on a distributed network to produce intermediate output, and finally recombine all this intermediate output into a set. Hadoop streaming : This utility allows you to create and run MapReduce jobs with any executable or script as the Mapper and/or Reducer. This is supported by R, Python, Ruby, Bash, Perl, and so on. We will use the R language with a bash script. 첫번째 장 자기 계발 테스트 에서는 소프트웨어가 매우 보편화되고 광벙위한 곳에 사용되면서 그에 따라 소프트 웨어 테스팅이 중요하다는 것과 소프트웨어 테스팅이 가져야할 의미에 대해서 나타내고 있습니다. 세 번째를 보시면 소프트웨어 테스팅은 의도한 것은 의도한대로 의도하지 않은것은 행동하지 않은것을 확인하는 과정입니다.

38 감사합니다 첫번째 장 자기 계발 테스트 에서는 소프트웨어가 매우 보편화되고 광벙위한 곳에 사용되면서 그에 따라 소프트 웨어 테스팅이 중요하다는 것과 소프트웨어 테스팅이 가져야할 의미에 대해서 나타내고 있습니다. 세 번째를 보시면 소프트웨어 테스팅은 의도한 것은 의도한대로 의도하지 않은것은 행동하지 않은것을 확인하는 과정입니다.


Download ppt "Big Data Analytics with R and Hadoop"

Similar presentations


Ads by Google