CHAP 1:자료구조와 알고리즘
자료구조란? 프로그램은 자료(각종 데이터나 정보)를 효율적으로 사용하기 희망 이를 위해서는 자료의 특성을 고려하여 (자료를) 적절히 구성하고 저장하는 것이 중요 “자료의 구성/저장 방식”을 자료구조라 함
일상생활에서의 사물의 조직화 조직도 해야할일 리스트 일상생활에서의 사물의 조직화 사전 Ticket Box
일상생활과 자료구조의 비교 Ticket Box 해야할일 리스트 C B A a b c 일상생활에서의 예 자료구조 NULL 일상생활에서의 예 자료구조 물건을 쌓아두는 것 스택 영화관 매표소의 줄 큐 할일 리스트 리스트 영어사전 사전, 탐색구조 지도 그래프 조직도 트리 C B A Ticket Box 전단(front) 후단(rear)
자료구조와 알고리즘 … 프로그램 = 자료구조 + 알고리즘 (예) 최대값 탐색 프로그램 = 배열 + 순차탐색 자료구조 알고리즘 score[] … 80 70 90 30 tmp←score[0]; for i ← 1 to n do if score[i]>tmp then tmp←score[i];
박철수의 전화번호는 바로 ㅂ부근으로 넘기면 찾을 수 있겠군 알고리즘 알고리즘(algorithm): 컴퓨터로 문제를 풀기 위한 단계적인 절차 알고리즘의 조건 입 력 : 0개 이상의 입력이 존재하여야 한다. 출 력 : 1개 이상의 출력이 존재하여야 한다. 명백성 : 각 명령어의 의미는 모호하지 않고 명확해야 한다. 유한성 : 한정된 수의 단계 후에는 반드시 종료되어야 한다. 유효성 : 각 명령어들은 실행 가능한 연산이어야 한다. 박철수의 전화번호는 바로 ㅂ부근으로 넘기면 찾을 수 있겠군
알고리즘의 기술 방법 영어나 한국어와 같은 자연어 흐름도(flow chart) 유사 코드(pseudo-code) (예) 배열에서 최대값 찾기 알고리즘 1 2 3 4 5 6 7 8 9 10
자연어로 표기된 알고리즘 인간이 읽기가 쉽다. 그러나 자연어의 단어들을 정확하게 정의하지 않으면 의미 전달이 모호해질 우려가 있다. (예) 배열에서 최대값 찾기 알고리즘 ArrayMax(A,n) 배열 A의 첫번쨰 요소를 변수 tmp에 복사 배열 A의 다음 요소들을 차례대로 tmp와 비교하여 더 크면 tmp로 복사 배열 A의 모든 요소를 비교했으면 tmp를 반환
흐름도로 표기된 알고리즘 직관적이고 이해하기 쉬운 알고리즘 기술 방법 그러나 복잡한 알고리즘의 경우, 상당히 복잡해짐 tmp←A[0] i←1 직관적이고 이해하기 쉬운 알고리즘 기술 방법 그러나 복잡한 알고리즘의 경우, 상당히 복잡해짐 i < n no yes A[i]>tmp no yes tmp tmp←A[i] i++
유사코드로 표현된 알고리즘 알고리즘의 고수준 기술 방법 자연어보다는 더 구조적인 표현 방법 프로그래밍 언어보다는 덜 구체적인 표현방법 알고리즘 기술에 가장 많이 사용 알고리즘의 핵심적인 내용에만 집중. 즉, 중요하지 않은 구체적인/사소한 내용들은 생략 가능 ArrayMax(A,n) tmp ← A[0]; for i←1 to n-1 do if tmp < A[i] then tmp ← A[i]; return tmp; ← 는 대입 연산자를 나타냄
C로 표현된 알고리즘 알고리즘의 가장 정확한 기술이 가능 반면 실제 구현시의 많은 구체적인 사항들이 알고리즘의 핵심적인 내용들의 이해를 방해할 수 있다. #define MAX_ELEMENTS 100 int score[MAX_ELEMENTS]; int find_max_score(int n) { int i, tmp; tmp=score[0]; for(i=1;i<n;i++){ if( score[i] > tmp ){ tmp = score[i]; } return tmp;
데이터 타입, 추상 데이터 타입 데이터 타입(data type) (예) 데이터의 집합과 연산의 집합 (예) 추상 데이터 타입(ADT: Abstract Data Type) 데이터 타입을 추상적으로 정의한 것 데이터의 집합과 데이터에 가해지는 연산들의 간략화된 기술/명세 데이터나 연산이 무엇(what)인가는 정의되지만 데이터나 연산을 어떻게(how) 컴퓨터 상에서 구현할 것인지는 정의되지 않는다. int 데이터 타입 데이터: { …,-2,-1,0,1,2,…} 연산: +, -, /, *, % The word “abstract” means “considered apart from detailed specifications or implementation”. A data type can be considered abstract when it is defined in terms of operations on it, and its implementation is hidden (so that we can always replace one implementation with another for, e.g., efficiency reasons, and this will not interfere with anything in the program).
추상 데이터 타입의 정의 객체: 추상 데이터 타입에 속하는 객체가 정의된다. 연산: 이들 객체들 사이의 연산이 정의된다. 이 연산은 추상 데이터 타입과 외부를 연결하는 인터페이스의 역할을 한다. 2 3 객체 9 7 연산 8 추상 데이터 타입
추상 데이터 타입의 예: 자연수 Nat_No 객체: 0에서 시작하여 INT_MAX까지의 순서화된 정수의 부분범위 연산: zero() ::= return 0; is_zero(x) ::= if (x = 0) return TRUE; else return FALSE; add(x,y) ::= if( (x+y) <= INT_MAX ) return x+y; else return INT_MAX sub(x,y) ::= if ( x<y ) return 0; else return x-y; equal(x,y)::= if( x=y ) return TRUE; successor(x)::= if( x < INT_MAX ) return x+1;
추상 데이터 타입과 VCR ▪사용자들은 추상 데이터 타입이 제공하는 연산만을 사용할 수 있다. ▪사용자들은 추상 데이터 타입을 어떻게 사용하는지를 알아야 한다. ▪사용자들은 추상 데이터 타입 내부의 데이터를 접근할 수 없다. ▪사용자들은 어떻게 구현되었는지 몰라도 이용할 수 있다. ▪만약 다른 사람이 추상 데이터 타입의 구현을 변경하더라도 인터페이스가 변경되지 않으면 사용할 수 있다. ▪VCR의 인터페이스가 제공하는 특정한 작업만을 할 수 있다. ▪사용자는 이러한 작업들을 이해해야 한다. 즉 비디오를 시청하기 위해서는 무엇을 해야 하는지를 알아야 한다. ▪VCR의 내부를 볼 수는 없다. ▪VCR의 내부에서 무엇이 일어나고 있는지를 몰라도 이용할 수 있다. ▪누군가가 VCR의 내부의 기계장치를 교환한다고 하더라도 인터페이스만 바뀌지 않는 한 그대로 사용이 가능하다.
알고리즘의 성능분석 알고리즘의 성능 분석 기법 수행 시간 측정 알고리즘의 복잡도 분석 알고리즘의 실제 수행 시간을 측정하는 것 실제로 구현하는 것이 필요 동일한 하드웨어를 사용하여야 함 알고리즘의 복잡도 분석 직접 구현하지 않고서도 수행 시간을 분석하는 것 알고리즘이 수행하는 연산의 횟수를 측정하여 비교 일반적으로 연산의 횟수는 n의 함수 시간 복잡도 분석: 수행 시간 분석 공간 복잡도 분석: 수행시 필요로 하는 메모리 공간 분석
수행시간측정 컴퓨터에서 수행시간을 측정하는 방법에는 주로 clock 함수가 사용된다. clock_t clock(void); clock 함수는 호출되었을 때의 시스템 시각을 clock_t 타입(long 타입)의 값으로 반환. clock_t 타입 값을 초로 변경하기 위해서는 CLOCKS_PER_SEC 로 나누어 준다. 수행시간을 측정하는 전형적인 프로그램 #include <stdio.h> #include <time.h> void main( void ) { clock_t start, finish; double duration; start = clock(); // 수행시간을 측정하고자 하는 코드 // .... finish = clock(); duration = (double)(finish - start) / CLOCKS_PER_SEC; printf("%f 초입니다.\n", duration); }
복잡도 분석 시간 복잡도는 알고리즘을 이루고 있는 연산들이 몇 번이나 수행되는지를 숫자로 표시 산술 연산, 대입 연산, 비교 연산, 이동 연산과 같은 기본적인 연산들의 수행 횟수를 계산하여 두개의 알고리즘을 비교할 수 있다. 연산의 수행횟수는 고정된 숫자가 아니라 입력의 개수 n에 대한 함수->시간복잡도 함수라고 하고 T(n) 이라고 표기한다. 알고리즘 A 알고리즘 B T(n) = 3n+2 T(n) = 5n2 +6
복잡도 분석의 예 n을 n번 더하는 문제: 각 알고리즘이 수행하는 연산의 횟수를 세어 본다 알고리즘 A 알고리즘 B 각 알고리즘이 수행하는 연산의 횟수를 세어 본다 알고리즘 A 알고리즘 B 알고리즘 C sum ←n*n; sum ← 0; for i ← 1 to n do sum ←sum + n; for i←1 to n do for j←1 to n do sum ←sum + 1; 알고리즘 A 알고리즘 B 알고리즘 C 대입연산 1 1 + n + n 1+ n+ (n*n) + (n*n) 덧셈연산 n n*n 곱셈연산 나눗셈연산 전체연산수 2 3n + 1 3n2 + n + 1
연산의 횟수를 그래프로 표현 연산의 횟수 알고리즘 C 알고리즘 B 알고리즘 A 입력의 개수 n
시간복잡도 함수 계산 예 코드를 분석해보면 수행되는 연산들의 횟수를 입력 크기의 함수로 만들 수 있다. ArrayMax(A,n) tmp ← A[0]; 1번의 대입 연산 for i←1 to n-1 do n-1번의 대입 연산 if tmp < A[i] then n-1번의 비교 연산 tmp ← A[i]; n-1번의 대입 연산(최대) return tmp; 1번의 반환 연산 총 연산수= 3n-1(최대)
빅오 표기법 n=1000인 경우 T(n)= n2 + n + 1 99.9% 0.1% 자료의 개수가 많은 경우에는 차수가 가장 큰 항이 가장 영향을 크게 미치고 다른 항들은 상대적으로 무시될 수 있다. (예) n =1,000 일 때, T(n)의 값은 1,001,001이고 이중에서 첫 번째 항인 n2 의 값이 전체의 약 99.9%인 1,000,000이고 두 번째 항의 값이 1000으로 전체의 약 0.1%를 차지한다. 따라서 보통 시간복잡도 함수에서 가장 영향을 크게 미치는 항만을 고려하면 충분하다. n=1000인 경우 T(n)= n2 + n + 1 99.9% 0.1%
빅오 표기법 빅오표기법: 연산의 횟수를 대략적(점근적)으로 표기한 것 두개의 함수 f(n)과 g(n)이 주어졌을 때, 모든 n≥n0에 대하여 0≤f(n)≤c g(n)을 만족하는 2개의 양의 상수 c와 n0가 존재하면 f(n)=O(g(n))이다. 빅오는 함수의 상한을 표시한다. (예) n≥1 이면 2n+6 ≤ 8n 이므로 2n+6 = O(n) 연산의 횟수 입력의 개수 n
빅오 표기법의 예
빅오 표기법의 종류 O(1) : 상수형 O(logn) : 로그형 O(n) : 선형 O(nlogn) : 로그선형 O(nk) : k차형 O(2n) : 지수형 O(n!) : 팩토리얼형 nk n!
빅오 표기법의 종류 시간복잡도 n 1 2 4 8 16 32 logn 3 5 nlogn 24 64 160 n2 256 1024 3 5 nlogn 24 64 160 n2 256 1024 n3 512 4096 32768 2n 65536 4294967296 n! 40326 20922789888000 26313×1033
빅오메가 표기법 빅오메가 표기법 모든 n≥n0에 대하여 f(n) ≥ c g(n)을 만족하는 2개의 양의 상수 c와 n0가 존재하면 f(n)=Ω(g(n))이다. 빅오메가는 함수의 하한을 표시한다. (예) n ≥ 1 이면 2n+1 ≥ 2n 이므로 2n+1 = Ω(n) . 연산의 수 하한 입력의 개수 n
빅세타 표기법 빅세타 표기법 모든 n≥n0에 대하여 c1 g(n) ≤ f(n) ≤ c2 g(n) 을 만족하는 3개의 양의 상수 c1, c2와 n0가 존재하면 f(n)=θ(g(n))이다. 빅세타는 함수의 하한인 동시에 상한을 표시한다. f(n)=O(g(n))이면서 f(n)= Ω(g(n))이면 f(n)= θ(g(n)) 이다. (예) n ≥ 1이면 n ≤ 2n+1 ≤ 3n이므로 2n+1 = θ(n) . 연산의 수 상한 하한 입력의 개수 n
최선, 평균, 최악의 경우 알고리즘의 수행시간은 입력 자료에 따라 다를 수 있다. (예) 순차탐색 알고리즘 최선의 경우(best case): 수행 시간이 가장 빠른 경우 평균의 경우(average case): 수행시간이 평균적인 경우 최악의 경우(worst case): 수행 시간이 가장 늦은 경우 최악의 경우 최선의 경우 평균적인 경우 A B C D E F G 입력 집합 수행시간 100 50
최선, 평균, 최악의 경우 최선의 경우: 의미가 없는 경우가 많다. 평균적인 경우: 계산하기가 상당히 어려움 최악의 경우: 가장 널리 사용된다. 계산하기 쉽고 수행시간에 대한 보장 가능
최선, 평균, 최악의 경우 (예) 순차탐색 최선의 경우: 찾고자 하는 숫자가 맨앞에 있는 경우 ∴ O(1) 최악의 경우: 찾고자 하는 숫자가 맨뒤에 있는 경우 ∴ O(n) 평균적인 경우: 각 요소들이 균일하게 탐색된다고 가정하면 (1+2+…+n)/n=(n+1)/2
C언어 표기법 typedef <새로운 타입의 정의> <새로운 타입 이름>; C언어 사용규칙 상수 대문자로 표기 (예) #define MAX_ELEMENT 100 변수의 이름 소문자를 사용하였으며 언더라인을 사용하여 단어와 단어를 분리 (예) int increment; int new_node; 함수의 이름 동사를 이용하여 함수가 하는 작업을 표기 (예) int add(ListNode *node) // 혼동이 없는 경우 int list_add(ListNode *node) //혼동이 생길 우려가 있는 경우 typedef의 사용 C언어에서 사용자 정의 데이터 타입을 만드는 경우에 쓰이는 키워드 (예) typedef int element; typedef struct ListNode { element data; struct ListNode *link; } ListNode; typedef <새로운 타입의 정의> <새로운 타입 이름>;