분할 정복 결정 트리와 규칙을 사용한 분류에 따라
결정 트리 : 나누어 정복하기 Supervised Learning Method 사전 데이터와 처리방법을 미리 학습 후, 새로 들어온 데이터를 이에 따라 처리 분류 C5.0 결정 트리 알고리즘 대표적 결정 트리 알고리즘 엔트로피 어떤 속성으로 나눌지 식별하는 척도 범주가 얼마나 섞여있는지를 나타냄 (0= 완전한 하나, 1= 다종성의 최댓값 )
결정 트리 : 나누어 정복하기
Income range( 소득 범위 ) 에 따라 Income Range 20-30K 30-40K 40-50K 50-60K
결정 트리 : 나누어 정복하기 Income range( 소득 범위 ) 에 따라 Income Range 20-30K 30-40K 40-50K 50-60K YES : 2 / NO : 2 YES : 4 / NO : 1 YES : 1 / NO : 3 YES : 2 / NO : 0
결정 트리 : 나누어 정복하기 Income range( 소득 범위 ) 에 따라 Income Range 20-30K 30-40K 40-50K 50-60K YES : 2 / NO : 2 YES : 4 / NO : 1 YES : 1 / NO : 3 YES : 2 / NO : 0 변별력 없음 !! 엔트로피 높음 !!
결정 트리 : 나누어 정복하기 Credit card Insurance( 신용 카드 보험 ) 에 따라 Credit Card Insurance YES NO
결정 트리 : 나누어 정복하기 Credit card Insurance( 신용 카드 보험 ) 에 따라 Credit Card Insurance YES NO YES : 3 / NO : 0 YES : 6 / NO : 6
결정 트리 : 나누어 정복하기 Credit card Insurance( 신용 카드 보험 ) 에 따라 Credit Card Insurance YES NO YES : 3 / NO : 0 YES : 6 / NO : 6 역시 변별력 없음 !! 엔트로피 높음 !!
결정 트리 : 나누어 정복하기 Age( 나이 ) 에 따라 Age 43 세 초과 43 세 이하
결정 트리 : 나누어 정복하기 Age( 나이 ) 에 따라 Age 43 세 초과 43 세 이하 YES : 0 / NO : 3 YES : 9 / NO : 3
결정 트리 : 나누어 정복하기 Age( 나이 ) 에 따라 Age 43 세 초과 43 세 이하 YES : 0 / NO : 3 YES : 9 / NO : 3 상대적으로 유의미해 보임 엔트로피 낮음
결정 트리 : 나누어 정복하기 엔트로피 순에 따라 Age 43 세 초과 NO(3/0) 43 세 이하 ???
결정 트리 : 나누어 정복하기 엔트로피 순에 따라 YES(6/0) Age 43 세 초과 NO(3/0) Sex Female 43 세 이하 Male ???
결정 트리 : 나누어 정복하기 엔트로피 순에 따라 YES(6/0) Age 43 세 초과 NO(3/0) Sex Female 43 세 이하 Male Credit Insurance NO(4/1) No Yes YES(2/0)
결정 트리 : 나누어 정복하기 엔트로피 순에 따라 YES(6/0) Age 43 세 초과 NO(3/0) Sex Female 43 세 이하 Male Credit Insurance NO(4/1) No Yes YES(2/0) 극단적으로 값이 갈릴수록 좋은 정보 !!
결정 트리 장단점 장점 모든 문제에 적합한 분류기 결측치, 명목 속성, 수치를 처리할 수 있는 자동성이 높은 학습 수학적 배경 없이도 해석할 수 있는 모델 도출 높은 효율 단점 쉽게 과적합화 Or 과소적합화 불안정적이며 복잡해질 가능성이 높다
규칙 학습기 : 구분해 정복하기 If-else 식의 논리적 유형 선행 사건과 결과면에서 분류 규칙을 명시 ‘ 나누어 정복하기 ’ 와의 차이점 각 결정 노드가 과거 결정의 이력에 영향을 받는가 ?
규칙 학습기 : 구분해 정복하기 Birds Insects Fish Eels Sharks Bats Rats Rabbits Frogs Rhinos Elephants Pigs Dogs Cats Bears All Animals
규칙 학습기 : 구분해 정복하기 Birds Insects Fish Eels Sharks Bats Rats Rabbits Frogs Rhinos Elephants Pigs Dogs Cats Bears All Animals Mammals? 땅, 바다, 하늘로 이동하는 속성에 따라
규칙 학습기 : 구분해 정복하기 Birds Insects Fish Eels Sharks Bats Rats Rabbits Frogs Rhinos Elephants Pigs Dogs Cats Bears All Animals Mammals? 땅, 바다, 하늘로 이동하는 속성에 따라 개구리는 포유류가 아니다 !!
규칙 학습기 : 구분해 정복하기 Birds Insects Fish Eels Sharks Bats Rats Rabbits Frogs Rhinos Elephants Pigs Dogs Cats Bears All Animals Mammals?
규칙 학습기 : 구분해 정복하기 Birds Insects Fish Eels Sharks Bats Rats Rabbits Frogs Rhinos Elephants Pigs Dogs Cats Bears All Animals Mammals? 박쥐는 포유류다 !!( 털의 유무로 구분 가능 )
규칙 학습기 장단점 장점 이해가 결정 트리에 비해 쉬우며 단순함 크고 노이즈한 데이터셋에 효과적 단점 간혹 상식에 반대인 듯한 규칙을 만들기도 함 수치 데이터에 부적합 복잡한 모델의 경우, 성능향상이 안될지도 ?!
총 평 플로우 차트를 통한 ‘ 나누어 정복하기 ’ 논리적 if-else 규칙을 통한 ‘ 구분해 정복하기 ’ 통계적 배경 지식 없이도 이해 가능 선 학습 !! 후 분류 !!