Data Mining 기법을 이용한 침입탐지 시스템 정보과학 대학원 032ITI06 인터넷 기술 전공 김설현
목 차 침입탐지 시스템(IDS)란? 침입탐지 시스템(IDS)의 종류 데이터 마이닝을 이용한 IDS란? 목 차 침입탐지 시스템(IDS)란? 침입탐지 시스템(IDS)의 종류 데이터 마이닝을 이용한 IDS란? 데이터 마이닝을 이용한 IDS 프로젝트 4-1) 프로젝트 목표 4-2) 데이터 마이닝 알고리듬 4-3) 진행 방법 4-4) 오용탐지를 위한 IDS 및 결과 4-5) 비정상행위 탐지를 위한 IDS 및 결과 결론 및 향후전망 참고자료
1. 침입탐지 시스템(IDS)이란? 침입탐지 시스템(IDS)란 네트워크나 시스템의 미심쩍은 점을 조사 및 감시하고 필요한 조치를 취하는 시스템이다. 예를 들어 방화벽(firewall)이 잠겨있는 문이라면 침입탐지 시스템(IDS)은 그 안에 설치되어 움직임을 알아내는 감지장치라 할 수 있다.
2. 침입탐지 시스템(IDS)의 종류 사용자의 정상적인 행위들에 대한 모델을 만들어놓고, 이 모델에 부합 오용탐지(Misuse Detection): 알려진 침입행위의 모델을 미리 만들어 놓고, 이것과 일치하는 경우를 침입으로 간주한다. 따라서 알려진 공격에 대해서만 탐지가 가능하다. 비정상행위 탐지(Anomaly Detection): 사용자의 정상적인 행위들에 대한 모델을 만들어놓고, 이 모델에 부합 하지 않을 경우 잠재적인 공격(potential attack)으로 간주한다. 새로운 유형의 공격도 탐지 가능하다.
3. 데이터 마이닝을 이용한 IDS란? 데이터 마이닝(Data Mining)이란 많은 양의 data 속에서 눈으로는 잘 보이지 않는 규칙이나 pattern을 끌어내는 것이다. 현재의 많은 IDS들은 security analyst들이 공격 시나리오를 분석하고 시스템 취약점을 파악하여 hand-code로 구축하기 때문에 많은 시간과 비용이 소모된다. 따라서 데이터 마이닝(Data mining) 기법을 이용해 방대한 양의 데이터 속에서 침입 또는 정상적인 사용에 대한 pattern를 찾아 rule을 만들고, 이 rule을 이용해 침입을 탐지할 수 있게 된다면 security analyst들의 수고를 덜어줄 수 있을 것이다.
3. 데이터 마이닝을 이용한 IDS란?
4. 데이터 마이닝을 이용한 IDS 프로젝트 Columbia 대학의 Dr. Wenke Lee 팀이 진행한 MADAM ID 프로젝트를 살펴본다. MADAM ID 프로젝트는 DARPA에서 제공한 JAM 프로젝트의 일부로, 데이터마이닝을 이용한 IDS 프로젝트 중 peer들로부터 가장 좋은 평가를 받고 있다.
4. 데이터 마이닝을 이용한 IDS 프로젝트 4-1)프로젝트 목표: 데이터 마이닝 알고리듬을 사용하여 systematic하고 automatic한 방법으로 IDS를 구축한다. 4-2)데이터 마이닝 알고리듬: 알고리듬 특성 Classification 각 record들을 특정 카테고리(normal 또는 intrusion)로 분류함 Association rule 각 record들의 field들간의 연관성을 본다. 예를 들면프로그래머가 emacs 명령어를 쓸때는 주로C file을 연다 등 Frequent Episode network event에서 빈번하게(frequently) 발생하는 sequence본다. 예를 들면 연달아 특정 호스트에 패킷을 보내는 Dos 공격등.
4. 데이터 마이닝을 이용한 IDS 프로젝트 4-3) 진행방법: DARPA에서 제공한 training data로 오용탐지 및 비정상행위 탐지에 대한 모델링을 구축하고, 역시 DARPA에서 제공한 test data로 구축한 modeling이 얼마나 효과적으로 침입을 탐지하는지 평가한다. 4-4) 오용탐지(Misuse Detection)를 위한 IDS 및 결과 1)content 모델링(association rule 사용): 내부호스트의 network session에 대한 모델링으로 R2L, U2R 공격 유형을 모델링한다. 2)Traffic 모델링(frequent episode 사용): 내부 호스트와 외부 호스트 간의 전송패킷을 마이닝하여 DOS와 PROBING 공격을 모 델링 한다. <침입 유형> R2L: remote machine으로 부터의 unautorized access. ex) guessing password U2R: 권한이 없는 사용자가 superuser의 권한에 access. ex)buffer overflow attack DOS: denial-of-service 공격. ex) ping-of death, teardrop, smurf, syn flood PROBING: 시스템을 취약점을 알아내고자 하는 정보수집 공격. ex)post-scan,ping-sweep
4. 데이터 마이닝을 이용한 IDS 프로젝트 <content 모델링의 예> <Table1> Telnet record <Table2> Rules from Telnet record
4. 데이터 마이닝을 이용한 IDS 프로젝트 <Traffic 모델링의 예> <Table3> Network connection record <Table4> Rules from Network connection record
4. 데이터 마이닝을 이용한 IDS 프로젝트 3) 결과 및 분석 :ROC curve에서 보여지듯이 R2L 공격 외에는 모든 곳에서 높은 detection rate을 보이고 있다. <Figure1> Roc curves on Detection Rates and False Alarm Rates
4. 데이터 마이닝을 이용한 IDS 프로젝트 4-5) 비정상 행위 탐지(Anomaly Detection)을 위한 IDS 및 결과 1) 모델링: 사용자 로그인 세션을 분석해서 frequent pattern을 mine해 낸 후, similarity score를 매겨서 score가 높으면 기존의 profile에 합쳐지고 아니면 새로운 행이 만들어는 형식으로 모델링 한다. 각 사용자 별로 am, pm, nt의 세가지 시간대 별로 모델링한다. <Table6> User Description from Shell Command Record <Table5> Shell Command Record
4. 데이터 마이닝을 이용한 IDS 프로젝트 2)결과 및 분석: 오른쪽 테이블에서 보여지듯이 모든 비정상 행위는 정상행위에 비해 similarity scorer가 훨씬 낮으므로 쉽게 detection할 수 있다. <Table7> User Anormaly Description <Table8> Similarity w/ User’s own profile
5.결론 및 향후전망 데이터 마이닝 알고리듬을 이용하면 많은 양의 audit data 속에서 패턴을 추출하여 모델링 할 수 있으므로, security analyzer의 일을 덜어 줄 수 있을 뿐 아니라 기존의 IDS를 완전히 허물지 않고도 extention이 가능하다. 이 분야에 대해서는 많은 research가 진행중이며, 특히 network anormaly detection에 대한 프로젝트는 Dr. Wenke Lee 팀에 의해 현재 진행중이다.
6. 참고자료 장남식, 홍성완, 장재호.,데이터 마이닝, 대청미디어,1999 Wenke Lee, Sal Stolfo, and Kui Mok., “A Data Mining Framework for Building Intrusion Detection Models.” In Proceedings of the 1999 IEEE Symposium on Security and Privacy, Oakland, CA, May 1999 Wenke Lee and Sal Stolfo.,”Data Mining Approaches for Intrusion Detection”. In Proceedings of the Seventh USENIX Security Symposium (SECURITY '98), San Antonio, TX, January 1998 Tamas Abraham, “IDDM: Intrusion Detection using Data Mining Techniques”, DTSO, May 2001 Spike, “A Comparision of Anomaly Detection Technique”, Oxford University club Steven Noel, “Data Mining for Intrusion Detection”, 2004