Download presentation
Presentation is loading. Please wait.
1
웹 로그 데이터를 이용한 다차원 질의 분석 데이터베이스 연구실 석사 3학기 김 백 선
2
연구 내용 NT IIS서버상에서 운용되고 있는 웹사이트의 로그데이터에 대해 사이트별/방문IP별/방문시간별 접근 횟수를 분석하는 OLAP을 수행한다 구현 환경 로그데이터 정보 : Windows NT Server 상의 IIS 4.0내에 기록되는 W3C 확장 로그포맷 사용 기초 데이터 입력 : Excel 2000 데이터베이스 구축 : Access 2000 Cube생성 : Microsoft OLAP Services
3
Web Log Analysis Process
1 주제영역 설정(Subject Area) : 사이트 접근 패턴 분석 로그데이터 정제 단계 : ETL Processing을 통한 DTS단계 2 Data Warehouse 구축 I: 구성 항목 및 구체정도 결정 3 Data Warehouse 구축 II : Dimension table구축 4 Cube생성 : 생성된 Cube 분석 5 DBMiner를 이용한 graphical OLAP Cube browsing 6
4
로그데이터 정제 단계 : ETL Processing을 통한 DTS단계
2 IIS지원 로그 포맷 NCSA,IIS, ODBC, W3C 확장 로그 포맷 W3C Log Format 선정 Date, time, c-ip, service, s-computername, s-ip, cs- method, cs-uri-stem, sc-status, sc-win32-status, sc- bytes, cs-bytes, time-taken, s-port, cs-version, cs(UserAgent), cs(cookie), cs(referer)
5
- 사이트별/시간별/IP별 접근횟수, 전송 바이트 수 등 2. 구분차원 구성항목 결정
Data Warehouse 구축 I 3 1. 변수차원 구성항목 결정 - 사이트별/시간별/IP별 접근횟수, 전송 바이트 수 등 2. 구분차원 구성항목 결정 - Site dimension : dblab server상의 site hierarchy에 대한 분류 - IP dimension : 최상위 도메인 ~ 하위 도메인 - Time dimension : 초당 분석 단위 3. 데이터 구체성 정도 결정 - Site dimension : 3 level 까지 분석 - IP dimension : 교내(서브넷 중심분류), 교외 - Time dimension : 일주일간 시간단위로 분석
6
Dimension Table Fact Table
Data Warehouse 구축 II 4 Site_Dim Site_K Site_Class_K Site_name Page_name Site_class_Dim Site_K Page_name Site_name ... Dimension Table Fact Table Time_Dim Time_K The_time The_date ... IP_Dim IP_K C-ip-교내외 C-ip-교내 ... Factex05 Time_K Site_K IP_K .. Sc-bytes, Cs-bytes Time-taken Dimensional Keys Measures
7
4 Data Warehouse 구축 II 1. NT server상에 text 형식상으로 존재하는 로그파일을 I week단위로 통합 주어진 텍스트 파일은 raw data이며 적당한 cleansing작업 필요
8
2. Site_K, IP_K, Time_K 부여 Access이용하여 데이터베이스로 loading => fact table 생성
9
3. 계층구조를 가지는 차원 테이블 생성 Excel 이용하여 필요한 차원 테이블 입력 => dimension table 생성
10
4. Data Importing using DTS(Data Transform Services) using the Query result to specift the data
11
Cube생성 : 생성된 Cube 분석 5 1. ODBC연결설정 (DNS : DblogMart) MS DSS에서 OLAP service를 위한 DB 연결
12
2. storage aggregation option 설정 : MOLAP선택 Balancing size with performance : 21개의 Aggregation수행에 최대 storage허용치 0.05MB 로 지정했을 때 98% 이상의 성능 향상
13
Query 1: 전체적으로 dblab 웹에 가장 많이 접속하는 교내 IP는?
3. Dblog05 Cube생성 결과 및 분석 Query 1: 전체적으로 dblab 웹에 가장 많이 접속하는 교내 IP는?
14
Query 2: 일요일날 dblab 홈페이지 접근은 어디서 많이 하는가?
15
Query 3: dblab 홈페이지에서 가장 방문자수가 많은 페이지는 무엇인가?
16
Query 4: 그렇다면 2000년 1학기 강의 사이트는 어느 요일에 가장 많이 접속하는가?
17
Query 5: 일반적으로 교수님 소개 사이트는 어디에서 많이 접근하는가?
18
DBMiner를 이용한 graphical OLAP Cube browsing
6
24
결론 사이트의 비대칭 계층 구조 문제 TIIME dimension의 방대함 상업적 성격을 가지는 웹사이트의 경우
사이트 구조 변경 => 사이트의 Performance에 도움 OLAP분석의 대상 : Sales, financial data적 시각 필요? User-session 추적이 가능한 사이트에서 유용
Similar presentations