웹 로그 데이터를 이용한 다차원 질의 분석 2000.5.29 데이터베이스 연구실 석사 3학기 김 백 선.

Slides:



Advertisements
Similar presentations
1 08 시스템 구성도 고려사항 * 웹 서버 클러스터 구성  클러스터 구축은 ㈜ 클루닉스의 Encluster 로 구축 (KT 인증,IT 인증 획득, 실제 클러스터 구축 사이트 200 여곳 )  웹 서버 클러스터는 Dynamic, Static, Image.
Advertisements

Internet Multimedia solutions Internet Multimedia Solutions (Video Chatting) KLC21 ㈜ 본 제안서의 내용은 ㈜ KLC 에 저작권이 있습니다. 본 제안서는 내용이 구성이 잘된 제안서로서 제안서를.
2010 – 06 – 24 주간 보고서.
MrDataBld 2.x 제품 소개 2007.
TOURISM & BUSINESS INFORMATION SYSTEM. TOURISM & BUSINESS INFORMATION SYSTEM.
새주소 안내시스템 구축방안 지오윈(주) 박 인 철
DB Injection과 대응방안 nwkim.
MS SQL Server 학기, 소프트웨어 설계 및 실험 ( Ⅰ )
PARK SUNGJIN Oracle 설치 PARK SUNGJIN
Data Interface, Data mart Technology
삼성 SDS 멀티캠퍼스 데이터웨어하우스, OLAP, 데이터 마이닝 삼성 SDS 멀티캠퍼스
뇌를 자극하는 Windows Server 2012 R2
Database Laboratory, Hong Ik University
MS-Access의 개요 1강 MOS Access 2003 CORE 학습내용 액세스 응용 프로그램은 유용한 데이터를
BW & CDRS 활용 사례 BW & CDRS 활용 사례 강남 세브란스병원 의료정보팀 김홍재 파트장.
Windows Server 장. Windows Server 2008 개요.
Chapter 32 Analyzing Web Traffic
제 09 장 데이터베이스와 MySQL 학기 인터넷비즈니스과 강 환수 교수.
뇌를 자극하는 SQL Server 장. SQL Server 2005 통합 서비스.
데이터베이스 및 설계 금오공과대학교 컴퓨터공학부 이 이섭.
Enterprise Data Warehouse
1. WEB access log 형식 2. WEB access log 위치 3. WEB access log 분석
Excel OLAP Reporting / OWC를 이용한
ASP 정 보 보 호 학 과 양 계 탁.
데이터 웨어하우스 목차 1.데이터 웨어하우스 개발방법론 2슬라이드~13슬라이드
SQL Server 2000, SQL Server 2005 비교 자료
마케팅 분석 시스템 개발 방법론 2004년 5월 27일 ㈜비아이솔루션 김환태
SSAS 변화된 구조와 사용자 분석 화면 구현 우철웅 기술이사 BI 사업부 인브레인.
Internet Multimedia Solutions (Video Chatting)
4장. 웹로직 서버상에서의 JDBC와 JTA의 운용
뇌를 자극하는 SQL Server 장. SQL Server 2008 소개.
Pilot Decision Support Suite를 사용한 매출액 분석
SqlParameter 클래스 선문 비트 18기 발표자 : 박성한.
MicroStrategy6 컴퓨터학과 석사 2학기 진수경.
게임에서 공공까지, 국내 실 사례들로 본 빅데이터 융합 분석
컴퓨터응용과학부 Java Enterprize(DB) 제 15 주
                              데이터베이스 프로그래밍 (소프트웨어 개발 트랙)                               퍼스널 오라클 9i 인스톨.
뇌를 자극하는 Windows Server 장. Windows Server 2008 개요.
ASP.NET AJAX 비동기 게시판 작성 2007 컴퓨터공학실험( I )
KHS JDBC Programming 4 KHS
FTP 프로그램의 활용 FTP 프로그램의 용도 인터넷 공간에 홈페이지 파일을 업로드할 때 필요
SK Telecom 매출 통계 시스템의 SQL Server Reporting Services 적용사례
You YoungSEok Oracle 설치 You YoungSEok
Grade Server Team14. Attention Seeker
웹 어플리케이션 보안 2016년 2학기 3. Mongo db.
게임웹사이트운영 [10] 폼 작성.
세일즈분석/분석CRM을 위한 데이터마이닝 활용방안
2장. 데이터베이스 관리 시스템 데이터베이스 관리 시스템의 등장 배경 데이터베이스 관리 시스템의 정의
2018년 11월 05일 박성진 Web & Internet [08] 레이아웃 P1 2018년 11월 05일 박성진
Web & Internet [03] HTML5 다양한 태그
HTTP 프로토콜의 요청과 응답 동작을 이해한다. 서블릿 및 JSP 를 알아보고 역할을 이해한다.
SQL Server Reporting Services 구성과 배포, 그리고 사용
뇌를 자극하는 Windows Server 장. 원격 접속 서버.
USN(Ubiquitous Sensor Network)
오라클 넷(Oracle Net)의 개념 및 구성
프로젝트 명칭 학생 이름 | 담당 교사 이름 | 학교
단계1 단계2 단계3 단계4 단계5 단계별 제목 상세내용1 상세내용
Web & Internet [01] 인터넷 기술의 개요
Level 0 Level 1 Level 2 Level 3 공모전 후기 모음 웹 서비스 1. 웹 페이지 설계 2. 웹 서버 구현
地方自治團體의 財政 < 地方自治團體의 財政 > 1. 意義
KISTI Supercomputing Center 명훈주
Tabular 관리툴 Tabular Manager
오라클 11g 보안.
1. 입력 데이터 ② 대학, 학과: 대학이 존재하지 않을 경우 학과명을 대학에 입력 학과명은 공백으로 유지 (하단 참조)
서적DB개발 과제 Page 2의 ERD를 통해 구축할 서적 DB의 구조를 파악한다. (4개의 개체에 대해 확인함)
IO-Link 통신 기술 소개 산업 Ethernet 필드버스 게이트웨이 접속 IO-Link 마스터 IO-Link 통신
국립중앙의료원 messenger User Guide Ver 3.2.
 6장. SQL 쿼리.
DBMS & SQL Server Installation
실전 프로젝트: 홈페이지 구축 시트콤 프렌즈 팬 사이트 구축하기.
Presentation transcript:

웹 로그 데이터를 이용한 다차원 질의 분석 2000.5.29 데이터베이스 연구실 석사 3학기 김 백 선

연구 내용 NT IIS서버상에서 운용되고 있는 웹사이트의 로그데이터에 대해 사이트별/방문IP별/방문시간별 접근 횟수를 분석하는 OLAP을 수행한다 구현 환경 로그데이터 정보 : Windows NT Server 상의 IIS 4.0내에 기록되는 W3C 확장 로그포맷 사용 기초 데이터 입력 : Excel 2000 데이터베이스 구축 : Access 2000 Cube생성 : Microsoft OLAP Services

Web Log Analysis Process 1 주제영역 설정(Subject Area) : 사이트 접근 패턴 분석 로그데이터 정제 단계 : ETL Processing을 통한 DTS단계 2 Data Warehouse 구축 I: 구성 항목 및 구체정도 결정 3 Data Warehouse 구축 II : Dimension table구축 4 Cube생성 : 생성된 Cube 분석 5 DBMiner를 이용한 graphical OLAP Cube browsing 6

로그데이터 정제 단계 : ETL Processing을 통한 DTS단계 2 IIS지원 로그 포맷 NCSA,IIS, ODBC, W3C 확장 로그 포맷 W3C Log Format 선정 Date, time, c-ip, service, s-computername, s-ip, cs- method, cs-uri-stem, sc-status, sc-win32-status, sc- bytes, cs-bytes, time-taken, s-port, cs-version, cs(UserAgent), cs(cookie), cs(referer)

- 사이트별/시간별/IP별 접근횟수, 전송 바이트 수 등 2. 구분차원 구성항목 결정 Data Warehouse 구축 I 3 1. 변수차원 구성항목 결정 - 사이트별/시간별/IP별 접근횟수, 전송 바이트 수 등 2. 구분차원 구성항목 결정 - Site dimension : dblab server상의 site hierarchy에 대한 분류 - IP dimension : 최상위 도메인 ~ 하위 도메인 - Time dimension : 초당 분석 단위 3. 데이터 구체성 정도 결정 - Site dimension : 3 level 까지 분석 - IP dimension : 교내(서브넷 중심분류), 교외 - Time dimension : 일주일간 시간단위로 분석

Dimension Table Fact Table Data Warehouse 구축 II 4 Site_Dim Site_K Site_Class_K Site_name Page_name Site_class_Dim Site_K Page_name Site_name ... Dimension Table Fact Table Time_Dim Time_K The_time The_date ... IP_Dim IP_K C-ip-교내외 C-ip-교내 ... Factex05 Time_K Site_K IP_K .. Sc-bytes, Cs-bytes Time-taken Dimensional Keys Measures

4 Data Warehouse 구축 II 1. NT server상에 text 형식상으로 존재하는 로그파일을 I week단위로 통합 주어진 텍스트 파일은 raw data이며 적당한 cleansing작업 필요

2. Site_K, IP_K, Time_K 부여 Access이용하여 데이터베이스로 loading => fact table 생성

3. 계층구조를 가지는 차원 테이블 생성 Excel 이용하여 필요한 차원 테이블 입력 => dimension table 생성

4. Data Importing using DTS(Data Transform Services) using the Query result to specift the data

Cube생성 : 생성된 Cube 분석 5 1. ODBC연결설정 (DNS : DblogMart) MS DSS에서 OLAP service를 위한 DB 연결

2. storage aggregation option 설정 : MOLAP선택 Balancing size with performance : 21개의 Aggregation수행에 최대 storage허용치 0.05MB 로 지정했을 때 98% 이상의 성능 향상

Query 1: 전체적으로 dblab 웹에 가장 많이 접속하는 교내 IP는? 3. Dblog05 Cube생성 결과 및 분석 Query 1: 전체적으로 dblab 웹에 가장 많이 접속하는 교내 IP는?

Query 2: 일요일날 dblab 홈페이지 접근은 어디서 많이 하는가?

Query 3: dblab 홈페이지에서 가장 방문자수가 많은 페이지는 무엇인가?

Query 4: 그렇다면 2000년 1학기 강의 사이트는 어느 요일에 가장 많이 접속하는가?

Query 5: 일반적으로 교수님 소개 사이트는 어디에서 많이 접근하는가?

DBMiner를 이용한 graphical OLAP Cube browsing 6

결론 사이트의 비대칭 계층 구조 문제 TIIME dimension의 방대함 상업적 성격을 가지는 웹사이트의 경우 사이트 구조 변경 => 사이트의 Performance에 도움 OLAP분석의 대상 : Sales, financial data적 시각 필요? User-session 추적이 가능한 사이트에서 유용