제 9장: 파일과 데이터베이스 데이터 구성에서부터 데이터 채굴 까지. © The McGraw-Hill Companies, Inc., 1999
주요 질문 데이터베이스 정의와 관리자의 역할 데이터 저장 계층과 키 필드의 개념 파일관리 파일관리 시스템 데이터 베이스 관리시스템이란? 데이터 베이스 구성의 유형 데이터 베이스 관리시스템의 특징 데이터 마이닝 데이터 베이스 사용 윤리
9.1 크고 작은 모든 DB DB는 통합된 파일들의 조직화된 집합. 패널 9.1 여러 종류의 DB
DB의 예 개인, 소용량 DB 정보 유틸리티(온라인 서비스) 법률 정보 시스템 대학도서관 Pradox, Access, dBASE 5 및 FoxPro 대학원생의 연구조사, 판매원의 고객관리 정보 유틸리티(온라인 서비스) American online, CompuServe, Microsoft Network 뉴스, 날씨, 여행정보, 홈 쇼핑 서비스, 기술정보 법률 정보 시스템 대학도서관
Panel 9.2 Building a library database 패널 9.2 도서관 DB 구축 Panel 9.2 Building a library database
공유DB와 분산DB 공유 DB 분산 DB 동일한 지역에 있는 회사나 기관의 사용자들에 의해 공유 동일한 지역에 있는 회사나 기관의 사용자들에 의해 공유 하나의 DB가 회사의 미니컴퓨터에 저장, 사용자들이 네트워크로 연결된 터미널을 이용해 접근 분산 DB 서버/클라이언트 네트워크로 연결된 여러 컴퓨터에 저장된 DB 체인 할인 매장의 예 사용자는 DB의 위치를 모른다.
데이터 베이스 관리자(DBA) DB 설계, 구현, 및 운영 사용자와의 조정 시스템 보안 백업과 복구 성능 감시
9.2 데이터 저장 계층과 키 필드의 개념 저장된 데이터가 어떻게 구성되나? 데이터 저장 계층 키 필드 파일 관리 시스템 9.2 데이터 저장 계층과 키 필드의 개념 저장된 데이터가 어떻게 구성되나? 데이터 저장 계층 키 필드 파일 관리 시스템 데이터 베이스 관리 시스템
데이터 저장 계층 필드 레코드 파일 데이터 베이스(DB) 한 개 이상의 문자(바이트)로 구성되는 데이터의 단위 이름, 주소, 주민등록번호 레코드 관련되는 필드들의 집합 이름, 주소 그리고 주민등록번호의 집합 파일 레코드의 집합 같은 부서의 직원들에 대한 데이터 데이터 베이스(DB) 통합된 파일들의 조직화된 집합 전/현직 종업원들에 대한 모든 정보
패널 9.3 데이터 자장 계층에 대한 고찰
키 필드 정의: 레코드를 쉽게 검색하거나 처리할 수 있도록 유일하게 레코드를 식별하기 위해 선택된 필드 예: ID 번호, 주민등록 번호, 고객의 계좌번호 이름은 키필드로 사용될 수 없다. 같은 이름을 가진 사람이 존재
9.3 파일관리: 기본개념 파일관리 기능 파일의 종류 파일의 추적 마스터 파일과 트랜잭션 파일 데이터 변경 방법
파일관리 기능 생성, 명명, 저장, 삭제, 복사 불러오기, 수정 및 인쇄 업로드, 다운로드, 압축 가져오기, 보내기
파일의 종류 확장자를 보고 구분 프로그램 파일(EXE, COM, DLL) 데이터 파일(DOC, MDB, XLS) ASCII파일(TXT) 이미지 파일(TIG, JPG, BMP) 오디오 파일(WAV, MID) 비디오 파일(AVI, MPG)
파일 확장자들의 예 (Icon view)
파일 확장자들의 예 (List view)
파일의 추적 운영체제가 기능제공 디렉토리(폴더)들을 생성하여 효율적 관리 운영체제는 파일할당 테이블(file allocation table) 유지
마스터 파일과 트랜잭션 파일 마스터 파일 트랜잭션 파일 정기적으로 갱신되는 비교적 영구저장을 목적으로 하는 레코드를 담고 있는 파일이다. 한 학교의 모든 재학생에 대한 주소-라벨 파일 트랜잭션 파일 마스터 파일을 추가, 삭제, 수정에 의해 갱신하는데 필요한 모든 변동사항을 일시적으로 저장하는 파일 새로 추가되거나 삭제되는 학생들의 정보 파일
데이터 변경 방법 일괄처리(Batch Processing) 온라인 처리(실시간 처리) 데이터를 몇 일 또는 몇 주에 걸쳐 수집한 다음 한꺼번에 처리 은행에서 수표처리 온라인 처리(실시간 처리) 트랜잭션이 일어나는 컴퓨터 시스템에 그 트랜잭션을 입력하여 마스터 파일을 즉시 갱신. 현금인출기, 항공사의 예약 서비스
오프라인과 온라인 오프라인(offline) 온라인(online) 내용을 담은 테이프나 디스크가 입력장치에 로드되기 전 상태 데이터를 처리하기 위해서 직접적으로 접근 불가 온라인(online) 내용을 담은 테이프나 디스크가 입력장치에 로드된 상태 CPU에 의해 즉각적인 접근 가능
9.4 파일 관리 시스템 정의: 파일 관리 시스템 혹은 파일 관리자는 한번에 한 파일씩 파일을 생성하고, 검색하며, 조작하는 소프트웨어 배경 초기 컴퓨터는 마그네틱 테이프를 저장 매체로 사용하고 레코드와 파일이 순차적으로 저장 예: 대학과 같은 튼 조직은 서로 다른 목적을 위한 여러 개의 다른 파일들을 가진다.
파일 관리 시스템의 단점 데이터 중복 데이터 무결성의 부족 프로그램 독립성이 부족 서로 다른 파일 내에 같은 데이터 필드가 존재 데이터 무결성의 부족 무결성은 데이터가 정확하고, 일관성 있고, 최신이라는 것을 의미 같은 데이터 필드의 내용이 서로 다른 파일 내에서 다른 경우가 쉽게 발생 프로그램 독립성이 부족 각 프로그램마다 별도의 포맷사용
패널 9.4 파일 관리 시스템
데이터 베이스 관리 시스템(DBMS) 마그네틱 디스크의 사용: 직접 접근 저장 파일 관리 시스템의 문제점 해결 DBMS 소프트웨어를 사용해 DB를 구성하고 데이터를 접근, 관리한다.
패널 9.5 DBMS
DBMS의 장점과 단점 장점 단점 줄어든 데이터의 중복 개선된 데이터 무결성 향상된 프로그램 독립성 증가된 사용자 생산성 증가된 보안성 단점 비용이 많이 든다. 보안성문제 프라이버시 문제
데이터베이스 구조의 종류 개층형 네트워크 형 관계형 객체 지향형
계층형 데이터베이스 정의 필드나 레코드는 상의 레벨 레코드에 종속되는 하위레벨 레코드를 가진 가계도를 닮은 관련된 그룹으로 배열. 하위 레코드는 자식, 상위레코드는 부모, 최상부의 부모를 루트 레코드. 일대다 관계: 부모는 하나이상의 자식을 가질 수 있고 한 자식은 오직 한 부모만 가진다. 특징 구조가 미리 정의 -> 접근과 갱신이 빠르다. 새로운 필드를 추가하려면 전체 DB를 재정의
패널 9.6 계층형 DB: 유람선 예약 시스템
네트워크형 데이터베이스 정의 특징 계층형과 비슷, 각 자식 레코드는 하나 이상의 부모 레코드를 가질 수 있다. 멤버라고 불리는 자녀 레코드는 하나 이상의 부모를 통해서 접근할 수 있으며 이 때 그 부모를 소유자라고 한다 특징 계층형 보다 유연하다. 구조가 미리 정의 링크 수에 제한
패널 9.7 네트워크형DB: 대학의 수업 스케줄링 시스템
관계형 데이터 베이스 정의 특징 데이터 요소들을 행과 열로 만들어진 테이블에 저장 테이블을 관계, 행은 튜플(레코드), 열은 속성(필드) 모든 테이블은 각 행을 유일하게 식별하는 키필드를 가져야 특징 기존의 모델보다 융통성을 가짐 테이블의 요소를 삽입 삭제 용이 검색 시간이 많이 걸린다 사용하기 쉬워 가장 많이 사용됨
패널 9.8 관계형 DB: 자동차 DB의 주정부 부서의 예
객체 지향형 데이터베이스 정의 특징 멀티미디어 데이터를 통합하고 저장 목적 작고 재사용 가능한 덩어리인 객체를 기본 요소로 사용 객체는 (1)텍스트, 음향, 비디오 및 사진의 형태로 된 데이터와 (2) 데이터에서 취할 행동에 대한 명령어로 구성 특징 높은 개발 비용 멀티미디어 데이터를 저장하고 가공 용이
DBMS의 특성(1) 데이터 사전, 유틸리티, 질의어, 보고서 생성기, 접근 보안, 시스템 복구 데이터 사전 유틸리티 데이터 입력시 정의와 부합하는 지 검사 누가 그것에 접근할 권한을 가졌는지 지적 유틸리티 데이터, 레코드와 파일을 생성, 편집, 삭제 함으로써 DB 유지
DBMS의 특성(2) 질의어(데이터 조작언어) DB에 질의하고 선택된 레코드를 검색하는데 사용하는 컴퓨터 언어, EX) SQL, QBE, 자연어 SQL 질의의 예 SELECT PRODUCT.NUMBER, PRODUCT.NAME FROM PRODUCT WHERE PRICE < 100.00 결과 A-34 거울 C-50 의자 D-168 탁자
DBMS의 특성(3) 예에 의한 질의(QBE:query by example) 자연어 질의 원하는 레크드에 대한 자격을 정의하는 샘플레코드를 사용 질의의 예 자연어 질의 “얼마나 많은 판매 대리인들이 1월에 서부지역에서 백만달러 어치 이상의 책을 판매했는가? NAME CITY STATE ZIP AMOUNT OWED BEVERLY HILLS CA >=3000
DBMS의 특성(4) 보고서 생성기 접근 보안 DB의 전체나 일부를 화면이나 인쇄된 문서로 출력하기 위해 사용하는 프로그램 보고서의 포맷을 명시 접근 보안 논리적 보호 권한을 부여 받지 않은 접근과 파괴를 근절 한 그룹의 사용자는 갱신과 삭제 권한 소유, 다른 그룹의 사용자는 검색만 가능 물리적 보호 백업된 디스크를 통제된 보호 저장실에 보관
DBMS의 특성(4) 시스템 복구 관리자가 hw/sw의 장애가 발생했을 때 DB의 내용을 복구할 수 있는 기능 4가지 방법 동시복사 빈번, 빠른 복구 재처리 : 알려진 과거의 시점에서부터 작업을 재처리 주기적인 DB복사, 그 시점부터 트랜잭션들 저장 롤포워드 :재처리의 변형 복잡한 버전의 트랜잭션 로그를 사용 롤백 : 원치않는 변경의 취소
패널 9.9 DBMS의 중요특징 요약
9.8 데이터 채굴, 데이터 창고 및 데이터 시프트 대규모 병렬 데이터 베이스 컴퓨터들은 수십 개의 가장 빠른 주변의 마이크로 프로세서를 함께 모아서 수분 내로 복잡한 데이터 베이스 질의에 반응하는 매력을 준다”
데이터 채굴(data mining) 데이터 채굴( 지식의 발견) 응용 의미를 발췌하고 새로운 지식을 발견하기 위해 방대한 양의 데이터를 분석하고, 정밀 조사하는 컴퓨터 보조 처리 과정. 목적: 과거의 추세를 기술하고, 마케팅, 생산 그리고 재정적 데이터를 정밀 조사하고 무엇이 가치있는 데이터인지 식별 응용 마케팅: 고객의 기호와 소비형태 이해 건강: 선수들에 영향을 미치는 요소 분석 과학: 유전 데이터, 분자구조, 지구의 온도 변화들에서 새로운 패턴발견
데이터 채굴 처리과정
발견과 분석을 위한 “시프트 웨어” 목적 종류 데이터 채굴을 수행하기 위해 즉, 업무를 찾고 분석하는 일을 수행하기 위해 사용 질의 및 보고 도구 다차원 분석 도구 지능 에이전트
데이터 채굴의 몇가지 함정 몇 가지 이상한 것은 순수한 우연 어떤 선입견을 지지하기 위해 증거가 발견 과다한 요소는 무효한 결과를 산출 할 수 있다. 설명이 그럴 듯해야 한다.
데이터베이스 사용에 관한 윤리(1) 부정확하거나 불완전한 데이터 베이스 데이터베이스가 안전한지를 확신할 수 있는가? 데이터베이스가 프라이버시를 지키는 면에서 안전한지를 확신할 수 있는가?
데이터베이스 사용에 관한 윤리(2) 정확성 및 완전성 ( 데이터 베이스의 한계 ) 전체 이야기를 알 수 없다. 그것은 복음성가가 아니다. 범위를 알아라. 올바른 단어를 찾아라. 역사가 제한되어 있다.
데이터베이스 사용에 관한 윤리(3) 프라이버시 문제 사람들이 자신에 대한 정보를 밝히지 않을 권리 전문적인 정보 수집가들과 판매자 Fair Information Practice ( 1970년대 ) Federal Privacy Act ( 1974 년 ) 비밀스런 개인 파일이 정부기관의 요원이나 그들의 계약자들에 의해 보유되는 것을 금한다. 개인들에게 자신들의 기록을 보고, 그 데이터가 어떻게 사용되는지를 알고, 에러를 수정할 권리를 준다. Freedom InformationAct ( 1970 년 ) Computer Matching and Privacy Protection Act ( 1988 년 )
데이터베이스 사용에 관한 윤리(4) 프라이버시 기준에 대한 데이터베이스 산업의 첫 세트 ( Lexis/Nexis, 1977 ) 금융 자신의 신용 관련 기록에 접근 허용 이의를 제기할 수 있는 권리 신용이 거절되더라도 접근을 무료로 행할 수 있음 건강 미국에는 의료기록을 보호하는 연방 법안 없음 의료관계 질문지나 기록에 일상적으로 기입하지 않는 것이 가장 좋은 방법 담당의사에게 최소한의 정보 공개 요구 담당의사나 병원에 자신의 의료기록 복사본 요구
데이터베이스 사용에 관한 윤리(5) 고용 고용주가 지원자에게 신용관계 기록이 고용의 일부 조건으로 사용되고 있음을 알리고 신용 관계 기록을 조사하는 것에 대해 허락을 받도록 기업은 사적으로 대화하는 사원의 말을 엿듣는 것을 금한다. 사업관련 전화의 통화 내용을 들을 수 있고, 모든 구어가 아닌 개인 통신을 감시할 수 있다. 회사의 전자우편 시스템에서 이루어지는 전자우편은 회사의 소유가 된다.
데이터베이스 사용에 관한 윤리(6) 상거래 벌거벗은 소비자 예외적인 경우를 제외하고 기업들이 어떤 목적으로 개인에 대한 정보를 수집하여 동의 없이 이를 다른 목적으로 사용하는 것이 금지되어 있지 않다. 운전면허 기록과 같은 공용 정보 출처와 보증 카드와 같은 상거래 모두에서 수집 비디오 관련 프라이버시 보호에 관한 법령 소매업자들이 고객의 동의나 법원의 명령 없이 비디오 대여 기록을 폭로하는 것을 금한다.
데이터 베이스 사용에 관한 윤리(7) 정보 독점 Corbis Corporation ( 1989 ) 예술과 사진 영상을 전자 서적에서 컴퓨터화된 벽걸이에 이르기까지 모든 것에 전자적으로 보여질 수 있게 정제 시키는 디지털 권한을 얻기 위함 하나의 기업이 회사 소유의 데이터베이스에 대한 독점적인 디지털 권리를 갖고 있는 것에 아무런 윤리적인 문제가 제기되지 않는가?
데이터 베이스 사용에 관한 윤리(8) 향후 개발 : 정보 중개업 ( information brokering ) 특정 주제에 관련해서 기록되고 출판된 모든 것을 탐색 컴퓨터 데이터베이스와 통신망 탐색 한 명 혹은 두 명으로 구성된 회사 적은 투자로 자신의 사업체 소유 시간상의 유연