In Managing Gigabytes 과목 : 정보검색론 강의 : 부산대학교 권혁철

Slides:



Advertisements
Similar presentations
SPEAKER VERIFICATION SYSTEMS 대화형 사용자 인터페이스 개론 정보와 추론 연구실.
Advertisements

자료의 표현 1. 문자 자료의 표현 2. 멀티미디어 자료의 표현. 컴퓨터일반자료의 표현 학습 목표 ◆ 컴퓨터에서 사용하는 문자 데이터의 표현 방법을 이해할 수 있다. ◆ 컴퓨터에서 사용하는 멀티미디어 데 이터의 표현 방법을 설명할 수 있다.
Big Data & Hadoop. 1. Data Type by Sectors Expected Value using Big Data.
문자코드 1 박 2 일 (4 조 ) 이경도 이준집 이수연 엄태규. 문자코드란 ? 문자나 기호를 컴퓨터로 다루기 위하여, 문자나 기호 하나하나에 할당 시키는 고유의 숫자를 말하는 것이다.
난이도 : 초급 제1장 앱 인벤터 소개 및 준비.
Flash SSD 강원대학교 `01 최경집.
2010 – 06 – 24 주간 보고서.
컴퓨터와 인터넷.
재료수치해석 HW # 박재혁.
고장률 failure rate 어떤 시점까지 동작하여 온 품목이 계속되는 단위기간내에 고장을 일으키는 비율(횟수). 고장률은 확률이 아니며 따라서 1 보다 커도 상관없다. 고장이 발생하기 쉬운 정도를 표시하는 척도. 일반으로 고장률은 순간고장률과 평균고장률을 사용하고 있지만.
정보공학의 구조 (관련분야) 신호시스템 모델 정보의 원천과 디지털 신호 Source/Channel Alphabet
데이터베이스 및 설계 금오공과대학교 컴퓨터공학부 이 이섭.
램( RAM ) 램의 개념 램 선택법 듀얼채널의 의미.
Windows Server 장. 사고를 대비한 데이터 백업.
윤성우의 열혈 C 프로그래밍 윤성우 저 열혈강의 C 프로그래밍 개정판 Chapter 12. 포인터의 이해.
컴퓨터 계측 및 실습 D/A-converter
전자기적인 Impedance, 유전율, 유전 손실
테이블 : 데이터베이스를 구성하는 요소로 같은 성격에 정보의 집합체. 레코드 : 하나의 정보를 가지고 있는 컬럼의 집합체
강원대학교 지구물리학과 이훈열 참고: PG Steamer User’s Guide
Chapter 13 Wired LANs: Ethernet.
데이터 압축 알고리즘 컴퓨터과학부 조 산 컴퓨터과학부 김형주.
제9장 채널용량(Channel capacity)
컴퓨터 계측 및 실습 D/A-converter
23 장 OSI 상위계층 23.1 세션(session)층 23.2 표현(presentation)층
Error Detection and Correction
멀티미디어 서울대학교 통계학과 2009년 2학기 컴퓨터의 개념 및 실습 (
Simulating Boolean Circuits on a DNA Computer
18강. 데이터 베이스 - II JDBC 살펴보기 Statement객체 살펴보기 Lecturer Kim Myoung-Ho
ASP.NET AJAX 비동기 게시판 작성 2007 컴퓨터공학실험( I )
PySpark Review 박영택.
<소스코딩(Source Coding)> 제4장 가변길이 코드
제 1장. 멀티미디어 시스템 개요.
사용자 함수 사용하기 함수 함수 정의 프로그램에서 특정한 기능을 수행하도록 만든 하나의 단위 작업
Copyright Prof. Byeong June MIN
디 지 털 공 학 한국폴리텍V대학.
박성진 컴퓨터 프로그래밍 기초 [09] 배열 part 1 박성진
27장. 모듈화 프로그래밍.
Java의 정석 제 5 장 배 열 Java 정석 남궁성 강의 의
유승석 FILE I/O File Input/Output 유승석 SD50 – C# & .NET Platform.
뇌를 자극하는 Windows Server 2012 R2
뇌를 자극하는 Windows Server 장. 원격 접속 서버.
USN(Ubiquitous Sensor Network)
2장. 변수와 타입.
04. DBMS 개요 명지대학교 ICT 융합대학 김정호.
기상 레이더 정보를 이용한 획기적인 LID시설 제어 방법 GIST대학 물리학부 정희원 GIST대학 기초교육학부 박연준, 기태윤
컴퓨터 프로그래밍 기초 - 8th : 함수와 변수 / 배열 -
네트워크 환경 구축과 이미지 전송 호스트/타겟 통신 직렬 통신을 이용한 이미지 전송 수퍼 데몬 BOOTP 환경 구축
QR Code 김정민 김준보.
PCA 개선 서울대학교 박노열.
4장. 데이터 표현 방식의 이해. 4장. 데이터 표현 방식의 이해 4-1 컴퓨터의 데이터 표현 진법에 대한 이해 n 진수 표현 방식 : n개의 문자를 이용해서 데이터를 표현 그림 4-1.
DA :: 퀵 정렬 Quick Sort 퀵 정렬은 비교방식의 정렬 중 가장 빠른 정렬방법이다.
Word2Vec.
AT MEGA 128 기초와 응용 I 기본적인 구조.
Homework #12 (1/2) 프로그램을 작성하고, 프로그램과 실행 결과를 프린트하여 제출한다.
.Net Web Application 2007 컴퓨터공학실험(Ⅰ)
1. 정투상법 정투상법 정투상도 (1) 정투상의 원리
ㆍ풍량 계산 1. 덕트내 반송속도 : 15~19m/s 2. 단면적 : (π×0.075²)÷4 = ㎡
11장 배열 1. 배열이란? 1.1 배열의 개요 1.2 배열의 선언과 사용.
비교분석 보고서 Template 2015.
MATLAB Homework#6 Equalizer 기초
ER-관계 사상에 의한 관계데이터베이스 설계 충북대학교 구조시스템공학과 시스템공학연구실
컴퓨터공학과 손민정 Computer Graphics Lab 이승용 교수님
실습과제 (변수와 자료형, ) 1. 다음 작업 (가), (나), (다)를 수행하는 프로그램 작성
.Net FrameWork for Web2.0 한석수
제 4 장 Record.
Introduction to Wavelets - G.E. Peckham
CODE INJECTION 시스템B 김한슬.
문제의 답안 잘 생각해 보시기 바랍니다..
Report #2 (기한: 3/16) 데이터 구조 과목의 수강생이 50명이라고 가정한다. 이 학생(학번은 2016????으로 표현됨)들의 중간 시험(0~100), 기말 시험(0~100) 성적을 성적 파일에 작성하라(프로그램을 통해서 또는 수작업으로). 성적 파일을 읽어들여서.
6 객체.
Presentation transcript:

In Managing Gigabytes 과목 : 정보검색론 강의 : 부산대학교 권혁철 Text Compression In Managing Gigabytes 과목 : 정보검색론 강의 : 부산대학교 권혁철

Contents Compression Models and Coding Adaptive Model Huffman Coding Arithmetic Coding

Preview 일반적 추세 : 컴퓨터 저장 장치의 용량과 데이터 전송량은 계속해서 늘어나고 있고, 사람들은 더 많은 데이터를 컴퓨터 저장 장치에 넣고 싶어한다. 그래서, 컴퓨터 리소스의 향상에도 불구하고 압축 기법에 더 많은 관심을 보이고 있다. Text compression : 일반 데이터 압축과 구분된다. 텍스트 압축의 가장 큰 특징은 반드시 정확히 복원되어야 한다는 것이다. 이미지 데이터나 사운드 데이터는 어느 정도의 정보의 손실을 허용한다 압축 기법의 발전 50년대 초반 : Huffman coding (5bits/character) 70년대말: Adaptive model Ziv-Lempel compression(4bits/character) arithmetic coding 80년대 초반 : Prediction by Partial Matching(PPM)

Model과 Coding Model : 압축될 기본단위의 확률을 측정하는 방법. 높은 압축율을 위해서는 Modeling을 잘 해야 한다. <Example> static model semi-static model adaptive model Coding : 확률을 이용하여 실제로 압축을 행하는 것 Huffman coding Arithmetic coding

Compression Models 여러 가지 압축기법들은 압축될 데이터에 대해 좋은 모델이 형성되어야 높은 압축율을 보인다. 기본적으로 모델의 기능은 심볼을 예측하는 것이다. 심볼의 예측 → 확률 → sample text에서의 상대빈도( relative frequency ) Model encoder decoder text Compressed text

확률 분포의 entropy 확률 분포의 entropy(H) : 심볼들의 평균 정보량(비트수) H = ∑ Pr[s]·I(s) = ∑ -Pr[s]·log Pr[s] I(s) : s를 encode한 비트 수 Pr[s] : s가 발생할 확률 I(s) = -logPr[s] 낮은 확률 → 높은 entropy 높은 확률 → 낮은 entropy

Compression Model의 구분 - static model : 각 심볼에 대한 확률은 미리 결정되어 있다. - semi-static model : Compress될 파일 각각에 대해 새로운 확률 분포를 만든다. - adaptive model : 심볼 하나 하나를 압축할 때마다 확률 분포 가 달라진다. - finite-context model : 제한된 몇 개의 이전 심볼에 대해 다 음 심볼 예측 - finite-state model : 각 state에 따라 다음 심볼에 대한 예측 값이 다르다. - Symbolwise model : 심볼의 확률을 측정하고 이를 기준으 로 코드화 한다. 확률의 측정을 얼마나 정확하게 하느냐가 성 능을 좌우한다. - Dictionary model : 단어를 사전의 인덱스로 교체한다.

Adaptive Model static modeling : 텍스트의 내용에 관계없이 항상 같은 모델을 사용하는 방법. 다른 형태의 텍스트가 들어오면 효율 저하. semi-static modeling : Compress될 파일 각각에 대해 새로운 model을 만든다. adaptive modeling : 성격이 다른 텍스트 압축에 대한 문제 해결 - 평이한 확률 분포, 새로운 심볼을 만날 때마다 확률 분포가 점 차적으로 바뀐다. - 확률을 구하기 위해 이미 encode된 부분을 이용한다.

Adaptive Model(Cont.) zero-order model(character level model) 볼로서 작용한다. zero-frequency problem : 확률 0는 피해야 한다. - extra count를 둔다. - 빈도를 강제로 1씩 올려 준다. higher-order model : 현재 문맥에서 빈도를 찾음 - first-order model : 마지막 하나의 문자를 참고하여 확률 계산 - second-order model : 마지막 두 개의 문자를 참고하여 확률 계산

Coding Coding 목적 Huffman coding : full-text Retrieval에 유용 압축모델에 의해 제공되는 확률분포에 기반하여 심볼을 Code화하는 작업 목적 심볼에 대해 짧은 codeword를 생성 짧은 시간 내에 encode, decode Huffman coding : full-text Retrieval에 유용 random access가 가능 속도가 빠르다. Canonical Huffman Coding 많은 단어들을 포함한다. codeword의 길이를 포함한다. codeword의 길이 순으로 저장한다. decode tree가 없다. Arithmetic coding 높은 압축율 어떤 모델에서도 사용이 가능하다.

Huffman Coding 1.0 0.4 0.6 0.2 0.1 0.05 0.3 1 a b c d e f g

Arithmetic Coding Arithmetic coding의 원리 Prefix 제거 각 symbol은 각자 확률을 가지고 있다. Symbol stream을 하나의 실수로 압축한다. Prefix 제거 Coding된 실수가 너무 길어지는 것을 방지. 빠른 전송 속도. Prefix 제거의 예 low = 0.6546789 low = 0.789 high = 0.6546985 high = 0.985

Huffman Coding과 Arithmetic Coding의 비교