Presentation is loading. Please wait.

Presentation is loading. Please wait.

1 멀티미디어 데이터 : 텍스트 (Text) Lecture #2. 2 멀티미디어 구성 요소  멀티미디어 구성 요소 : 1) 텍스트 2) 그래픽 & 이미지 3) 사운드 4) 비디오 & 애니메이션  미디어 접근법 : 1) 특징 : 정보표현 능력 vs 비용 등 2) 컴퓨터.

Similar presentations


Presentation on theme: "1 멀티미디어 데이터 : 텍스트 (Text) Lecture #2. 2 멀티미디어 구성 요소  멀티미디어 구성 요소 : 1) 텍스트 2) 그래픽 & 이미지 3) 사운드 4) 비디오 & 애니메이션  미디어 접근법 : 1) 특징 : 정보표현 능력 vs 비용 등 2) 컴퓨터."— Presentation transcript:

1 1 멀티미디어 데이터 : 텍스트 (Text) Lecture #2

2 2 멀티미디어 구성 요소  멀티미디어 구성 요소 : 1) 텍스트 2) 그래픽 & 이미지 3) 사운드 4) 비디오 & 애니메이션  미디어 접근법 : 1) 특징 : 정보표현 능력 vs 비용 등 2) 컴퓨터 내부 표현 방식 3) 파일 저장 방식 4) 정보 처리 방식

3 3 텍스트 (1) n 멀티미디어 데이터 가운데 우리가 가장 일반적으로 사용하는 미디어  기본적으로 가장 많이 사용하는 매체  전통적이고 전형적인 매체  적은 저장 공간 비용으로 많은 정보를 표현 u 데이터의 입력은 키보드, 스캐너를 사용  정보 전달의 효율성이 낮다

4 4 텍스트 (2) n 텍스트의 표현  문자 코드 (Code) 사용  텍스트 데이터 ( 문자 또는 숫자 ) 를 2 진수의 코드로 정보를 표현 (encoding)  코드 체계 :  ASCII, 한글코드 ( 완성형 / 조합형 코드 ), 유니코드 (unicode) 등  마크업 텍스트 (Markup Text)  Postscript, HTML, SGML, XML 등  이미지 텍스트 : 텍스트 스캔 (Text Scan)  문서의 이미지 데이터  문서 인식 프로그램

5 5 텍스트 (3) – 문자 코드 n 문자 코드 u 모든 문자는 이진법을 사용하는 코드로 표시 u 언어에 따라 알파벳 사용권에서는 대개 8 비트 코드를 사용하고, 한자를 사용하는 동양권에서는 16 비트 코드를 사용 u 같은 8 비트를 사용하는 경우에도 사용하는 코드에 따라 다소 차이점이 있다 u 문자 코드 종류 F ASCII 코드 F EBCDIC 코드 F 한글코드 ( 완성형 / 조합형 코드 ) F 유니코드 (unicode) 등

6 6 텍스트 (4) – 문자 코드 n ASCII 코드 u 세계적으로 가장 널리 사용되는 코드 u 기본적으로 8 비트를 사용하여 256 개의 문자를 표현 u 8 비트 중 가장 위의 1 비트 (MSB) 를 제외한 7 비트만을 사용하여 128 개의 문자를 표현하고 제일 위의 비트는 오류 확인 목적으로 사용 u 독일어, 불어 등 영어의 알파벳 외의 별도의 알파벳을 사용하는 언어를 표현하기 위해서는 8 비트 모두를 사용하여 특수문자나 기호를 표현 u IBM 확장 ASCII 처럼 최초의 128 ANSI 코드는 ASCII 코드와 같았으나 나머지 128 개는 Windows 응용 프로그램의 요구를 충족시키기 위해 정의 되었다

7 7 텍스트 (5) – 문자 코드 n EBCDIC 코드 u EBCDIC 코드는 IBM 사의 중형 컴퓨터인 IBM360/370/390 시스템에 사용하기 위해 개발된 코드 체계 u 8 비트로 나타낼 수 있는 256 개의 코드를 모두 사용하지 않고 약 150 개 정도의 코드만을 사용

8 8 텍스트 (6) – 문자 코드 n 유니코드 u 컴퓨터와 인터넷의 대중화로 전세계에서 공통으로 사용할 수 있는 코드 체계가 필요 u ISO 에서 모든 언어를 표현할 수 있는 유니코드 (UNICODE) 를 국제표준으로 정하여 전세계에 보급 u 전세계에 알려진 모든 문자를 포함하고 있으며 8 비트 단위인 옥텟 (Octet) 으로 표현 u 두 개의 옥텟 만을 사용하는 코드에 따르면 한글은 기존의 완성형 코드를 모두 수용하고 최대 11,172 자를 표현할 수 있도록 한글 표시영역을 확장하여 기존의 문제점을 해소 u 유니코드는 Microsoft 사에서 지원하고 있어 개인용 컴퓨터 환경에서 국제적인 표준으로 등장 u WindowsNT, Windows2000 에서 지원

9 9 텍스트 (7) – 문자 코드 n 한글 코드 u 한글 코드는 크게 완성형과 조합형의 두 종류가 존재 F 현재 완성형 한글 코드를 주로 사용 u 조합형 한글 코드 F 초성, 중성, 종성에 각각 특정한 코드를 부여하고 이를 서로 조합하는 형태로 사용하는 코드체계 F 자음과 모음에 대해 코드를 부여해 두고 한글의 조합 원리에 따라 순서대로 표현하는 방식 u 완성형 한글 코드 F 2 바이트 (16 비트 ) 를 사용하여 일상생활에서 사용되는 빈도가 높은 한글과 한자를 포함하여 코드를 지정한 경우 F 완성형은 한글 글자 하나하나에 코드를 부여하는 코딩 방식

10 10 텍스트 (8) – 문자 코드 n 한글 코드 u 조합형 코드의 경우 조선시대에 사용되던 고어를 포함한 모든 문자를 표현할 수 있다는 장점이 있으나 컴퓨터 통신상에서 한글 전송 시에 글자가 깨어진 채 전송되는 문제점이 있다 u 완성형 코드의 경우에는 모든 한글을 표시할 수 없다는 단점이 있으나 컴퓨터 통신에서 사용하기에 문제가 적게 발생한다는 장점이 있어 현재 국가 표준으로 지정 u 조합형을 사용할 경우 모든 가능한 형태의 글자 표현이 가능하지만, 완성형의 경우는 코드 내에 포함되어 있지 않은 글자들은 표현할 수 없다

11 11 텍스트 (9) – 폰트 ( 글자체 ) n 텍스트 데이터 처리 : 문서 디스플레이 & 출력  폰트 사용 A. 비트맵 폰트 B. 벡터 폰트 - True Type Font(TTF)

12 12 텍스트 (10) – 폰트 ( 글자체 ) [ 참고 ] 비트맵 폰트 & 벡터 폰트 비교 : I am VECTOR Font

13 13 텍스트 (11) – 폰트 ( 글자체 ) Windows 에서 일반적으로 사용하는 (a) 한글 폰트와 (b) 영문폰트

14 14 텍스트 (12) n 파일 저장 방식  TXT  RTF(Rich Text Format) : 서식 파일 등  문서 작성 프로그램의 파일 저장 방식 : DOC, HWP 등 ( 예제 ) 아래아 한글에서 문서작성 후에 각각 TXT 포맷과 HWP 포맷으로 저장한 다음, 다시 읽기를 한다.

15 15 텍스트 (13) n TXT u TXT 포맷으로 운영체제에서 기본적으로 제공하는 텍스트 편집기를 사용하여 만들어진 파일 형식 u ASCII 코드 또는 KS 한글 코드만으로 구성 u 모든 텍스트 편집기나 워드프로세서에서 읽을 수 있다 u 단순한 텍스트 정보를 교환하기 위한 파일 포맷이므로 그래프나 수식 등을 제공하지 않는다

16 16 텍스트 (14) n DOC u DOC(Document) 는 마이크로소프트사 (MS) 의 워드를 사용하여 작성된 문서 포맷 u 그래픽 효과, 그림 및 특수 기호, 서식 정보, 탭, 줄 간격 등 워드에서 필요한 모든 정보를 포함하고 있다 u 같은 *.doc 이라는 확장자를 사용하더라도 상위 버전에서 만들어진 파일은 하위 버전에서 읽을 수 없을 수 없다 u 같은 포맷으로 Digital Equipment Corporation (DEC) 에서 Decwrite 라는 워드에디터가 있으며 같은 *.doc 이라는 확장자를 사용하나 서로간의 호환성은 없다

17 17 텍스트 (15) n HWP u HWP 는 한글 워드 프로세서에서 사용하는 문서 포맷 u 다른 워드 프로세서의 경우 완성형 코드를 사용하는데 비해 조합형 코드를 사용하고 있는 특징이 있다 u 그래픽 정보, 수식 정보, 특수문자 등 워드프로세서에 필요한 모든 정보를 포한다

18 18 텍스트 (16) n RTF u RTF 는 서로 다른 운영 체제 시스템과 서로 다른 워드프로세서 사이에서도 텍스트 파일을 교환 할 수 있도록 위해 사용되는 문서형식 u 문서의 구조에 관련된 정보 역시 화면에서 읽을 수 있는 텍스트로 표시 u 표나 방정식과 같은 복잡한 기능을 사용하지 않는 경우 워드프로세서 사이에 문서를 교환할 수 있는 방법 u 파일 크기가 워드 프로세서 파일에 비해 수 배 이상 커지며 처리에 많은 시간이 걸리기 때문에 서로 다른 워드 프로세서 사이의 교환에만 사용하는 것이 바람직하다

19 19 텍스트 (17) n HTML u HTML 형식은 일반 TXT 형식으로 되어 있어서, 일반 TXT 를 편집할 수 있는 편집기라면 조작이 가능 u 형식은 앞장에서 언급하였듯이 인터넷 웹 문서의 표준 형식으로 단순한 텍스트 파일 형식으로 보기에는 적절하지 않을 수 있다 u RTF 형식보다 호환성이 높은 텍스트 문서 포맷으로 등장

20 20 텍스트 (18) n XML u XML 은 1996 년 W3C 에서 제안한 것 u 웹 상에서 구조화된 문서를 전송 가능하도록 설계된 표준화된 텍스트 형식 u SGML 에서 꼭 필요한 핵심 기능만을 수용 u XML 과 SGML 간의 변환이 용이 u HTML 의 측면에서 보면 기존의 HTML 을 확장, 보완 하였기 때문에 지금보다 더욱 복잡한 문서의 생성이 가능하고 구조적인 정보도 포한다

21 21 텍스트 (19) n XML 의 장점 u 서로 다른 소스로부터 뽑아낸 데이터를 비슷한 것끼리 묶어서 구조화한 데이터를 사용자 인터페이스와 분리가 가능 F 예를 들면, 고객 정보, 구매 주문, 검색 결과, 계산서 지불, 의학 기록, 카탈로그 데이터 및 기타 정보가 XML 로 변환되어 HTML 페이지에 데이터를 기록하듯이 쉽게 데이터를 온라인 상에서 교환할 수 있다 u 데이터가 클라이언트에 전달되면 다시 서버로 되돌아가지 않고도 데이터를 조작, 편집이 가능하여 서버의 계산 부하나 대역폭 부하가 낮아진다 u 서로 다른 데이터 소스의 데이터를 XML 포맷으로 바꾸면 이들 데이터를 통합하는 일이 용이

22 22 텍스트 (20)  텍스트 데이터 처리 : 문서 편집  기본 편집 연산 : 삽입, 지우기, 복사, 옮기기 등  문서 포맷 작업 : A. WYSIWYG 방식 : 아래아한글, MS-Word 등 B. 오프라인 방식 : Tex, Latex 등

23 23 Report #1  다음의 기능을 수행하는 프로그램을 작성하여라 1. ASCII 코드 테이블을 출력한다 2. 영문 텍스트 파일을 입력받아 ASCII 코드 별로 빈도수를 계산하여 출력한다


Download ppt "1 멀티미디어 데이터 : 텍스트 (Text) Lecture #2. 2 멀티미디어 구성 요소  멀티미디어 구성 요소 : 1) 텍스트 2) 그래픽 & 이미지 3) 사운드 4) 비디오 & 애니메이션  미디어 접근법 : 1) 특징 : 정보표현 능력 vs 비용 등 2) 컴퓨터."

Similar presentations


Ads by Google