1 멀티미디어 데이터 : 텍스트 (Text) Lecture #2
2 멀티미디어 구성 요소 멀티미디어 구성 요소 : 1) 텍스트 2) 그래픽 & 이미지 3) 사운드 4) 비디오 & 애니메이션 미디어 접근법 : 1) 특징 : 정보표현 능력 vs 비용 등 2) 컴퓨터 내부 표현 방식 3) 파일 저장 방식 4) 정보 처리 방식
3 텍스트 (1) n 멀티미디어 데이터 가운데 우리가 가장 일반적으로 사용하는 미디어 기본적으로 가장 많이 사용하는 매체 전통적이고 전형적인 매체 적은 저장 공간 비용으로 많은 정보를 표현 u 데이터의 입력은 키보드, 스캐너를 사용 정보 전달의 효율성이 낮다
4 텍스트 (2) n 텍스트의 표현 문자 코드 (Code) 사용 텍스트 데이터 ( 문자 또는 숫자 ) 를 2 진수의 코드로 정보를 표현 (encoding) 코드 체계 : ASCII, 한글코드 ( 완성형 / 조합형 코드 ), 유니코드 (unicode) 등 마크업 텍스트 (Markup Text) Postscript, HTML, SGML, XML 등 이미지 텍스트 : 텍스트 스캔 (Text Scan) 문서의 이미지 데이터 문서 인식 프로그램
5 텍스트 (3) – 문자 코드 n 문자 코드 u 모든 문자는 이진법을 사용하는 코드로 표시 u 언어에 따라 알파벳 사용권에서는 대개 8 비트 코드를 사용하고, 한자를 사용하는 동양권에서는 16 비트 코드를 사용 u 같은 8 비트를 사용하는 경우에도 사용하는 코드에 따라 다소 차이점이 있다 u 문자 코드 종류 F ASCII 코드 F EBCDIC 코드 F 한글코드 ( 완성형 / 조합형 코드 ) F 유니코드 (unicode) 등
6 텍스트 (4) – 문자 코드 n ASCII 코드 u 세계적으로 가장 널리 사용되는 코드 u 기본적으로 8 비트를 사용하여 256 개의 문자를 표현 u 8 비트 중 가장 위의 1 비트 (MSB) 를 제외한 7 비트만을 사용하여 128 개의 문자를 표현하고 제일 위의 비트는 오류 확인 목적으로 사용 u 독일어, 불어 등 영어의 알파벳 외의 별도의 알파벳을 사용하는 언어를 표현하기 위해서는 8 비트 모두를 사용하여 특수문자나 기호를 표현 u IBM 확장 ASCII 처럼 최초의 128 ANSI 코드는 ASCII 코드와 같았으나 나머지 128 개는 Windows 응용 프로그램의 요구를 충족시키기 위해 정의 되었다
7 텍스트 (5) – 문자 코드 n EBCDIC 코드 u EBCDIC 코드는 IBM 사의 중형 컴퓨터인 IBM360/370/390 시스템에 사용하기 위해 개발된 코드 체계 u 8 비트로 나타낼 수 있는 256 개의 코드를 모두 사용하지 않고 약 150 개 정도의 코드만을 사용
8 텍스트 (6) – 문자 코드 n 유니코드 u 컴퓨터와 인터넷의 대중화로 전세계에서 공통으로 사용할 수 있는 코드 체계가 필요 u ISO 에서 모든 언어를 표현할 수 있는 유니코드 (UNICODE) 를 국제표준으로 정하여 전세계에 보급 u 전세계에 알려진 모든 문자를 포함하고 있으며 8 비트 단위인 옥텟 (Octet) 으로 표현 u 두 개의 옥텟 만을 사용하는 코드에 따르면 한글은 기존의 완성형 코드를 모두 수용하고 최대 11,172 자를 표현할 수 있도록 한글 표시영역을 확장하여 기존의 문제점을 해소 u 유니코드는 Microsoft 사에서 지원하고 있어 개인용 컴퓨터 환경에서 국제적인 표준으로 등장 u WindowsNT, Windows2000 에서 지원
9 텍스트 (7) – 문자 코드 n 한글 코드 u 한글 코드는 크게 완성형과 조합형의 두 종류가 존재 F 현재 완성형 한글 코드를 주로 사용 u 조합형 한글 코드 F 초성, 중성, 종성에 각각 특정한 코드를 부여하고 이를 서로 조합하는 형태로 사용하는 코드체계 F 자음과 모음에 대해 코드를 부여해 두고 한글의 조합 원리에 따라 순서대로 표현하는 방식 u 완성형 한글 코드 F 2 바이트 (16 비트 ) 를 사용하여 일상생활에서 사용되는 빈도가 높은 한글과 한자를 포함하여 코드를 지정한 경우 F 완성형은 한글 글자 하나하나에 코드를 부여하는 코딩 방식
10 텍스트 (8) – 문자 코드 n 한글 코드 u 조합형 코드의 경우 조선시대에 사용되던 고어를 포함한 모든 문자를 표현할 수 있다는 장점이 있으나 컴퓨터 통신상에서 한글 전송 시에 글자가 깨어진 채 전송되는 문제점이 있다 u 완성형 코드의 경우에는 모든 한글을 표시할 수 없다는 단점이 있으나 컴퓨터 통신에서 사용하기에 문제가 적게 발생한다는 장점이 있어 현재 국가 표준으로 지정 u 조합형을 사용할 경우 모든 가능한 형태의 글자 표현이 가능하지만, 완성형의 경우는 코드 내에 포함되어 있지 않은 글자들은 표현할 수 없다
11 텍스트 (9) – 폰트 ( 글자체 ) n 텍스트 데이터 처리 : 문서 디스플레이 & 출력 폰트 사용 A. 비트맵 폰트 B. 벡터 폰트 - True Type Font(TTF)
12 텍스트 (10) – 폰트 ( 글자체 ) [ 참고 ] 비트맵 폰트 & 벡터 폰트 비교 : I am VECTOR Font
13 텍스트 (11) – 폰트 ( 글자체 ) Windows 에서 일반적으로 사용하는 (a) 한글 폰트와 (b) 영문폰트
14 텍스트 (12) n 파일 저장 방식 TXT RTF(Rich Text Format) : 서식 파일 등 문서 작성 프로그램의 파일 저장 방식 : DOC, HWP 등 ( 예제 ) 아래아 한글에서 문서작성 후에 각각 TXT 포맷과 HWP 포맷으로 저장한 다음, 다시 읽기를 한다.
15 텍스트 (13) n TXT u TXT 포맷으로 운영체제에서 기본적으로 제공하는 텍스트 편집기를 사용하여 만들어진 파일 형식 u ASCII 코드 또는 KS 한글 코드만으로 구성 u 모든 텍스트 편집기나 워드프로세서에서 읽을 수 있다 u 단순한 텍스트 정보를 교환하기 위한 파일 포맷이므로 그래프나 수식 등을 제공하지 않는다
16 텍스트 (14) n DOC u DOC(Document) 는 마이크로소프트사 (MS) 의 워드를 사용하여 작성된 문서 포맷 u 그래픽 효과, 그림 및 특수 기호, 서식 정보, 탭, 줄 간격 등 워드에서 필요한 모든 정보를 포함하고 있다 u 같은 *.doc 이라는 확장자를 사용하더라도 상위 버전에서 만들어진 파일은 하위 버전에서 읽을 수 없을 수 없다 u 같은 포맷으로 Digital Equipment Corporation (DEC) 에서 Decwrite 라는 워드에디터가 있으며 같은 *.doc 이라는 확장자를 사용하나 서로간의 호환성은 없다
17 텍스트 (15) n HWP u HWP 는 한글 워드 프로세서에서 사용하는 문서 포맷 u 다른 워드 프로세서의 경우 완성형 코드를 사용하는데 비해 조합형 코드를 사용하고 있는 특징이 있다 u 그래픽 정보, 수식 정보, 특수문자 등 워드프로세서에 필요한 모든 정보를 포한다
18 텍스트 (16) n RTF u RTF 는 서로 다른 운영 체제 시스템과 서로 다른 워드프로세서 사이에서도 텍스트 파일을 교환 할 수 있도록 위해 사용되는 문서형식 u 문서의 구조에 관련된 정보 역시 화면에서 읽을 수 있는 텍스트로 표시 u 표나 방정식과 같은 복잡한 기능을 사용하지 않는 경우 워드프로세서 사이에 문서를 교환할 수 있는 방법 u 파일 크기가 워드 프로세서 파일에 비해 수 배 이상 커지며 처리에 많은 시간이 걸리기 때문에 서로 다른 워드 프로세서 사이의 교환에만 사용하는 것이 바람직하다
19 텍스트 (17) n HTML u HTML 형식은 일반 TXT 형식으로 되어 있어서, 일반 TXT 를 편집할 수 있는 편집기라면 조작이 가능 u 형식은 앞장에서 언급하였듯이 인터넷 웹 문서의 표준 형식으로 단순한 텍스트 파일 형식으로 보기에는 적절하지 않을 수 있다 u RTF 형식보다 호환성이 높은 텍스트 문서 포맷으로 등장
20 텍스트 (18) n XML u XML 은 1996 년 W3C 에서 제안한 것 u 웹 상에서 구조화된 문서를 전송 가능하도록 설계된 표준화된 텍스트 형식 u SGML 에서 꼭 필요한 핵심 기능만을 수용 u XML 과 SGML 간의 변환이 용이 u HTML 의 측면에서 보면 기존의 HTML 을 확장, 보완 하였기 때문에 지금보다 더욱 복잡한 문서의 생성이 가능하고 구조적인 정보도 포한다
21 텍스트 (19) n XML 의 장점 u 서로 다른 소스로부터 뽑아낸 데이터를 비슷한 것끼리 묶어서 구조화한 데이터를 사용자 인터페이스와 분리가 가능 F 예를 들면, 고객 정보, 구매 주문, 검색 결과, 계산서 지불, 의학 기록, 카탈로그 데이터 및 기타 정보가 XML 로 변환되어 HTML 페이지에 데이터를 기록하듯이 쉽게 데이터를 온라인 상에서 교환할 수 있다 u 데이터가 클라이언트에 전달되면 다시 서버로 되돌아가지 않고도 데이터를 조작, 편집이 가능하여 서버의 계산 부하나 대역폭 부하가 낮아진다 u 서로 다른 데이터 소스의 데이터를 XML 포맷으로 바꾸면 이들 데이터를 통합하는 일이 용이
22 텍스트 (20) 텍스트 데이터 처리 : 문서 편집 기본 편집 연산 : 삽입, 지우기, 복사, 옮기기 등 문서 포맷 작업 : A. WYSIWYG 방식 : 아래아한글, MS-Word 등 B. 오프라인 방식 : Tex, Latex 등
23 Report #1 다음의 기능을 수행하는 프로그램을 작성하여라 1. ASCII 코드 테이블을 출력한다 2. 영문 텍스트 파일을 입력받아 ASCII 코드 별로 빈도수를 계산하여 출력한다