Download presentation
Presentation is loading. Please wait.
Published by혜옥 양 Modified 8년 전
1
1/26 5 장 텍스트의 표현 5.1. 문자코드 체계 5.1.1. ASCII 코드 5.1.2. 한글 코드 5.1.3. ISO 2022 코드 5.1.4. 유니코드 5.1.5. KS X 1005-1 5.2. 폰트 5.2.1. 폰트 형식 5.2.2. 문자 편집기 5.3. 텍스트 파일의 형식 5.3.1. TXT 5.3.2. RTF 5.3.3. DOC/HWP 5.3.4. PDF 5.3.5. 마크업 텍스트 5.4. 메모장과 워드패드
2
2/26 개 요개 요 멀티미디어 구성요소 중 가장 많이 사용되는 것은 텍 스트이다. 텍스트는 다른 미디어 들보다 저장 공간을 극히 적게 차지하면서 가장 많은 정보를 담을 수 있 는 효율성이 매우 우수한 미디어이다. 우리는 ‘ 독서를 많이 하라 ’ 는 말은 많이 듣지만 라디 오를 많이 듣거나 TV 나 영화, 만화를 많이 보라는 얘 기는 거의 들을 수 없다. 텍스트가 주로 사용된 책에는 심오한 지식이나 인생 의 철학 등을 담을 수 있으나 다른 미디어로는 이것 이 거의 불가능하기 때문일 것이다.
3
3/26 문자코드 체계 컴퓨터에서 텍스트는 2 진수 코드로 인코딩 (encoding) 되어 표현된다.
4
4/26 ASCII 코드 ASCII(American Standard Code for Information Interchange) 코드는 1 개의 문자를 8 비트를 사용하여 표현하는 방식으로 최 대 256 개의 문자를 표현할 수 있다. 그러나 영문자를 표현하기 위해서는 7 비트면 충분하기 때문 에 나머지 128 개는 그래픽 문자를 표현하기 위해 사용된다.
5
5/26 한글 코드 ASCII 코드는 영문자를 표현하기 위한 것이 기 때문에 한글을 표현하기 위해서는 당연히 별도의 코드 체계가 필요하다
6
6/26 글자수 계산 영어권의 문자를 표현하기 위해서는 7 비트만 으로 충분하다. 우리의 한글 문자를 표현하기 위해서는 표 5 ‑ 3 에서 계산된 11,172 자를 표현할 공간이 필 요하여 2 바이트를 사용해야 한다.
7
7/26 2 바이트 조합형 코드 한글의 구현 원리에 따라 초성, 중성, 종성을 구분하여 만든 코 드이다. 초성, 중성, 종성에 각각 5 비트씩을 할당하여 그림 5 ‑ 2 와 같이 한글 문자를 표현하고 있다. 제 1 바이트의 최상위 비트 (MSB: Most Significant Bit) 가 0 이 면 영문자, 1 이면 한글 문자를 나타낸다.
8
8/26 상용 조합형 코드의 일부
9
9/26 2 바이트 완성형 코드 2 바이트 완성형 코드는 한글 문자에 기반을 두고 코드를 부여 한 것이다. 자주 사용되는 2,350 자를 추출하여 이들 글자 하나 하나를 완 성된 글자로 보고, 가나다 순으로 배열한 것이다.
10
10/26 조합형 코드와 완성형 코드의 비교
11
11/26 ISO 2022 코드 ASCII 코드 체제는 컴퓨터가 영어권 이외의 아시아, 아프리카, 남 미 등의 문화권으로 확산됨에 따라 문제점이 나타나게 되었다. 그것은 바로 한글이나 한자와 같이 글자 수가 많은 언어들은 1 바 이트로 표현할 수 없다는 것이다. 이러한 점은 상업적인 측면에서 미국 등의 유수의 S/W 와 H/W 업 체들이 동양권의 컴퓨터 시장을 공략하기 위해 가장 시급히 해결 해야 할 문제였다. 이 문제를 해결하기 위해서는 ASCII 에서 사용 하는 8 비트 코드 체계가 아닌 16 비트 즉 2 바이트 코드 체계로 변 경하는 것이 유일한 해법이었다. ISO(International Standards Organization) 는 ASCII 코드를 확장 하여 2 바이트 이상의 문자 코드를 사용할 때 준수해야 할 부호 확장법에 대한 규격을 ISO 2022 라는 이름으로 발표하였다. 그러 나 이것 역시 문자를 배정할 수 있는 영역이 최대 8,836 자로 제한 되어 있고, 영어권 외에서 국제간에 정보를 교환할 때 혼란을 가 져올 수 있다는 단점이 있었다.
12
12/26 유니코드 한 문자를 표현하기 위해 영어는 7 비트, 비영어는 8 비트, 한글, 한자, 일본어는 16 비트가 필요한데, 유니 코드는 이들 문자를 모두 16 비트로 표현하도록 통일 하였다. 그래서 유니코드에서 최대로 수용할 수 있는 문자 수는 65,536 자가 된다 이 코드 체계에 따르면 한글은 기존처럼 한 음절 당 2 바이트로 표현되고, 자소 분리가 용이하며 최대 11,172 자까지 표현할 수 있다. 또한 기존에 뒤죽박 죽이었던 배열과는 달리 완벽하게 가나다 순으로 배 열되었기 때문에 조합형 코드의 장점과 완성형 코드 의 장점을 모두 취하게 되었다.
13
13/26 유니코드에서 지원하는 11,172 자 한글 코드
14
14/26 유니코드로 인코딩하는 방식 UTF(UCS Transformation Format)-8 과 UTF-16 이 있 다. UTF-8 은 유니코드의 각 문자를 표현할 때 1 바이 트에서 3 바이트까지로 가변적으로 표현한다. 즉 유니코드 값 0000 - 007F 까지는 1 바이트를 사용 하여 표현하고, 그 다음부터 07FF 까지는 2 바이트, 그 다음부터 FFFF 까지는 3 바이트를 사용한다. 예를 들어 ' 가 ' 라는 글자는 UTF-8 로 인코딩하면 0xEAB080 으로 3 바이트로 표현된다. 이에 반해 UTF-16 은 일반 유니코드 즉 Unicode 2.0/ ISO-10646 UCS-2 와 같은 것으로 모든 문자를 2 바 이트로 표현한다
15
15/26 Internet Explorer 의 [ 인터넷 옵션 ] 에서 ‘URL 을 항상 UTF-8 로 보냄 ’ 은 URL 을 UTF-8 로 인코딩하여 웹 서버에게 보내겠다는 의미이다. 이 옵션이 설정되어 있을 때 URL 에 한글이나 특수 문자 등이 있으면 대부분의 웹 서버가 이를 제대로 인식하지 못하므로 이 옵션을 선택하지 않는 것이 좋다.
16
16/26 KS X 1005-1 유니코드 (ISO/IEC 10646) 를 국내 표준화한 것이 KS X 1005-1 이다.
17
17/26 폰트 문서를 작성할 때 적절한 폰트 (font) 를 사용하 는 것은 문서의 가독성과 품질에 있어 매우 중요하다. 폰트는 동일한 크기의 글꼴 한 벌 을 지칭하는 용어이다. 다음 그림에서 ‘ 바탕, 바탕체 ’ 하는 것들이 글 꼴이고, ‘ 바탕, 크기 10’ 이라고 크기까지 지칭 할 때 비로소 폰트라고 한다. 그러나 경우에 따라 폰트와 글꼴이란 용어가 같은 의미로 사 용되기도 한다
18
18/26 MS Word 에서 글꼴의 속성들
19
19/26 폰트 형식 폰트를 표현하는 방법에 따라 크게 비트맵 (bitmap) 폰트와 벡터 (vector) 폰트로 구분한 다.
20
20/26 비트맵 폰트 비트맵 폰트 (bitmap font) 는 그림 5-7 처럼 폰트를 비트맵으로 표현한다. 즉 그림에서 A 자를 구성하는 검정색 부분에 대한 픽 셀의 비트 값을 1, 그 외 부분을 0 의 값으로 표현하여 저장시키 는 것이다.
21
21/26 벡터 폰트 벡터 폰트 (vector font) 는 그림 5-10 처럼 문자의 윤곽선을 수학 함수를 이용하여 표현한다. 즉 그림의 A 자 모양에서 고동색 점 과 점 사이를 직선, 곡선 등을 표현하는 수학 함수로 표현하여 저장시키는 것이다
22
22/26 벡터 폰트의 특성 이러한 수학 함수의 특성으로 벡터 폰트는 함 수의 매개 변수 값을 변경시켜 문자 크기를 조절하거나, 수학적인 연산을 통해 쉽게 문자 모양을 변형시킬 수 있다. 따라서 한 종류의 폰트를 제작하는 것만으로 여러 종류의 폰트를 제작하는 효과를 얻을 수 있다. 일반적으로 벡터 폰트를 트루 타입 (true type) 폰트라고도 한다.
23
23/26 문자 편집기 Windows 에서 제공하는 사용자 정의 문자 편 집기를 이용하여 특수 문자나 로고 등을 6,400 개까지 만들 수 있다. 실습 p.103
24
24/26 텍스트 파일의 형식 TXT 서식이 없이 텍스트에 대한 문자 코드 ( 유니코드, ANSI, UTF-8, KS X 1005-1 등 ) 만 저장하는 형식으로 메모장이 대표적으로 이러한 형식을 사용하고 있다. RTF RTF(Rich Text Format) 형식은 대부분의 문서편집기에서 지원하나 완전한 표준화가 되어 있지 않아 만족할 만한 효과는 기대할 수 없다. 특히 ‘ 한 / 글 ’ 과 MS Word 간에 RTF 파일로 교환하면 ‘ 표 ’ 와 같은 서식에서 많은 문제점을 야기시킨다. DOC/HWP DOC 은 MS Word 에서 사용하며, HWP 는 한글과컴퓨터사의 ‘ 한 / 글 ’ 에서 사용하는 문서 저 장 형식이다. HWP 는 대부분의 Windows 용 문서 편집기들이 완성형 한글코드 체계를 사용 하는 것과는 달리 조합형 한글코드 체계를 사용하고 있다. PDF PDF(Portable Document Format) 는 Adobe 사가 개발한 문서 형식으로 Acrobat Reader 라는 프로그램을 통해 읽을 수 있다. 이 형식은 각기 다른 운영체제 (Unix, Windows, Mac OS 등 ) 에서 작성된 문서라도 모두 똑같은 형태의 문서를 제공하기 때문에, 인터넷에서 문서를 교 류하기 위해 많이 사용되고 있다.
25
25/26 마크업 텍스트 마크업 (Markup) 문서를 만들기 위해서는 PostScript 언어와 HTML(Hypertext Markup Language) 언어가 사용되고 있다. 다음 표는 이들을 사용하여 작성된 간단한 마크업 텍스트를 보여 주고 있다.
26
26/26 맺는말 Unicode 의 최대의 수혜자는 소프트웨어 절대 강국인 미국이다. Unicode 가 나오기 전에는 영문판 소프트웨어가 한글화 되기 위 해 보통 6 개월 정도의 시간이 소요 되었다. 그래서 미국에서 최신 버전이 나오면 6 개월쯤 뒤에 국내에 한글판이 출시되었던 것이 다. 그러나 Unicode 가 사용된 소프트웨어에서는 프로그램 소스 (source) 에서 수정해야 할 필요가 거의 없이 수행 프로그램 (.EXE, DLL) 을 가지고 스트링 (string) 치환 연산에 의해 영어 표현을 한 글로 바꾸어 줄 수 있다. 폰트는 80 년대 후반까지 매우 활발하게 연구가 진행되고 폰트 개 발이 한창이었다. 그러나 이 또한 충분한 형태의 폰트가 제작되 어 이에 대한 논의도 일단락 되었다고 할 수 있다. 텍스트 표현에서 아직 미흡한 부분은 텍스트 파일간의 호환성 문 제이다. 현재 ‘ 한 / 글 ’ 과 MS Word 간에 문서를 완전하게 교환할 수 없다. 이러한 문제는 기본적으로 두 개의 편집기를 어느 정도 다 룰 줄 알아야 한다는 부담을 사용자에게 안겨 주고 있다.
Similar presentations