Download presentation
Presentation is loading. Please wait.
1
인코딩
2
인코딩 컴퓨터에서 문자를 수로 표현하는 방법 꼭 알아둬야할 인코딩들 ASCII EUC-KR CP949 UTF8
3
16진수 Hexadecimal (흔히 hex) 0~F까지 16개의 수로 한 자리를 나타냄
2진수 4자리 = 16진수 1자리 A B C D E F 10 11 12 13 14 15
4
Bit와 Byte Bit: 2진수 1자리 (0 or 1) Byte = 8bit 0x00 ~ 0xFF
~
5
ASCII American Standard Code for Information Interchange
미국 정보 교환 표준 부호 7bit 코드: 0x00 ~ 0x7F까지 128개 (2) ~ (2) 알파벳, 문장부호 등을 포함 첫 1bit는 parity bit (1의 개수가 홀수면 1) 에러 검출 목적
6
ISO 8859 8bit: 0x00 ~ 0xFF까지 256개 공백이 2종류 ASCII에서 쓸 수 없는 문자들까지 포함
언어권에 따라 여러 가지 변형 서유럽용 ISO 을 가장 많이 씀(Latin-1) 공백이 2종류 0x20 Space 0xA0 NBSP
7
한글 인코딩 현대 한글: 11,172글자 조합형: 초성(19개) X 중성(21) X 종성(28)
14bit (0~16,384) 필요 한자도 있음 조합형: 16bit 한글 한글표시 1bit + 초성 5bit + 중성 5 bit + 종성 5bit 장점: 모든 현대 한글을 표현 단점: 처리가 복잡
8
완성형 EUC-KR EUC-KR ISO 8859에서 A1~FE 까지 94 글자 범위 이용
KS X 1001 행망용, KS C 5601 ISO 8859에서 A1~FE 까지 94 글자 범위 이용 영어는 1 byte, 한글은 2 byte로 표현 94 x 94 = 8,836 글자 표현 가능 현대 한글 2,350자만 사용(쓩, 쌰 등 제외) 0x5C Backslash를 원화 표시로 대체
9
확장완성형 CP949 현대 한글 11,172자 모두 표현 비표준: CP 949, MS 949 국내에서 널리 사용
ASCII(0x00-0x7F)와 완성형(0xA1-0xFE) 사이의 남는 영역 사용 비표준: CP 949, MS 949 EUC-KR로 잘못 표기되는 경우가 흔함 국내에서 널리 사용
10
인코딩 중간 정리 ASCII EUC-KR CP949
11
유니코드 UNICODE U+AC00 ~ U+D7AF에 한글 11,172글자 할당 대부분 OS, 프로그래밍 언어 내부에 사용
모든 문자를 포함하는 국제표준 21bit 2,097,152 글자 U+를 앞에 붙임 U+00A0 == 0x00A0 기존 표준과 호환 U+AC00 ~ U+D7AF에 한글 11,172글자 할당 대부분 OS, 프로그래밍 언어 내부에 사용
12
UTF-8 유니코드 인코딩 방식 중 하나 ASCII와 호환 대부분 웹 사이트에서 사용 (국내는 아님)
1~4 byte: 영어는 1 byte, 한글은 3 byte ASCII와 호환 m: U+006D 0x6D 쓩: U+C4E9 0xEC 0x93 0xA9 대부분 웹 사이트에서 사용 (국내는 아님)
13
인코딩 정리 UTF-8 ASCII EUC-KR CP949
Similar presentations