문자 인코딩에 관하여 팀 E.E 201252002 강재문, 201252026 윤영호 201252027 백진후, 201252038 조남훈
강재문 조사내용 문자 인코딩 또는 줄여서 인코딩은 문자나 기호들의 집합을 컴퓨터에서 저장하거나 통신에 사용할 목적으로 부호화하는 방법을 가리킨다. 문자 인코딩을 통해 부호화되어, 복호화하면 본래의 문자나 기호를 뜻하게 되는 부호를 문자 코드라고 한다. 문자 인코딩의 대표적인 예로 전건을 길게, 또는 짧게 두드려서 라틴 알파벳을 나타내는 모스부호가 있으며, 라틴 알파벳, 숫자, 특수 문자 등을 정수와 그에 대응되는 7비트 이진수로 표현하는 방법인 아스키(ASCII)가 있다. 컴퓨팅 초기에는, 아스키(ASCII, 1963년), EBCDIC(1964년)과 같은 문자열 세트가 표준으로 자리잡았다. 이러한 문자열 세트의 제한은 명백했으며 수많은 애드혹(ad hoc) 방식이 개발되었다. 한중일 계열의 동아시아 스크립트를 포함하여 다중 문자(언어) 지원이 시급했다. 문자 집합또는 문자셋은 정보를 표현하기 위한 글자들의 집합을 정의한 것으로, 직접적으로 사용되지 않을 수도 있고 한 문자 집합을 여러 문자 인코딩에서 쓸 수도 있다. 특히 집합 안의 문자들에 음수가 아닌 정수들을 배정한 것을 부호화된 문자 집합이라 한다. 문자 집합은 ASCII와 같이 더 이상의 문자가 추가될 수 없기도 하고, 유니코드와 같이 문자가 계속 추가될 수 있기도 하다. 일반적으로 문자 집합과 문자 인코딩은 어떤 문자를 사용할 수 있으며 어떤 식으로 표현되는지를 나타낸다는 데서 동의어로 취급되기도 한다. 역사적인 이유로 MIME이나 그에 기반한 시스템은 문자 집합(“charset”)을 문자 인코딩을 나타내는 데 사용한다. 문자 인코딩 형태는 특정한 문자 집합 안의 문자들을 컴퓨터 시스템에서 사용할 목적으로 일정한 범위 안의 정수(코드값)들로 변환하는 방법이다. 여기에는 유니코드 코드 포인트를 8비트 숫자의 집합으로 나타내는 UTF-8이나, 16비트 숫자의 집합으로 나타내는 UTF-16, 그리고 대부분의 일반적인 문자 인코딩들의 포함된다.
윤영호 조사내용 없ㅋ엉ㅋ
백진후 조사내용 컴퓨터는 0과 1로 된 부호만 인식할 수 있지만, 인간은 문자를 이용하여 다양한 것을 표현 가능하다. 0과 1만 아는 컴퓨터를 위해 사람이 문자로 인식할 수 있도록 바꿔주는 것이 문자 인코딩(줄여서 인코딩)이다. 문자 인코딩의 대표적인 종류로는 영어와 특수문자를 표시할 수 있는 아스키 코드(ASCII), 한글을 표시할 수 있는 EUC-KR, 다양한 문자를 표현할 수 있는 유니코드 등이 있다. 그 중에서 우리나라에서 자주 쓰이는 인코딩 방식으로는 EUC-KR과 UTF-8(유니코드)이 있다. EUC-KR은 꽤 오랫동안 사용되어온 문자 인코딩 방식이며, 주로 옛날에 만들어진 페이지들은 거의 인코딩을 EUC-KR로 사용한다. UTF-8은 최근에서야 사용이 늘어난 방식이며, 주로 다국어를 사용하는 홈페이지에 적합한 방식이다. 보내는 양이 EUC-KR에 비해 많은 편이지만, 그래도 한 페이지 안에서 여러 언어를 표시할 수 있는 장점으로 사용이 늘고있다. 문자 인코딩을 HTML에서 정의하여 적용하려면, head 태그안에 <meta http-equiv=“Content-Type” content=“text/html; charset=인코딩 이름”/> 을 입력하면 인식한다. 굳이 입력하지 않아도 되지만, 인코딩이 강제로 설정되어있는 우베브라우저나 웹서버 설정에서 언어 인코딩이 맞지 않을경우 제대로 출력되기 위해서 필요하다. EUC-KR UTF-8 페이지 내에 한글과 영어 그리고 특수문자만 표시 가능(다른 언어 사용시 깨질 확률 높음) 페이지 내에 거의 전체적인 언어 표시 가능(한글, 일본어, 중국어를 한 페이지 내에 표시 가능) 주로 예전에 많이 사용, 최근엔 사용 빈도 감소 현재 많이 사용하는 추세, 최근 사용 빈도 증가
조남훈 조사내용 문자 인코딩(文字―, character encoding) 또는 줄여서 인코딩은 문자나 기호들의 집합을 컴퓨터에서 저장하거나 통신에 사용할 목적으로 부호화하는 방법을 가리킨다. 문자 인코딩을 통해 부호화되어, 복호화하면 본래의 문자나 기호를 뜻하게 되는 부호를 문자 코드(文字―, character code)라고 한다. 문자 인코딩의 대표적인 예로 전건을 길게, 또는 짧게 두드려서 라틴 알파벳을 나타내는 모스부호가 있으며, 라틴 알파벳, 숫자, 특수 문자 등을 정수와 그에 대응되는 7비트 이진수로 표현하는 방법인 아스키(ASCII)가 있다. 컴퓨팅 초기에는, 아스키(ASCII, 1963년), EBCDIC(1964년)과 같은 문자열 세트가 표준으로 자리잡았다. 이러한 문자열 세트의 제한은 명백했으며 수많은 애드혹(ad hoc) 방식이 개발되었다. 한중일 계열의 동아시아 스크립트를 포함하여 다중 문자(언어) 지원이 시급했다. 문자 인코딩의 구성 문자 집합(character set, charset)또는 문자셋은 정보를 표현하기 위한 글자들의 집합을 정의한 것으로, 직접적으로 사용되지 않을 수도 있고 한 문자 집합을 여러 문자 인코딩에서 쓸수도 있다. 특히 집합 안의 문자들에 음수가 아닌 정수들을 배정한 것을 부호화된 문자 집합(code character set, CCS)이라 한다. 문자 집합은 ASCII와 같이 더 이상의 문자가 추가될 수 없기도 하고, 유니코드와 같이 문자가 계속 추가될 수 있기도 하다. 일반적으로 문자 집합과 문자 인코딩은 어떤 문자를 사용할 수 있으며 어떤 식으로 표현되는지를 나타낸다는 데서 동의어로 취급되기도 한다. 역사적인 이유로 MIME이나 그에 기반한 시스템은 문자 집합(“charset”)을 문자 인코딩을 나타내는 데 사용한다.