한글반포 562돌 기념 학술세미나 온누리 한글의 유니코드(Unicode) 적용방안 연구

Slides:



Advertisements
Similar presentations
파이썬 (Python). 1 일 : 파이썬 프로그래밍 기초 2 일 : 객체, 문자열 3 일 : 문자인코딩, 정규표현식, 옛한글 4 일 : 파일 입출력 5 일 : 함수와 모듈 6 일 : 원시 말뭉치 다루기 실습 7 일 : 주석 말뭉치 다루기 실습 8 일 : 웹 데이터로.
Advertisements

1/29 키보드로 직접 입력할 수 없는 다양한 기호와 한자를 입력하는 방법을 알아 보자. 또한 블록으로 영역을 설정하는 여러 가지 방법에 대해 살펴본 후 블록 으로 설정된 내용을 복사하여 붙여넣거나, 잘라내고 이동하는 방법에 대해서 도 알아보자. 02_ 문서의 입력과 편집.
편집용지 설정 ※ 제본 문서를 묶기위한 추가여백 내용입력 한색에서 다른 색으로 서서히 변하는 효과 한글 파일형식 : hwp.
자료의 표현 1. 문자 자료의 표현 2. 멀티미디어 자료의 표현. 컴퓨터일반자료의 표현 학습 목표 ◆ 컴퓨터에서 사용하는 문자 데이터의 표현 방법을 이해할 수 있다. ◆ 컴퓨터에서 사용하는 멀티미디어 데 이터의 표현 방법을 설명할 수 있다.
을지대학교 무선 네트워크 사용 방법 2010 년 06 월 01 일. 을지대학교 무선 네트워크 사용 방법 1. PC 무선랜 카드 활성화 및 체크 1 단계 : 시작 -> 설정 -> 네트워크 설정 2 단계 : 무선 네트워크 설정 선택 -> 마우스 버튼 오른쪽 클릭 -> 사용.
6 장. printf 와 scanf 함수에 대한 고찰 printf 함수 이야기 printf 는 문자열을 출력하는 함수이다. – 예제 printf1.c 참조 printf 는 특수 문자 출력이 가능하다. 특수 문자의 미 \a 경고음 소리 발생 \b 백스페이스 (backspace)
1/26 5 장 텍스트의 표현 5.1. 문자코드 체계 ASCII 코드 한글 코드 ISO 2022 코드 유니코드 KS X 폰트 폰트 형식 문자 편집기 5.3. 텍스트.
제목 ( 책이름 ) : 기차 ㄱㄴㄷ. ㄱ ( 기역 ) : 기다란 기차가 칙칙폭폭 갑니다.
1 넷스팟 MAC ID 설정 방법 ( 서울캠퍼스 기준 ) 각종 스마트폰의 WiFi 를 이용시 각종 스마트폰의 WiFi 를 이용시 MAC ID 설정을 하는 방법 입니다. 아이폰의 경우는 별도의 설정없이 바로 사용이 가능하오니, 사용이 어려울 경우, 고객센터로 문의하시면 됩니다.
2. 이렇게 하 면 돼요. 지도교사 : 곽현모. 공부한 내용 확인하기 국어사전이란 ? 우리가 쓰는 낱말의 뜻을 설명해 놓은 책.
★ 글자가 짜인 순서 ★ ㄱ ㄲ ㄴ ㄷ ㄸ ㄹ ㅁ ㅂ ㅃㄱ ㄲ ㄴ ㄷ ㄸ ㄹ ㅁ ㅂ ㅃㅅ ㅆ ㅇ ㅈ ㅉ ㅊ ㅋ ㅌ ㅍ ㅎㅅ ㅆ ㅇ ㅈ ㅉ ㅊ ㅋ ㅌ ㅍ ㅎㄱ ㄲ ㄴ ㄷ ㄸ ㄹ ㅁ ㅂ ㅃㄱ ㄲ ㄴ ㄷ ㄸ ㄹ ㅁ ㅂ ㅃㅅ ㅆ ㅇ ㅈ ㅉ ㅊ ㅋ ㅌ ㅍ ㅎㅅ ㅆ ㅇ ㅈ ㅉ ㅊ.
4. 음운의 변동 얘들아, ‘ 신라, 국물 ’ 의 발음은 왜 [ 실라 ], [ 궁물 ] 이 되는 걸까 ?
훈민정음 훈민정음을 만든 이유, 역사적 가치, 만들어진 시대, 훈민정음의 분류의 대해 살펴보았습니다.
▶ 청각 장애인에 대한 에티켓 ◀ 1. 대화를 할 때 수화 뿐만 아니라 입도 사용한다. 2. 입 안에 껌 등을 씹으며 말하지 않는다. 3. 얼굴의 표정을 조심한다. 4. 듣지 못한다고 하여 건청인 ( 말하고 듣 는 사람 ) 끼리 속삭이지 않는다.
문자코드 1 박 2 일 (4 조 ) 이경도 이준집 이수연 엄태규. 문자코드란 ? 문자나 기호를 컴퓨터로 다루기 위하여, 문자나 기호 하나하나에 할당 시키는 고유의 숫자를 말하는 것이다.
배소영 한림대 언어청각학부 다문화, 다언어 사용 아동의 학습지원 배소영 한림대 언어청각학부
(1) 말소리와 발음 갈래 : 설명문 성격 : 체계적, 해설적, 객관적 제재 : 우리말의 음운
4. 알고 싶은 것, 묻고 싶은 것 ⑴ 국어의 음운 체계와 변동 이해하기.
국어 문법 수업 자료 음운의 체계 독서와 문법 수업 자료 수업자료 전체
조원 : 김영재(코딩) 이지영(스토리) 임병욱(그래픽)
재료수치해석 HW # 박재혁.
Elementary Korean 1 : Review
2장. 프로그램의 기본 구성. 2장. 프로그램의 기본 구성 2-1"Hello, World!" 들여다 보기 /* Hello.c */ #include int main(void) { printf("Hello, World! \n"); return 0;
한국어 입문 韩国语入门.
컴퓨터 프로그래밍 기초 [Final] 기말고사
Teaching Hangul Effectively to Korean-English bilingual children
A B C 어린이 영어노트 학원 표지 - 1.
테이블 : 데이터베이스를 구성하는 요소로 같은 성격에 정보의 집합체. 레코드 : 하나의 정보를 가지고 있는 컬럼의 집합체
프로젝트 최종 발표 컴퓨터 공학과 4학년 박기웅.
Communication and Information Systems Lab. 황재철
FTP 프로그램 채계화 박재은 박수민.
컴퓨터 프로그래밍 기초 #02 : printf(), scanf()
14주 실습강의 학기, 소프트웨어 설계 및 실험(Ⅰ).
한글 모아쓰기 automata 세종대왕과 컴퓨터를 연결하다 KAIST 전산학과 최광무.
CAS (Computer Algebra System) 소개
jConnect에서 한글 처리문제 및 해결방안
Delphi 2009 / C++Builder 2009의 Unicode 및 Internationalization 지원
*** 온라인 학습 연구 참여 대상자를 모집합니다 ***
한글 ③ Focus Recognition and identification of 5 vowels 예 애
프로그래밍 개요
[3-01 음운] (1) 음운 체계 자음 체계 모음 체계 운소
큐맨 PPT 활용법 매 달마다 큐맨이 나와서 직접 몸동작으로 정답을 알려주는 방법 외에 PPT를 활용한 방법을 제시해 드립니다. 큐맨이 등장해서 PPT 퀴즈 형식을 설명한 후, 힌트를 보여줍니다. 주제를 변경하실 때에는 PPT 수정이 가능하오니 원하시는 주제로 변경하여.
한국어 입문 韩国语入门.
Term Projects 다음에 주어진 2개중에서 한 개를 선택하여 문제를 해결하시오. 기한: 중간 보고서: 5/30 (5)
Excel 일차 강사 : 박영민.
Mobile braille system for the blind
USN(Ubiquitous Sensor Network)
컴퓨터 프로그래밍 기초 - 8th : 함수와 변수 / 배열 -
문자코드조사 -8조스토어 ●정성모 ●김대의 ●장인혁.
CAS (Computer Algebra System) 소개
한국어 교실 한국어 글자들 자음과 모음.
4장. 데이터 표현 방식의 이해. 4장. 데이터 표현 방식의 이해 4-1 컴퓨터의 데이터 표현 진법에 대한 이해 n 진수 표현 방식 : n개의 문자를 이용해서 데이터를 표현 그림 4-1.
(2) 국어의 음운 단모음과 이중모음 단모음 체계 자음 체계.
리더 : 이동주 스토리 : 김현 그래픽 : 최혁진 코딩 : 최재근
11장 배열 1. 배열이란? 1.1 배열의 개요 1.2 배열의 선언과 사용.
발표자 : 이지연 Programming Systems Lab.
나랏말싸미 발표 한글의 우수성 구성원: 김정하,공현규,김영빈,이상현.
Mr. Software engineering Project group 9.
Hyunsoon Cho-Min (Sunsangnim)
한국과학원(KAIS) 석사학위논문, 최광무
한국과학원(KAIS) 석사학위논문, 최광무
한국과학원(KAIS) 석사학위논문, 최광무
1장 C 언어의 개요 C 언어의 역사와 기원 C 언어의 특징 프로그램 과정 C 프로그램 구조 C 프로그램 예제.
07. DB 설계 명지대학교 ICT 융합대학 김정호.
김선균 컴퓨터 프로그래밍 기초 - 12th : 문자열 - 김선균
워드프로세서 실기 10일차 강 사 : 박영민.
9장. spss statistics 20의 데이터 변수계산
윈도우에서의 유니코드.
교착 상태 해결 : 교착 상태 탐지 교착 상태 탐지(Deadlock Detection)
7 생성자 함수.
Presentation transcript:

한글반포 562돌 기념 학술세미나 온누리 한글의 유니코드(Unicode) 적용방안 연구 일시 : 2008년 10월 9일 목요일, 한글날 오후 1시 장소 : 충남대학교 인문대학 문원강당 발표자 : www.kandroid.org 사이트 관리자, 양정수(들풀), yangjeongsoo@gmail.com 4341, 2552, 2008, 1387, 562 www.kandroid.org

한글 : 입력방식 (Input Automata 예:천지인) 온누리 한글의 세계화(?)와 관련된 몇 가지 이슈 목 차 문자집합과 인코딩, 유니코드 한글 코드 표준의 역사 유니코드와 한글 한글 : 폰트 파일과 글자모양 한글 : 입력방식 (Input Automata 예:천지인) 온누리 한글의 세계화(?)와 관련된 몇 가지 이슈

문자집합(Charset) 및 인코딩(Encoding), 유니코드(Unicode) 문자집합 (Character Set, Charset) 특정 언어를 표현하기 위해 사용되는 문자들의 집합 인코딩(Encoding) 특정한 문자집합들내의 문자를 컴퓨터에서 사용하기 위한 숫자로 변환하는 방법 유니코드란? 전세계에서 사용되는 문자 집합을 정의한 것으로 2008년 4월 4일 현재 Unicode 5.1 의 정의에 의해 약 100,000 문자이상을 포함하고 있음. 해당 문자집합을 표현하기 위한 인코딩 방법으로, UTF-8, UTF-16, UTF-32 를 사용함. UTF-8 : 1Byte ~ 4Byte의 가변길이로 유니코드상의 문자를 표현함. UTF-16 : 2Byte 또는 4Bypte의 가변길이로 유니코드상의 문자를 표현함. UTF-32 : 4Byte 고정길이로 유니코드상의 문자를 표현함.

한글 문자 인코딩의 역사 구 분 제/개정년도 내 용 KSC 5601 1974 초(15) 중(21) 종(21) : 한글자모 57자 기능문자 36자, 로마문자 96자, 보조부호계 KSC 5714 1977 한자 7,200자 ※ 82.4.23일 폐지, KSC 5601에 흡수 1982 자음(30), 모음(21) : 한글자모 51자 기능문자 34자, 도형문자(기호:32,숫자:10, 로마문자:5) KSC 5619 한글 1,316자, 한자 1,692자 1987 한글 2,350자, 한자 4,888자 ※ ISO 2022(완성형) 규격에 부합 KSC 5657 1989 한글 1,930자, 고어 1,673자, 한자 2856자, 기타 1,190자 ※ KSC 5601 규격의 확장 1992 초(19) 중(21) 종(27) : 한글자모 67자 ※ KSC 5601-1987 과 공동 표준 KSC 5700 1995 한글 11,172자, 한글자모 240자, KSC 5601의 94자모 ※ ISI 10646-1 수용 보다 자세한 내용을 원하시면 아래의 URL의 문서를 참고하시면 좋을 듯 합니다. http://register.itfind.or.kr/Report01/200302/IITA/IITA-0076/IITA-0076.pdf

유니코드(Unicode)와 한글 ※ http://www.unicode.org/Public/UNIDATA/Blocks.txt 내에 정의되어 있는 한글 영역은 아래와 같음. 코드영역 설 명 1100 ~ 11FF Hangul Jamo 초성(90개) / 중성(66개) / 종성(82개) : 240 자모 조합 가능한 한글의 총 글자 수 : 90 x 66 x (82+1{종성없음}) = 493,020자 3130 ~ 318F Hangul Compatibility Jamo 한글 자모만 별도로 입력할 때 사용되는 영역 AC00 ~ D7AF Hangul Syllables 한글 완성형 11,172자에 대한 정의 영역 FF00 ~ FFEF Halfwidth and Fullwidth Forms 한글 반각 자모 E000 ~ F8FF Private Use Area (6,400자까지 사용가능) 한글 폰트 새굴림체에서 일부 고어를 이 영역을 통해 사용함. http://www.kandroid.org/s2/hangul/old_han.html F0000 ~ FFFFF Supplementary Private Use Area-A (65,535자까지 사용가능) 100000 ~ 10FFFF Supplementary Private Use Area-B (65,535자까지 사용가능)

한글 : 폰트 파일(Font File)과 글자모양 (Glyph) ※ 아래의 그림은 화살표 연결방향순서로, 폰트파일 / Glyph / Glyph 내 곡선 표현법에 대한 기초상식임.

한글 : 입력방식 (Input Automata : 예 - 천지인 초성, “ㅃ”) 초성 상태 변환 단계 : ㅂ → ㅍ → ㅃ q0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 ㄱ ㄲ ㄴ ㄷ ㄸ ㄹ ㅁ ㅂ ㅃ ㅅ ㅆ ㅇ ㅈ ㅉ ㅊ ㅋ ㅌ ㅍ ㅎ 1 3 2 1 2 3

한글 : 입력방식 (Input Automata : 예 - 천지인 중성, “ㅑ”) 중성 상태 변환 단계 : ㅣ → ㅏ → ㅑ q0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 ㆍ ㆍ ㆍ ㅏ ㅐ ㅑ ㅒ ㅓ ㅔ ㅕ ㅖ ㅗ ㅘ ㅙ ㅚ ㅛ ㅜ ㅝ ㅞ ㅟ ㅠ ㅡ ㅢ ㅣ 천(ㆍ) 지(ㅡ) 인(ㅣ) ti bs f1 2 3 1 3 2 1 ti : Timer Interval bs : back space f1: delete previous char others : input char state 그대로 반영

한글 : 입력방식 (Input Automata : 예 - 천지인 종성, “ㄻ”) 종성 상태 변환 단계 : ㄴ → ㄹ → ㄹ(ㅇ) → ㄻ q0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 생 략 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 ㄱ ㄲ ㄳ ㄴ ㄵ ㄶ ㄷ ㄹ ㄺ ㄻ ㄼ ㄽ ㄾ ㄿ ㅀ ㅁ ㅂ ㅄ ㅎ x/ㄸ x/ㅃ ㄱ/ㅎ ㄱ/ㅆ ㄴ/ㅅ ㄴ/ㅊ ㄴ/ㅉ ㄹ/ㅋ ㄹ/ㄲ ㄹ/ㅃ ㄹ/ㅆ ㅂ/ㅎ ㅂ/ㅆ x/ㅉ ㄹ/ㅇ ㄹ/ㄷ ㄹ/ㄸ ㄴ/ㅆ 24 25 26 ㅅ 19 20 ㅈ 22 ㅇ 21 1 2 4 3 1 2 3 4

온누리 한글의 세계화(?)와 관련된 몇 가지 이슈 이슈 1) 세계 표준인 Unicode에 온누리 한글에서 정의한 문자집합을 표현할 방법은 무엇인가? → 유니코스상에서 온누리 한글에 대한 영역을 확보하는 것은 전혀 불가능하다고는 할 수는 없으나, 단기적으로는 불가능할 것으로 보임. 그러므로 가급적 기존의 Unicode 한글 영역 및 Private 영역을 활용하는 것이 최선의 방식으로 보임. 이슈 2) 온누리 한글에서 정의한 문자집합에 포함된 글자모양을 가진 폰트 파일 제작은 가능한가? → 이슈 1)과 관련하여 Unicode 상에서 온누리 한글 코드 영역을 확보하는 것이 어려울 경우, 해법은 한글 자모의 확장 + 온누리 한글을 위한 인코딩 방식(?) + 온누리 한글 전용 폰트가 결합된 구조에서 나올 수 있을 것으로 보임. 이 경우, 온누리 한글 전용폰트 제작 방법이 요구됨. 이슈 3) 온누리 한글의 입력을 위한 입력환경 제공은 가능한가? → 이슈1)과 이슈2)가 해결되었다 하더라도, 온누리 한글 입력기 제작을 위한 온누리 한글 입력 Automata에 대한 정의가 필요함.

온누리 한글의 세계화(?)와 관련 : 이슈 1) 참고 온누리 한글의 세계화(?)와 관련 : 이슈 1) 참고 현재의 완성형 한글 구성에 사용된 한글 자모 ☞ 초(19) x 중(21) x 종(27 + 1{종성없음}) = 11,172자 Unicode 한글 자모 영역에 등록된 한글 자모 ☞ 초(90) x 중(66) x 종(82 + 1{종성없음}) = 493,020자 Unicode 상의 한글 자모 추가 지정 가능 수 ☞ 초성:5자, 중성:5자, 종성 6자 온누리 한글에서 요구되는 한글 자모에 대한 정리가 요구됨.

온누리 한글의 세계화(?)와 관련 : 이슈 2) 참고 온누리 한글의 세계화(?)와 관련 : 이슈 2) 참고 ☞ 만약, 온누리 한글에서 신규로 요구되는 한글 (즉, 기존의 11,172자 이외의 한글) 이 6,400자 미만이라면, 좌측 유니코드 1번 코드영역을 활용하는 것이 가장 바람직할 것으로 생각됨. ☞ 추가로 요구되는 글자수가 더 필요로 하다면, 좌측 유니코드 2번 및 3번 코드영역도 사용해 볼 수 있을 것으로 보임. 물론 2번과 3번 영역의 합계인, 130,000여자로 국한되어야 할 것으로 보임. ☞ 만약 6,400 + 130,000 여 문자 이상의 수가 요구 된다면, 새로운 방법이 요구될 것임. 왜냐하면, Unicode에서 한글을 위해 그와 같이 많은 영역을 할당해 줄 가능성이 없을 것임. ☞ 위와 같은 방식으로 온누리 한글을 위한 코드영역을 할당하였다고 하더라도, 해당 글자의 모양(Glyph)을 포함하는 폰트를 제작하지 않는다면, 실질적으로 사용 할 수 있는 방법이 존재하지 않음. ☞ 폰트 제작방법은, 해당 글자의 모든 모양을 앞서서 예시로 보여주었던 ‘가’자와 같이 컴퓨터 그래픽을 통해 제작하여야 함. 코드영역 설 명 1100 ~ 11FF 3130 ~ 318F AC00 ~ D7AF Hangul Syllables 한글 완성형 11,172자 정의 영역 FF00 ~ FFEF E000 ~ F8FF Private Use Area (6,400자까지 사용가능) F0000 ~ FFFFF Supplementary Private Use Area-A (65,535자까지 사용가능) 100000 ~ 10FFFF Supplementary Private Use Area-B (65,535자까지 사용가능) 1 2 3 위에서 보여지고 있는 “한글 조합형 벡터 폰트”란 글자는, 개별 글자를 벡터폰트로 제작한 방식이 아니라, 한글 자모만을 벡터기반으로 제작한 후, 자모의 결합구조를 수학적으로 계산한 방식임. 이 방식이, 온누리 한글에 적합한 폰트 제작 방식일 수도 있음.

온누리 한글의 세계화(?)와 관련 : 이슈 3) 참고 온누리 한글의 세계화(?)와 관련 : 이슈 3) 참고 앞선 이슈 1, 이슈 2를 해결했다고 하더라도, 온누리 한글을 효과적으로 사용하기 위해서는 적절한 입력 방식이 요구될 것임. 기본적으로는 일반 데스크탑 키보드와 휴대폰의 키패드 정도의 입력구조를 지원하는 것이 바람직 할 것임. 해당 입력을 지원하기 위한 Input Automata는 이 장에서 다루기에는 아직 부족한 상황이나 꼭 필요한 항목임에는 틀림없음. 더불어, 온누리 한글에서 한글 고어중 어떤 자모를 복원할 것인가를 선택함에 있어서 Input Automata를 고려할 수 있다면, 보다 편리한 입력기를 만들 수도 있을 것으로 보임.

www.kandroid.org