Presentation is loading. Please wait.

Presentation is loading. Please wait.

7장 텍스트의 처리 7.1. 자연어 처리의 개요 자연어 처리의 중요성 자연어 처리의 기반 기술

Similar presentations


Presentation on theme: "7장 텍스트의 처리 7.1. 자연어 처리의 개요 자연어 처리의 중요성 자연어 처리의 기반 기술"— Presentation transcript:

1 7장 텍스트의 처리 7.1. 자연어 처리의 개요 7.1.1. 자연어 처리의 중요성 7.1.2. 자연어 처리의 기반 기술
7.2. 자연어 처리의 활용 분야 문서처리 문자인식 정보검색 기계번역

2 개 요 앞 장에서 문서 편집기의 고급 기능에 대해 다루어 보았다. 이러한 기능을 구현하기 위해 사용되는 기반 기술이 자연어 처리(NLP: Natural Language Processing)이다. 자연어 처리 기술이 실용화 되어 광범위하게 실생활에 사용되고 있는 분야가 EDMS(Electronic Document Management System), 문자인식, 정보 검색, 기계번역 본 장이 자연어 처리 기술이 터미네이터(Terminator), AI(Artificial Intelligence) 영화 등에 나오는 지능형 로봇을 만드는 데 피해갈 수 없는 핵심 기술이라는 점을 이해하는 길목이 될 것이다.

3 자연어 처리의 개요 자연어 처리는 컴퓨터가 한국어, 영어, 일어와 같이 사람이 사용하는 자연어를 처리, 이해, 생성시킬 수 있도록 컴퓨터에게 사람의 언어 능력을 부여하고자 하는 분야이다. 자연어 처리는 주로 텍스트 처리를 다루며 이는 크게 텍스트 이해와 텍스트 생성으로 분류된다. 이와 밀접하게 관련된 분야로 음성 처리는 크게 음성 인식과 음성 합성으로 분류된다. 앞 장에서 다룬 문서 편집기의 기능 중 맞춤법 검사, 띄어쓰기 검사, 문법 검사, 문장 난이도 검사, 문서 자동 요약 등은 자연어 처리의 영역으로 고차원적인 텍스트 처리이다.

4 자연어 처리의 중요성 인터넷을 통한 정보 유통 혁명은 정보 과부하라는 문제를 야기시켰다. 그리고 인터넷을 통해 급속히 세계화가 추진됨에 따라 국가간에 언어장벽을 제거해야 할 필요성이 커졌다. 그래서 기계번역과 다국어 정보검색이 필요하게 되었고, 인터넷 상의 정보를 효율적으로 제어할 필요성이 커졌다. 특히 인터넷을 통한 포르노와 유언비어, 스팸(spam) 메일 유포 등이 현재 부각되고 있는 시급한 문제이며 이와 더불어 사생활 보호와 정보유통의 자유를 함께 보장할 수 있는 방법이 필요해졌다. 2003년도에 EU는 공식 문서만 130만 페이지를 번역하였다. 이를 위해 번역 전문가 4천명이 동원되었고 10억 유로라는 비용이 소요되었다. 또한 문서에 있는 오류를 컴퓨터가 자동으로 교정하고, 불필요하거나 중복된 내용을 제거하는 기술이 매우 시급해졌다.

5 기계학습(Machine Learning)
지능과 밀접히 관계된 것이 학습이다. 사실상 지능은 배우는 능력 없이는 존재할 수가 없다. 왜냐하면 학습은 새로운 지식을 습득하는 도구이기 때문이다. 학습을 통해 새로운 상황과 사건에 적응하고 대처할 수 있다. 많은 프로그래머들이 사람이 하는 것과 비슷한 방식으로 이 도구를 사용할 수 있는 프로그램을 만들고 싶어하는 것은 놀라운 일이 아니다. 이를 할 수 있는 프로그램은 단지 배움으로써 스스로 여러 가지 일을 수행하도록 할 수 있다.

6 언어처리 시스템, 자연어 처리 응용시스템, 인터넷 응용 시스템의 구조와 관계

7 자연어 처리의 기반 기술 예문: 철수는 그녀를 소녀로 생각했다.

8 형태소 분석 기술

9 구문 분석 기술

10 의미 분석 기술

11 화용 분석 기술

12 구문, 의미, 화용 분석에 대한 진리값

13 의미분석과 화용분석 의미분석에 사용되는 지식은 상황에 영향을 받지 않는 반면에 화용분석에 사용되는 지식은 주어진 상황에 영향을 받는다. 영향을 받는다는 것은 상황에 따라 그 문장의 진리값이 바뀔 수 있다는 것이다. 주어진 상황이란 시대, 국가, 지역, 계절, 장소, 시간 등이 될 수 있다. 예를 들어 과거 어느 시점에는 큰 꽃이 비쌌었는데 현재는 큰 꽃이 쌀 수 있다는 것이다.

14 자연어 처리의 활용 분야 문서처리 문자인식 정보검색 기계번역

15 문서작성 지원 시스템 문서작성 지원 시스템은 한국어 철자 검사 및 교정 시스템을 포함하고, 동의어, 반의어 및 순화용어의 제공, 단어의 사용 빈도나 난이도에 대한 정보제공, 단어의 사용 용례 제공, 구두점의 사용 적합성에 대한 정보 제공, 한글-한자 변환 등 문서 작성을 도와주는 포괄적 시스템이다.

16 문서 자동 요약 정보의 폭발로 접근 가능한 정보가 과잉 되는 것이 심각한 문제가 되었다. 모든 것을 읽을 시간은 없지만 이용 가능한 모든 정보를 근거로 의사 결정을 내려야 주어진 상황에서 최적의 선택을 할 수 있다. 자동 텍스트 요약은 이 문제를 해결하기 위해 필수 불가결하다. 자동요약은 정보공학의 여러 요소 기술들을 차용하여 구현되고 있다. 간단한 빈도 및 키워드 추출을 통한 중요 어구 분석에서 정보검색, 자연어 처리, 학습이론 등의 기법들이 사용되고 있다.

17 EDMS 구조화되지 않은 기업의 소중한 자원인 문서를 관리하는 것이 EDMS(Electronic Document Management System: 전자 문서 관리 시스템)이다.

18 문자인식 OCR(Optical Character Reader) 즉 문자인식 소프트웨어는 책, 잡지, 신문과 같이 인쇄된 자료들을 사람이 직접 키보드를 통해 입력하지 않고 스캐너를 통해 이미지 형태로 읽어 들인다. 문자인식 소프트웨어는 그 이미지 데이터의 내용을 분석하여 그림 영역과 글자 영역으로 구분한 후 글자 영역의 문자들은 일반 문서편집기에서 편집할 수 있도록 텍스트의 형태로 변환해 준다.

19 OCR 소프트웨어 실습 p.140

20 정보검색 (Information Retrieval)
데이터베이스 시스템처럼 특정 속성 값을 만족시키는 데이터를 찾는 것이 아니라, 자연어로 구성된 문서의 내용이 이용자의 정보요구와 얼마나 유사한가를 계산하여 그 값이 높은 순서로 문서를 검색해 주는 것이다

21 자동 색인 색인 작업(indexing)이란 어떤 문서에 대해 그 문서의 전체적 내용을 나타내거나, 그 문서를 다른 문서들과 구별할 수 있도록 그 문서의 선택 단서가 되는 단어 또는 구 등을 추출하는 것을 말한다. 종래에는 도서관이나 정보 관리 부서에서 잘 훈련된 사서에 의해 색인이 수행되었다. 그러나 방대한 양의 문서를 대상으로 주어진 시간 내에 색인할 수 있는 문서의 수에는 한계가 있으므로 오늘날과 같은 인터넷 시대에는 사서에 의한 수동 색인은 적합하지 않다. 이러한 문제를 극복하기 위해 대상 문서로부터 정보검색 시스템에 유용한 문헌의 주제어나 핵심어를 자연어 처리 기술을 사용하여 컴퓨터가 자동으로 찾아내는 것을 자동색인(Automatic Indexing)이라고 한다.

22 MS Word의 색인 기능

23 자연어 검색엔진 컴퓨터학이 해결해야 할 마지막 책무는 인간을 가장 잘 이해하는 컴퓨터를 만드는 것이다. 컴퓨터의 기억 용량과 연산 능력은 이미 오래 전에 인간의 능력을 넘어섰다. 따라서 단순한 기억이나 연산뿐 아니라 컴퓨터가 인간처럼 스스로의 사고력을 바탕으로 문제 해결 능력을 갖도록 하는 것이 궁극적인 과제로 떠오르고 있다. 이런 목표를 이루기 위한 첫 작업이 바로 '사이버네틱스(Cybernetics)'라고도 불리는 '인공 지능'을 연구하는 학문이다. 인공지능은 인간의 뇌와 가장 유사한 컴퓨터를 만드는 것이다. 사람과 가장 가까운 컴퓨터란 사람과 커뮤니케이션이 가능한 컴퓨터이다. 사람과의 의사소통을 위해서는 무엇보다 사람이 사용하는 언어를 컴퓨터도 똑같이 이해해야만 하는데 이것을 연구하는 학문이 바로 '자연어 처리'이다.

24 텍스트 마이닝 텍스트 마이닝은 데이터 마이닝(data mining)에 기초하고 있지만 이보다 정보 검색 능력이 훨씬 우수하다.
이는 데이터 마이닝이 제품 재고, 고객 분석 같은 구조적 데이터베이스의 정보만을 불러들이는 반면 텍스트 마이닝은 전자메일 메시지, 신문기사, 내부 보고서 같은 비구조적 문서에서도 작동이 가능하기 때문에 영향력과 파급력이 훨씬 크다.

25 데이터 마이닝(Data Mining) 데이터베이스에서 지식을 발견한다는 의미로 달리 KDD(knowledge-discovery in databases)라고도 불리는 데이터 마이닝(data mining)은 대규모로 저장된 데이터 속에서 특정 패턴(patterns)을 자동적으로 찾고자 하는 노력을 말한다. 이를 위해서, 데이터 마이닝은 통계학에서 패턴 인식(pattern recognition)에 이르는 다양한 계량 기법을 사용한다.

26 기계번역 기계번역(Machine Translation)은 컴퓨터를 이용하여 한 언어로부터 다른 언어로 문서를 번역하는 것으로 번역작업의 주체는 ‘번역 소프트웨어’이다. 자연어 처리 기술에 기반한 기계번역 기술은 자연어 처리 응용소프트웨어의 꽃이라고 할 수 있다. 최근에는 모든 번역을 컴퓨터에 의존한 자동 번역에서, 대용량 번역 말뭉치(corpus) 등을 이용하는 TM(Translation Memory)과 이를 이용하는 CAT(Computer Aided Translation) 시스템으로 전환되고 있다 현재 국내 자동번역 기술은 일본어-한국어의 경우 80%, 영어-한국어의 경우 50% 정도의 정확률을 나타내고 있다.

27 트랜스위즈 번역서비스

28 번역 속도와 번역의 질 숙련된 전문 번역가의 경우 하루에 번역할 수 있는 양은 대략 A4 용지 20장 정도라고 한다. 자동번역 소프트웨어가 이 분량을 처리하는 데는 1분도 걸리지 않는다. 물론 번역의 질은 사람의 번역보다 저급하지만 양적 면에서는 사람의 번역과는 비교할 수 없을 정도로 빠르다는 점에 그 활용 가치를 두어야 한다. 즉 이메일( ), 웹 사이트 등과 같이 번역 대상의 내용을 신속히 파악하기 위한 용도로 적합하다.

29 기계번역의 활용 방법 자동번역은 비록 품질은 낮지만 시간, 비용, 생산성 측면에서 인간의 번역보다 월등하기 때문에 그 효용 가치가 있다. 그리고 자동번역은 번역자의 판단이 개입되지 않기 때문에 원문의 내용을 하나도 빠짐없이 객관적으로 전달할 수 있다는 장점이 있다. 이러한 유용성을 염두에 둘 때 자동번역의 결과는 크게 두 가지 방향으로 활용될 수 있다. 하나는 저품질 상태를 최종 번역으로 사용하는 것이고, 다른 하나는 일차번역으로 간주하여 전문가가 이를 교정하는 것이다.

30 인가이드 예

31 번역지원 소프트웨어 대부분의 일반 사용자는 자동 번역 기능을 필요로 하나 전문 번역가는 자동 번역보다는 기존에 번역해 두었던 원문과 번역문을 함께 검색해 주는 기능을 필요로 한다. 이러한 기능을 수행해 주는 번역지원 소프트웨어(CAT: Computer Aided Translation)는 전문 번역가를 위한 번역 지원도구이다.

32 번역 지원 소프트웨어의 사용 효과

33 맺는말 멀티미디어 구성 요소 중 인간을 제외한 다른 동물들이 처리할 수 없는 유일한 미디어가 텍스트이다. 텍스트는 언어 능력의 일부이며 인간만이 언어처리 능력을 가지고 있기 때문이다. 이것은 텍스트 처리가 고도의 지능을 필요로 하는 작업이라는 것을 의미한다. 다른 멀티미디어 구성요소들은 국가간 장애 요소가 없다. 즉 만국 공통적인 미디어라는 뜻이다. 그러나 텍스트와 같은 언어 처리는 같은 언어를 공유하는 국가가 아닌 한 국가간 장벽이 있다. 이를 달리 표현하면 다른 미디어 처리 기술들은 하나의 기술이 세계 1위로 표준화 되어 세계를 제패할 수 있는 반면 언어처리 기술은 각 언어마다 세계 1위가 존재할 수 있다는 것이다. 이는 세계화, 지구촌 시대에 생존과 경쟁력 측면에서 매우 중요한 문제이다. ‘국내에서 한국어 처리 기술의 1위는 세계 1위와 같다.’ 그러나 이 문장은 화용분석 측면에서 현재는 참인 문장이나 이 분야의 기술 개발을 태만히 할 때 언제 거짓 문장으로 바뀔지 모른다. 자연어 처리 기술은 미래 과학 기술의 총아이며 국가 경쟁력을 좌우하게 될 것이다. 이 기술을 확실히 완성시킨 국가는 지금의 핵무기를 보유하고 우주를 자유로이 탐험하는 국가와 같은 위상을 갖게 될 것이다.


Download ppt "7장 텍스트의 처리 7.1. 자연어 처리의 개요 자연어 처리의 중요성 자연어 처리의 기반 기술"

Similar presentations


Ads by Google