텍스트 분석 색인 작성 행렬 모델 용어 추출 및 분석 어휘 척도 문헌 유사도 어휘 통제 분석
텍스트 분석 및 색인 텍스트 분석 색인 : 문헌분석을 통한 생산된 문헌 대리자의 일종 색인의 목적 텍스트 문헌의 전문에 대한 데이터베이스 표현의 어려움 효율적인 문헌 검색 문헌 대리자 생성 ← 문헌의 원문 분석 작업 색인 : 문헌분석을 통한 생산된 문헌 대리자의 일종 문헌내에서의 선정된 용어 + 용어의 위치 빈도 수치, 관련 수학법칙, 저자 인용사항 등 다양한 형태로 구성 색인의 목적 주제에 의해 문헌의 소재를 쉽게 검색 주제영역을 정의함으로 문헌간의 연계가능 주어진 문헌의 적합성 여부 예측 가능 모든 문헌이 색인을 갖는가 ? 일반적인 전문 서적류 : 색인 있음. 소설, 희곡, 논문 등은 색인 없음
색인(Index) - 1 색인언어 특성 색인 작성(indexing) 망라성 (exhaustivity) 색인 용어(index term)가 갖는 범위의 포괄성 : 문헌의 주제와 개념의 포괄 정도 특정성 (specificity) 색인 용어의 깊이를 의미 : 문헌 주제 표현의 상세 정도 색인 작성(indexing) 하나의 문헌에 색인 용어를 할당하는 작업 색인 작성 방식 수작업 방식 : 문헌 작성자 또는 전문적인 색인 작성자가 생성 자동 생성 방식 : 색인 용어 결정 알고리즘에 의해 생성 통제된(controlled) 색인언어 또는 통제되지 않은(uncontrolled) 색인언어
색인(Index) - 2 색인 작성을 위한 전처리 단계 문 헌 액센트, 띄어쓰기 구조 인식 불용어 명사 집합 스테밍 색인 생성 텍스트 + 구조 텍스트 전문 색인어
수작업 색인 수작업 색인작성 +. 문헌을 표현하는 것에 대한 융통성 부여 색인언어를 직접 사람이 가공 특성 −. 일관성 결여 : 다양한 수준의 망라성과 특정성 −. 자신의 견해에 대한 편견 개입 −. 색인작성자와 사용자 사이의 불일치 : 용어 개념 차이 동일 문헌에 대한 색인 작성자들간의 결과 일치율 : 20% 대처 방안 : 통제된 어휘 사용 유도 색인작성자 및 사용자 : 공통의 용어 집단 사용 문헌 내용 표현의 어려움 존재
자동 색인 자동 색인작성 색인용어의 결정 과정에서 알고리즘 사용 특성 +. 수작업 색인작성자의 편견 개입을 배제 −. 알고리즘 개발자의 편견이 여전히 존재 자동 색인 작성 알고리즘 문헌내에 등장하는 단어의 출현 빈도 기반 의미단어와 무의미 단어로 구분 의미 단어에 대한 문헌 출현 빈도수 산정 중요성이 높은 대표 색인 : 출현빈도수(특정 용어) >> 평균빈도수(전체 용어)
색인 - 상호 참조 색인 엔트리(entry) 상호 참조 (cross referencing) 핵심 명사 기반의 엔트리 정의 : “Digital Computer”에 대한 색인 → “Computer, Digital” 상호 참조 (cross referencing) 색인 언어가 갖는 연결(links)과 역할(roles)의 개념 색인 용어에 대한 유용성을 강화 상호 참조 색인의 유형들 유 형 형 태 예 제 통제 용어 See coal, see fuel 관련 용어 See also microcomputer, see also personal comp. 광의 용어 Broader term (BT) poodle, BT dog 협의 용어 Narrower term (NT) dog, NT poodle, pointer, spaniel
행렬모형(1) 문헌과 용어 또는 이들간의 관계를 표현하기 위한 방법 행렬 모형 행렬 모형 종류 3 가지 행렬을 사용하여 용어와 문헌 사이의 관계 규명 행 객체와 열 객체 사이의 관계를 계량화 행렬 모형 종류 용어-문헌 행렬 ‘A’ 행은 어휘 용어, 열은 문헌을 표시하는 모형 ex) Aij = 0 : i번째 용어가 j번째 문헌에 출현하지 않음. 용어-용어 행렬 ‘T’ 행과 열 모두 어휘 용어를 표시하는 정방형의 모형 ex) Tij ≠ 0 : i번째 용어와 j번째 용어가 어떤 문헌에 동시에 출현 하거나, 두 용어 사이에 특정 관계가 있음
행렬모형(2) 행렬 모형 종류 (계속) 문헌-문헌 행렬 ‘D’ 행과 열 모두 문헌을 표시하는 모형 ex) Dij ≠ 0 : 해당 문헌들이 어떤 용어를 공통으로 포함하고 있거나, 해당 문헌들이 동일 저자에 의해 생산되었을 때와 같이 문헌들 사이에 특정한 관계가 있음 1 행렬 모형의 단점 - 계량화의 어려움 : 방대한 행렬 크기 - 예제 : 5만개 어휘를 가진 3백만권 장서 : A 행렬 = 15 X 1010 개의 Cells : T 행렬 = 25 X 108 개의 Cells : D 행렬 = 9 X 1012 개의 Cells → 대체 모형 사용 : 용어리스트 , 문헌리스트 <행렬 모형 예제>
용어의 추출과 분석 (1) 색인용어를 결정하는 관점 문헌의 한 두 번 나오는 용어는 부적합 예) 서문, 요약, 결론 등 ? 출현빈도가 높은 용어는 부적합 일상적인 용어는 문헌의 주제와 특별한 관련이 없다 예) 그러나, 그리고, and , or , the 출현빈도가 거의 사용되지 않는 용어는 부적합 문헌의 한 두 번 나오는 용어는 부적합 예) 서문, 요약, 결론 등 일반적으로 위의 두 경우 사이에 나오는 용어를 색인용어로 고려 ?
용어의 추출과 분석 (2) Zipf 의 법칙 순위 * 출현 빈도 = 상수 가장 흔히 등장하는 20%의 단어들이 문헌 전체 용어의 70%를 구성 쓰이는 횟수가 매우 드문 희귀한 단어들 역시 일반적인 문서 구분에는 도움이 안됨 이 부분은 문서에 너무 많이 등장하기 때문에 문서들을 구분하고 대표하는 데 별 의미가 없음
용어 관계 색인용어 추출 시, 용어들 사이의 관계 고려하여 색인어로 선정 용어 사이의 근접성 추출된 용어와 문헌 그룹과의 관계 단어 사이의 근접도를 시스템 설계에 활용 ex) the felon’s information assured retrieval of the money information과 retrieval은 동일 문장에서 사용되었지만 ‘information retrieval’이 갖는 의미와는 다름 근접도 측정 방법 두 단어 사이에 끼어 있는 단어의 수 동일 문장에 나타나는 단어들의 근접도를 높게 고려 단어의 순서, 구두점(쉼표) 추출된 용어와 문헌 그룹과의 관계 Digital Computer : (?) 의학문헌, 음학문헌, 전산 문헌, 철학문헌 the felon’s information assured retrieval of the money : 악당에 대한 정보는 돈의 추적에서 확인되었다.
용어의 중요성 판단을 위한 어휘 척도 문헌 분석 : 용어의 출현 빈도에 기초 절대용어빈도 (absolute term frequency) 용어가 출현된 절대적인 빈도수를 기준 문헌 크기에 따라 출현 빈도가 동일한 용어의 상대적 중요도는 다름 ex) 100 단어로 구성된 문헌에서 10번 출현하는 용어가 10,000단어로 구성된 문헌에서도 10번 출현하는 경우 상대용어빈도 (relative term frequency) 문헌과 문헌집단의 크기와 특성을 고려하여 용어의 출현빈도 측정 개별 문헌에서의 용어의 순수 출현빈도를 문헌의 길이로 나눔 문헌 집합에서의 상대용어 빈도 산출 (특정단어의 출현빈도 / 모든 단어 수) for di D (특정단어가 출현하는 문헌수 / 문헌집합의 전체 문헌수)
어휘척도 1 - 역문헌빈도 가중치(1) 역문헌빈도 가중치(inverse document frequency weight) 개별 문헌의 관점이 아닌 문헌 집단의 관점에서 출현 빈도 고려 한 문헌에서 어떤 용어의 출현빈도를 산출할 때 그 용어를 포함하고 있는 집합내의 문헌의 수에 의거하여 가중치를 부여 문헌 집단의 다수의 문헌에 출현하는 용어 개별 문헌 식별성이 떨어짐 → 낮은 가중치 부여 역문헌 빈도(idf) 산출 공식 N : 문헌집단에 포함된 문헌의 총 수 dk : 용어 k를 포함하고 있는 문헌의 수 fik : 문헌 i에서 용어 k의 절대 빈도 wik : 문헌 i에서 용어 k의 가중치 idf 공식에서 dk 값이 증가하면 idf 값은 감소 - N/dk : 주어진 용어를 포함하는 문헌들이 문헌집합을 구성하는 비율
어휘척도 1 - 역문헌빈도 가중치(2) 역문헌 빈도 가중치 문헌 i에서 용어 k의 역문헌빈도 가중치 , Wik = 역문헌빈도(idf) X 용어빈도(tf), 즉 한 문헌에서 특정 용어의 중요도(역문헌 빈도 가중치) 문헌 내에서 : 해당 용어의 출현 빈도에 따라 증가 문헌집합에서 : 해당 용어를 포함하는 문헌의 수에 따라 감소
어휘척도 2 - 신호 대 잡음 비율(1) 정보이론을 이용한 용어의 가치 측정 기본 개념 주어진 신호 혹은 일련의 단어들에 포함된 정보량(information content)에 대한 정의 정보량 H의 기본 가정 Pi(i=1,…,n) : i 번째 단어가 대상 단어 집합에서 선택될 확률 (1) 정보량 H는 Pi가 아주 미세하게 변할 때, 그만큼만 변한다. (2) 모든 Pi가 동일하다면(즉, Pi = 1/n), H는 메시지의 숫자인 n이 증가함에 따라 증가 정보량 H는 선택 가능한 메시지의 수가 많을수록 커짐. (3) 하나의 작업이 두 개의 연속적인 작업으로 분리된다면, 최초 H는 분리된 두 과정에서 나타나는 결과(정보량)의 합
어휘척도 2 - 신호 대 잡음 비율(2) 정보량 H 함수 K: 양의 값을 갖는 스케일링 상수 pi : 어떤 텍스트에서 각 심볼이 출현할 확률 예제 3 메시지의 확률 : P1=1/2, P2=1/3, P3=1/6 H(1/2, 1/3, 1/6) Where, K=1 보다 빈번히 등장 하는 단어일수록 (즉, 확률 Pi값이 클수록) 그 단어가 내포하는 정보량은 적다.
어휘척도 3 - 용어의 문헌 식별 값 (1) 용어의 문헌 식별 값(Term discrimination value) 색인용어는 문헌을 두 개의 집합으로 분리하는 수단 검색될 문헌집합, 검색되지 않을 문헌집합 용어의 문헌 식별 값 하나의 용어가 서로 유사한 문헌들을 다른 문헌집단으로부터 분리해 낼 수 있는 측도 특정한 단어가 한 문헌집단 속에서 상호 관련 없는 문헌들을 분리시키는 능력을 측정한 것 두 문헌 사이의 유사성()을 이용하여 정의됨 두 문헌 간의 유사성은 그 문헌들이 포함한 주요 용어를 비교하여 평가 (D1, D2) = 1에 가까우면 : 두 문헌의 주요 용어가 (거의) 동일함 (D1, D2) = 0에 가까우면 : 두 문헌의 주요 용어가 서로 다름 문헌 간의 유사도는 5.7절에서 자세히 소개됨
어휘척도 3 - 용어의 문헌 식별 값 (2) 용어의 문헌 식별 특정한 단어의 문헌 분리 “좋은 색인어는 문헌집단을 구성하는 문헌들 가운데 서로 주제가 다른 문헌들을 가능한 분리시키며 나쁜 색인어는 반대로 이러한 문헌들을 무리 짓는다.” 특정한 단어의 문헌 분리 단어가 색인어로 부여되기 이전과 부여된 이후의 문헌간의 평균유사도의 차이를 측정 좋은 색인어는 이 색인어를 문헌집단에서 제거했을 때 문헌간의 평균 유사도를 증가 시킴. 색인어 부여 전의 문헌집단 색인어 부여 후의 문헌집단 관련문헌 비 관련문헌
어휘척도 3 - 용어의 문헌 식별 값 (1) 용어의 문헌 식별 값(Term discrimination value) (계속) 문헌 식별값 계산 방법 문헌 집단내의 모든 문헌들의 평균 유사도 : D*는 중심문헌 (또는 임의의 다른 문헌) 용어 k를 제외했을 때의 평균 유사도 : 용어 k에 대한 식별값 : 문헌 식별 값을 이용한 용어 가중치 정의
어휘척도 4 - 구와 근접도 (1) 구의 출현 빈도 및 가중치 구의 출현빈도(phrase frequency)나 가중치 계산 개별 단어 산출 방법과 동일 구(phrase)의 고유 출현빈도 구성 단어의 출현 빈도보다 낮기 때문에 다른 방식 사용 예제 : information 172번, retrieval 67번 출현 : freq (information retrieval) 67번 구의 가중치 부여 문헌에서 information 만 나오는 경우 : 가중치 1 문헌에서 retrieval만 나오는 경우 : 가중치 2 문헌에서 information retrieval이 나오는 경우 : 가중치 3
어휘척도 4 - 구와 근접도 (2) 구와 근접도 구는 다양한 형태로 존재 가능 Information retrieval, information storage and retrieval, retrieval of information, … 단어간의 근접도를 이용하여 구에 대한 처리 가능 근접도가 높은 경우 구를 색인어로 선정 가능 예제 : 두 단어간의 근접도가 2이하인 경우 Information retrieval Information storage and retrieval Retrieval of information 3가지 경우가 모두 선택 가능
어휘척도 5 – 그 밖의 방법들 실용적인 인자(Pragmatic factors) 어휘척도 5 – 그 밖의 방법들 실용적인 인자(Pragmatic factors) 키워드(색인 용어)외에, 데이터베이스 검색이나 정보검색 과정에서 나타나는 특징으로부터 추출된 실용적인 요소들을 정보 검색에 활용 가능함 트리거 구 문헌이 포함하고 있는 정보의 명확한 특징을 나타내 주는 구를 이용 ex) ‘결론’이나 ‘발견’과 같이 해당 문헌의 중심 내용과 아이디어를 제시한 구 트리거 구는 종종 색인 용어로는 포함될 수 없으나, 검색에 유용하게 활용 가능함 문헌의 ‘소스(출처)’ 예) 어떤 저자가 특정 분야의 leader일 경우 그사람의 문헌에 특별한 가중치 부여 검색 시스템 사용자의 배경/특징 예) 사용자가 고등학생인가? 아니면 박사학이 소지자인가?
문헌유사도 (1) 유사도(similarity) 측정 목적 유사문헌 검색 지원 유사도 측정법 질의를 통해 표출된 정보요구에 유사한 내용을 가진 문헌을 검색 유사한 문헌들을 클러스터링/분류 유사문헌 검색 지원 목록이나 색인의 작성자들은 문헌집단을 조직할 때 유사 문헌들을 한데 묶어줌으로써 최소한의노력으로 문헌그룹 검색 유사도 측정법 어휘 중심의 측정 1) 특정 용어의 존재 유무만을 기본으로 하는 측정법 2) 출현빈도를 기본으로 하는 측정법 기타 측정법 용어에 대한 중요성을 고려한 측정 구(phrase) 및 단어 근접도를 고려한 유사도 측정 어간법, 시소러스 등을 이용한 두 문헌간의 유사성 파악
문헌유사도(2) 문헌의 기본적인 벡터 표현 용어 존재 여부만 고려한 문헌 유사도 D = <t1,t2, … , tN>, where ti=0 or 1 (용어 존재 유무만 고려할 경우) or 출현 회수/가중치 용어 존재 여부만 고려한 문헌 유사도 두 문헌 벡터 D1과 D2에 대하여 D1 = <t11, t12, .., t1n>, D2 = <t21, t22, …, t2n> w = t1i = t2i = 1인 용어의 수 x = t1i = 1, t2i = 0인 용어의 수 y = t1i = 0, t2i = 1인 용어의 수 z = t1i = t2i = 0인 용어의 수 n1 = w + x, n2 = w + y, N = w + x + y + z 두 문헌이 유사한 경우 : w는 비교적 큰 수 두 문헌에 유사도가 거의 없는 경우 : x와 y의 수가 큼. t1i = 0 t1i = 1 t2i = 1 t2i = 0 w x y z n1 n2 N-n1 N-n2 N D1 D2
문헌유사도(3) 용어 존재 여부만 고려한 문헌 유사도 (계속) 유사도의 기본적인 정의 (기본적인 요소) 두 문헌의 유사도 정의 확장 연관 계수 선택 방법 1 : 두 문헌 D1과 D2의 분리 정도를 이용 x w y z N D1 D2 (α : 연관계수) 유사도가 0인 경우의 분리 정도 즉, 최대로 분리될 때 현재의 분리 정도
문헌유사도(4) 연관 계수 선택 방법들 α(S) = N/2 기타 비교 계수 들 다양한 문헌 비교 계수, α 기타 비교 계수 들 : 중복 계수(α(P)), 확률 차분 I(α(U)), 확률 차분 II(α(V)), 선형 상관(α(L)), 율(Yule) 결합 계수(α(Y)), 율 보조량(α(Q)), 독립 색인(α(I)) 등 계수 특성식 계 수 직각거리, α(R) Max(n1, n2) 조건부 확률, α(W) Min(n1, n2) 벡터 각, α(G) (n1n2) 1/2 산술평균, α(E) (n1+n2) / 2
문헌유사도(5) 문헌 계수의 관계 유사성 측도간의 순위 관계 문헌 분리 α(S) 직각거리 α(R) 조건부 확률 α(W) 벡터 각 α(G) 산술 평균 α(E) 중복계수 α(P) 확률차분 α(U), α(V) 선형상관 α(L) 율(Yule) 결합계수 α(Y) 율(Yule) 보조량 α(Q) 독립색인 α(I) S R E G W I P U L V Y Q α(S) α(E) α(G) α(W) α(I) 연결성이 없는 경우 : 매개변수의 값에 따라 관계 변경 가능
문헌유사도(6) 또 다른 계수들 (w를 고려하는) 다이스 계수 (Dice’s Coefficient) : 산술 평균과 관련 코싸인 계수 : 벡터 각과 관련 조건부 중복 계수 : 조건부 확률 관련 자카드 계수(Jaccard’s Coefficient) 계수 : 문헌의 형태나 유사성을 설명하기 위해 사용하나 최고의 측정 방법(계수)는 존재하지 않는다.
문헌유사도(7) 거리 측도를 이용한 문헌 유사도 문헌들 간의 거리가 멀면 멀수록 유사성은 떨어진다 질의어와 질의 조건을 모두 만족시키는 문헌 : 거리가 0인 문헌 문헌 텍스트와 질의 텍스트간의 차이가 존재하나 가장 높은 유사도를 갖는다면 거리 = 0 선형 관계에서의 거리 측도 L (d: 거리) Where, = {1 | 2 | } = 1인 경우(도시블럭거리) = 인 경우 (최적방향거리) : = 2인 경우는 일반적인 Euclidean distance를 의미하는 직선 거리 관계
예 제 4개의 문헌에 각기 다른 4개의 주요 용어 및 이의 가중치 문헌 쌍 들사이의 거리 예 제 4개의 문헌에 각기 다른 4개의 주요 용어 및 이의 가중치 D1=<2, 0, 3, 5> D2=<0, 4, 0, 1> D3=<3, 1, 1, 2> D4=<2, 4, 1, 0> 문헌 쌍 들사이의 거리 문헌쌍 (D1, D4) 사이의 거리 : 어떠한 거리 측도를 사용했는가에 따라 값의 형태가 달라짐 측도에 따라 거리가 다양하게 변화 가능 (측도 선정의 주의성)
어휘 통제 - 불용어 목록 (1) 통제되지 않는 어휘 출현빈도가 아주 높은 단어들의 부정적 영향 해결 방안 일상적인 단어, 단어의 변형, 동의어의 사용 the, of, and, to, a, in : 인쇄된 텍스트의 20 ~ 30% 출현빈도가 아주 높은 단어들의 부정적 영향 단어 빈도에 의한 측정법 : 단어 출현빈도의 차이에 대한 비교 의미 감소 단어 자체의 의미가 없기 때문에 비생산적인 처리과정을 유발 해결 방안 불용어 목록(stop list) 또는 부정어 사전(negative dictionary) 개발 일반적인 불용어 목록의 크기 : 250 ~ 300 단어 문헌 비교 및 검색 과정의 단순화 및 효율성 증대
어휘 통제 - 불용어 목록 (2) 구에 대한 불용어 처리 방법 불용어 식별을 위한 자료 구조 “To be, or not to be” 불용어로 구성된 구를 고려하기 위한 특별한 기법 적용해야 함. 불용어 식별을 위한 자료 구조 이진트리 불용어 목록의 크기가 작고 일반적으로 알려져 있는 경우 해싱기법 각 불용어에 상호 구별될 수 있는 해쉬 함수 값 할당 트라이(Trie) 구조 불용어에 대한 문자 단위 확인 Ex) the, then, to 와 technology
어휘 통제 – 어간법 (1) 하나의 단어가 다양한 형태로 파생될 때, 스테밍 알고리즘 이용 ex) computer, computers, computing, compute, computes, computed, computational, computationally, computable 스테밍 알고리즘 단어의 핵심이 되는 어근에 도달하기 위해 단어 끝부분을 반복적으로 제거 Ex) Computationally의 경우 : computational →computation → computa → comput 접두사의 제거의 어려움 접두사인지, 단어의 일부인지 구분 모호 Ex) impossible v.s. immediately
어휘 통제 – 어간법(2) 스테밍 알고리즘의 문제점 문헌 전체에 대한 스테밍 작업의 부하 단어의 끝부분에 대한 잘못된 제거 ex) ‘bed’에서 끝부분 ‘ed’를 제거할 수 없음 → 최소 어근 길이 정의 또는 예외 단어 리스트 정의로 해결 단어의 어근(stem) 자체가 변하는 경우 ex) knifeknives → 일반화된 패턴 구조 : 복수형 변환 → 예외 규칙으로 정의하여 알고리즘에 적용 문헌 전체에 대한 스테밍 작업의 부하 단어의 파생 및 변화 : 전체 문헌 두성 단어의 5~10% 스테밍을 위한 과도한 처리 부하 발생 가능성 해결 방안 사용자 질의 자체를 스테밍한 후 와일드 문자(*)로 대체 검색
어휘 통제 - 다언어 검색 시스템 개발 배경 각 언어만의 특성이 검색시스템에 반영되어야 함 초기 작업은 영어로 된 문헌 대상 인터넷과 웹의 보급으로 인해 다른 언어들도 처리할 수 있는 검색 시스템들이 개발 각 언어만의 특성이 검색시스템에 반영되어야 함 예) 중국어 : 단어들 사이에 공간이 없이 연속된 문자열로 작성됨 영국영어와 미국영어에 있어서 철자 및 단어 의미의 차이 존재 하나의 언어로 작성된 질의어를 통해 다른 언어로 된 문헌도 검색 가능한 시스템 개발 노력 다언어 검색 시스템의 활용성 사용자 그룹의 성격과 규모에 좌우 외교 업무, 연구활동에 종사하는 등의 특정집단에서 유용한 도구로서 사용
어휘 통제 - 시소러스 동일한 의미를 갖는 관련 용어가 서로 다른 형태로 구성된 경우 예: post a letter 와 mail a letter → 용어 유의어 사전(시소러스) 사용 시소러스의 정의 용어들의 동의어와 유사어를 분류하고 용어 상호간의 관계와 계통을 구분 하여 생성한 용어사전 광의어, 협의어, 관련어, 유사어, 반의어 시소러스 사용 목적 유사 혹은 관련 용어의 사용으로 인한 단어의 변형을 처리 문헌의 조직 및 축적 단계에서 어휘를 통제하기 위해 사용 질의 과정에서 질의의 범위를 확대하기 위해 사용 적절한 동의어를 누락되지 않게 구성하는 작업이 중요 항상 동시 출현하는 용어 : 시소러스에 포함하여 활용 가능