Chapter 6. CONCORDANCE LINES AND CORPUS LINGUISTICS 6.1 ~ 6.3 서울시립대 전자전기컴퓨터공학과 데이터마이닝 연구실 G 노준호
6.2 Sampling Sampling 모집단에서 표본을 선택하여 계산 단점 : 정보손실이 존재 장점 : 비용 감소 Trade-off between accuracy and costs
6.2.1 Statistical Suvey Sampling Statistical Suvey Sampling “the percentage of voters for Candidate X is desired” How? 모집단의 parameters 분석, sample 계산 후 예측 population Population : All people who do ( 사전에 알 수 없음 ) o 실제 투표한 유권자 : target population o 등록 유권자 : frame population parameters ( 인구학적 ) 남 / 녀, 기혼 / 미혼
6.2.1 Statistical Suvey Sampling (cont.) Sampling design 등록 유권자 중 Simple random sample 로 선택 정해진 계층 수 만큼 조사 미혼 여성 : 250 명 기혼 여성 : 250 명 미혼 남성 : 250 명 기혼 남성 : 250 명 Sampling 을 토대로 예측
6.2.2 Text Sampling Text Sampling “study a sample of written American English” 가정 Population Taget population : nonfiction(magazines, newspapers, Web pages, s, …), literary texts(short stories, novels) Frame population : all the texts have to be accessible 문제점 Population 의 list oBook : ISBN 존재 omagazines : ISSN 존재 o ?? 해결책 구체적인 taget population 설정 oTo classify English (country, witten/spoken, register, …) Ex) American written English as it appears in newspaper business stories
6.3 Corpus as baseline Corpus Corpus as baseline 특정 부분에서는 English language 를 대표할 수 있기 때문에 corpus 를 기준으로 사용할 수 있음 Example “The Tell-Tale Heart” 의 단어 길이 평균적으로 단어가 긴지 짧은지 알수가 없음
6.3 Corpus as baseline(cont.) Copus 와 세 소설의 단어 빈도수 top 20 를 비교 Copus 무료인 EnronSent corpus 사용 소설 Dickens’s A Christmas Carol London’s The Call of the Wild Shelley’s Frankenstein 유의사항 Corpus( ) 와 소설간의 차이점 존재
6.3 Corpus as baseline(cont.) EnronSent corpus 특성 Character counts
6.3 Corpus as baseline(cont.) EnronSent corpus apostrophe apostrophe 제거
6.3 Corpus as baseline(cont.) EnronSent corpus 의 단어 빈도수
6.3 Corpus as baseline(cont.) Corpus, 세 소설 단어 빈도수 top 20 비교
6.3 Corpus as baseline(cont.) 4 개의 column 의 유사점, 차이점 4 column 모두 the 의 tf 가 가장 높음 Corpus 의 top5 단어가 다른 column 에서 상위에 랭크 Corpus 의 is, are, have 가 다른 column 에서 하위에 랭크 은 현재형, 소설은 과거형 선호 캐릭터 이름이 2, 3 번째 column 에 존재 Scrooge, buck I 는 column 마다 순위변동이 큼 2, 3 번째 소설은 3 인칭. 특히 3 번째 소설은 개가 주인공 4 번째 소설은 1 인칭
6.3.1 Function vs Content Word Function vs Content Word Function word The, is, on, a, … Stoplist 로 처리 Content word 그 외 위 2 개의 구분이 명확하지 않음
6.3.1 Function vs Content Word(cont.) Funcion word 일지라도 중요할 수 있음 Ex) I, my Frankenstein 의 경우 중요한 단어 (1 인칭 소설 ) Stoplist 로 처리하면 안됨 단어 빈도수 리스트는 소설과 연관이 높음 The Call of the Wild dogs(33rd), dog – 개에 관한 소설 Sled(85 th ), camp(71 st ), trail(88 th ) – 배경이 캐나다 Buck(11st), thorton(44 th ), spitz(58 th ) – 등장인물 이름