Presentation is loading. Please wait.

Presentation is loading. Please wait.

Chapter 6. CONCORDANCE LINES AND CORPUS LINGUISTICS 6.1 ~ 6.3 서울시립대 전자전기컴퓨터공학과 데이터마이닝 연구실 G201149027 노준호.

Similar presentations


Presentation on theme: "Chapter 6. CONCORDANCE LINES AND CORPUS LINGUISTICS 6.1 ~ 6.3 서울시립대 전자전기컴퓨터공학과 데이터마이닝 연구실 G201149027 노준호."— Presentation transcript:

1 Chapter 6. CONCORDANCE LINES AND CORPUS LINGUISTICS 6.1 ~ 6.3 서울시립대 전자전기컴퓨터공학과 데이터마이닝 연구실 G201149027 노준호

2 6.2 Sampling Sampling 모집단에서 표본을 선택하여 계산 단점 : 정보손실이 존재 장점 : 비용 감소 Trade-off between accuracy and costs

3 6.2.1 Statistical Suvey Sampling Statistical Suvey Sampling “the percentage of voters for Candidate X is desired” How? 모집단의 parameters 분석, sample 계산 후 예측 population Population : All people who do ( 사전에 알 수 없음 ) o 실제 투표한 유권자 : target population o 등록 유권자 : frame population parameters ( 인구학적 ) 남 / 녀, 기혼 / 미혼

4 6.2.1 Statistical Suvey Sampling (cont.) Sampling design 등록 유권자 중 Simple random sample 로 선택 정해진 계층 수 만큼 조사 미혼 여성 : 250 명 기혼 여성 : 250 명 미혼 남성 : 250 명 기혼 남성 : 250 명 Sampling 을 토대로 예측

5 6.2.2 Text Sampling Text Sampling “study a sample of written American English” 가정 Population Taget population : nonfiction(magazines, newspapers, Web pages, emails, …), literary texts(short stories, novels) Frame population : all the texts have to be accessible 문제점 Population 의 list oBook : ISBN 존재 omagazines : ISSN 존재 oemail : ?? 해결책 구체적인 taget population 설정 oTo classify English (country, witten/spoken, register, …) Ex) American written English as it appears in newspaper business stories

6 6.3 Corpus as baseline Corpus Corpus as baseline 특정 부분에서는 English language 를 대표할 수 있기 때문에 corpus 를 기준으로 사용할 수 있음 Example “The Tell-Tale Heart” 의 단어 길이 평균적으로 단어가 긴지 짧은지 알수가 없음

7 6.3 Corpus as baseline(cont.) Copus 와 세 소설의 단어 빈도수 top 20 를 비교 Copus 무료인 EnronSent email corpus 사용 소설 Dickens’s A Christmas Carol London’s The Call of the Wild Shelley’s Frankenstein 유의사항 Corpus(email) 와 소설간의 차이점 존재

8 6.3 Corpus as baseline(cont.) EnronSent corpus 특성 Character counts

9 6.3 Corpus as baseline(cont.) EnronSent corpus apostrophe apostrophe 제거

10 6.3 Corpus as baseline(cont.) EnronSent corpus 의 단어 빈도수

11 6.3 Corpus as baseline(cont.) Corpus, 세 소설 단어 빈도수 top 20 비교

12 6.3 Corpus as baseline(cont.) 4 개의 column 의 유사점, 차이점 4 column 모두 the 의 tf 가 가장 높음 Corpus 의 top5 단어가 다른 column 에서 상위에 랭크 Corpus 의 is, are, have 가 다른 column 에서 하위에 랭크 Email 은 현재형, 소설은 과거형 선호 캐릭터 이름이 2, 3 번째 column 에 존재 Scrooge, buck I 는 column 마다 순위변동이 큼 2, 3 번째 소설은 3 인칭. 특히 3 번째 소설은 개가 주인공 4 번째 소설은 1 인칭

13 6.3.1 Function vs Content Word Function vs Content Word Function word The, is, on, a, … Stoplist 로 처리 Content word 그 외 위 2 개의 구분이 명확하지 않음

14 6.3.1 Function vs Content Word(cont.) Funcion word 일지라도 중요할 수 있음 Ex) I, my Frankenstein 의 경우 중요한 단어 (1 인칭 소설 ) Stoplist 로 처리하면 안됨 단어 빈도수 리스트는 소설과 연관이 높음 The Call of the Wild dogs(33rd), dog – 개에 관한 소설 Sled(85 th ), camp(71 st ), trail(88 th ) – 배경이 캐나다 Buck(11st), thorton(44 th ), spitz(58 th ) – 등장인물 이름


Download ppt "Chapter 6. CONCORDANCE LINES AND CORPUS LINGUISTICS 6.1 ~ 6.3 서울시립대 전자전기컴퓨터공학과 데이터마이닝 연구실 G201149027 노준호."

Similar presentations


Ads by Google