Chapter 6. CONCORDANCE LINES AND CORPUS LINGUISTICS 6.1 ~ 6.3 서울시립대 전자전기컴퓨터공학과 데이터마이닝 연구실 G201149027 노준호.

Slides:



Advertisements
Similar presentations
학교 자체평가의 실제 신 동 한. 목 차  표지 제목  학교 소개  평가위원회 구성  지표별 평가의 실제  학교 자체평가의 향후 반영 계획  설문지 처리.
Advertisements

Chapter 2. Text Patterns 2.1 ~ 2.3 서울시립대 전자전기컴퓨터공학과 데이터마이닝 연구실 G 노준호.
개인의견 차가있을수있음 훈훈한남자 배우 TOP 5. 5 위는 박보검 웃을때보이는 치명적인 미소 꺄 ~~~ 5위5위.
6σ 관련 기초 통계 (1) -. 통계적사고 -. 모집단과 표본. 통계적 사고 모든 작업은 상호연관된 프로세스의 시스템 예 ) 열처리 작업 공정 원료 투입 공정가열 공정 냉각 공정 모든 프로세스에는 산포가 존재 가피원인 불가피원인 동일 원료동일 생산공정 동일 작업자동일.
폭력. 폭력이란 무엇인가 우상의 눈물 물리적인 폭력 ( 최기표 ) VS 지능적인 폭력 ( 임형우, 담임선생님 )
Ⅰ Ⅱ Ⅲ Ⅳ Ⅴ Ⅵ ’ ( 금 ) ~ ( 목 ) / 15 개 시・군 대한체육회 / 도, 교육청, 도체육회 47 개 종목 / 32 천명 ’ ( 금 ) ~ ( 화 ) / 9 개 시・군 대한장애인체육회 / 도,
New Platform Training CSA Illumina 이용 매뉴얼. Social sciences and Education Collection 사회학, 사회복지, 교육, 국제정치, 범죄 등 사회과학 전반에 관한 저널 및 정부문서, 논문, 단행본 등 다양한 연구자료에.
식기에 관한 소비자 조사 Ⅰ. 조사 개요 Ⅲ. 조사 결과 분석 Part1. 식기브랜드 관련 소비자 인식 국내 식기브랜드 최초 / 비보조 인지 수입 식기브랜드 최초 / 비보조 인지 식기브랜드 보조인지 보유 식기브랜드 현재.
Chapter 8. TEXT CLUSTERING 서울시립대 전자전기컴퓨터공학과 데이터마이닝 연구실 G 노준호.
1 박 2 일 !!! 인천마장초등학교 유수아. 1 박 2 일 멤버 인기순 위 1 위 이승기 2 위 엄태웅 3 위 은지원 4 위 김종민, 이수근 ※인터넷에서 본것이기 때문에 사람에따라 서 다를 수 있다. ※
석관중앙교회 5남전도회 석 관 중 앙 교 회 회원 소식 통권 05-04호 발행일 : 2005년 04월 회 장 : 장진호 집사
서울시립대학교 전자전기컴퓨터공학부 김한준
내가 설계하는 인문학강의 이미지를 통해서 보는 음식 인문학
2015년도 2학기 제 8 장 표본추출 마케팅조사.
재료수치해석 HW # 박재혁.
지역사회복지론 1조. 요양보호시설에 대해서 황성국 임재형 이동영
해외서, 국내서 요약 ‘북집’ 모바일 서비스 이용방법
C++ Tutorial 1 서강대학교 데이터베이스 연구실.
의사 결정 트리(decision tree)

14주차 1교시 강화계획 [학습목표] 1. 강화계획의 정의를 안다 [학습내용] 1. 단순한 강화계획 2. 간헐적 강화 3. 복합 계획 4. 선택과 대응법칙 [사전학습] 강화계획이 일어날 수 있는 사례를 생각해본다.
청소년문제와 보호 청소년문제의 개념과 범주.
연장근로와 야간·휴일근로 김영호 노무사 나눔 노사관계연구소 소장 연세대 일반대학원 박사 수료 고려사이버대 법학과 외래교수
I 문학의 개념과 역할 1. 문학의 개념 (1) 언어 예술로서의 문학 (2) 소통 활동으로서의 문학
경제활동인구조사 1997년 실업률 조사의 설계 표본추출방법 가중치 부여 표준오차 편의
4. 목적론적 윤리와 의무론적 윤리 01. 경험주의와 이성주의 01. 경험주의와 이성주의 02. 결과론적 윤리와 공리주의
11. Characters Are Everywhere
국민건강영양조사 한국보건의료연구원 이 자 연
제9장 샘플링과 오차 표본: 시료, Sample 모집단 : 공정, Lot Sampling
원가회계의 기초 & 분류.
아파트관리비 청구서 이용 프로세스 안내 ㈜한국전산기술.
실험 3 - 비선형 연산 증폭기 회로와 능동 필터 전자전기컴퓨터공학부 방 기 영.
Chap 3. 표본조사 3.1 표본추출(Sampling)의 기초 3.2 단순임의표본추출 3.3 표본으로부터 모집단 추정
실험1. 연산 증폭기 특성 전자전기컴퓨터공학부 방기영.
컴퓨터과학 전공탐색 배상원.
CH 4. 확률변수와 확률분포 4.1 확률 확률실험 (Random Experiment, 시행, Trial) : 결과를 확률적으로 예측 가능, 똑 같은 조건에서 반복 근원사상 (Elementary Event, e) : 시행 때 마다 나타날 수 있는 결과 표본공간.
- EBSCOhost Database 이용매뉴얼 -
CXQuery를 사용하는 STREAM XML Filter
제1장 통계학이란 무엇인가 제2장 자료와 수집 제3장 자료 분석 방법
개항기 조선과 동아시아 박 범 한국역사입문Ⅱ.
(independent variable)
Microsoft Word 2002 제4장 그리기와 그림 삽입하기.
수원대학교 응용통계학과 김 진 흠 표본추출의 이론과 실제 수원대학교 응용통계학과 김 진 흠
2000년 한국의 성별 · 연령별 인구분포 as of 2006 by UN
약속 November 9th, 2012.
Statistical inference I (통계적 추론)
두 모집단에 대한 검정.
서울대학교 컴퓨터공학과 인공지능 연구실 엄 재 홍
MovieStory 작성자 홍성혁 소속 전자전기컴퓨터공학부 학번
대구의 부도심 대구의 주요축 동대구 부도심 4조 강민석 / 박성균 / 최은지/ 황재현/김예지.
나이스 방과후학교 사용자 적용 매뉴얼 및 에듀파인을 활용한 엑셀 간소화 프로그램 안내
Chapter Ⅱ. 연구 설계.
사도행전 13장 22절 말씀 –아멘 다 윗 을 왕 으 로 세 우 시 고 증 언 하 여 이 르 시 되 내 가 이 새 의 아 들
에어 PHP 입문.
Word2Vec.
7주차: Functions and Arrays
Definitions (정의) Statistics란?
한양인 주차정기권 신청 안내 2018년 2학기 관리처 관재팀.
경찰행정과 세미나 결과를 공개해야한다. VS 비공개로 해야한다. 경찰의 근무성적평정 제도.
Ⅲ. 남부 지방의 생활 제 4장 관광산업이 발달한 제주도 주제1. 화산 활동으로 이루어진 섬, 따뜻한 기후.
9 브라우저 객체 모델.
15 향 소 제 소사고 제15회 일시|` (목) 9:00~17:00 장소|소사고등학교 교정 th
언어학개론_첫째주차 (2018년) 가톨릭관동대학교.
실습 : Sampling / Excel macro
제 16장 비율의 정확성 머리말 신뢰구간 신뢰구간의 해석.
CH3. 데이터의 기초적 정리방법 모집단과 표본 모집단 (Population) , 표본 (Sample, 시료) 그림 3.1
CH3. 데이터의 기초적 정리방법 모집단과 표본 모집단 (Population) , 표본 (Sample, 시료) 그림 3.1
표본분포 개요 랜덤추출법 표본분포 모양과 CLT.
2015년도 연세대학교 의과대학 의과학자육성 장학금 신청안내
제2기 지역사회복지계획 수립, 추진 및 평가 사 례 발 표
Presentation transcript:

Chapter 6. CONCORDANCE LINES AND CORPUS LINGUISTICS 6.1 ~ 6.3 서울시립대 전자전기컴퓨터공학과 데이터마이닝 연구실 G 노준호

6.2 Sampling Sampling 모집단에서 표본을 선택하여 계산 단점 : 정보손실이 존재 장점 : 비용 감소 Trade-off between accuracy and costs

6.2.1 Statistical Suvey Sampling Statistical Suvey Sampling “the percentage of voters for Candidate X is desired” How? 모집단의 parameters 분석, sample 계산 후 예측 population Population : All people who do ( 사전에 알 수 없음 ) o 실제 투표한 유권자 : target population o 등록 유권자 : frame population parameters ( 인구학적 ) 남 / 녀, 기혼 / 미혼

6.2.1 Statistical Suvey Sampling (cont.) Sampling design 등록 유권자 중 Simple random sample 로 선택 정해진 계층 수 만큼 조사 미혼 여성 : 250 명 기혼 여성 : 250 명 미혼 남성 : 250 명 기혼 남성 : 250 명 Sampling 을 토대로 예측

6.2.2 Text Sampling Text Sampling “study a sample of written American English” 가정 Population Taget population : nonfiction(magazines, newspapers, Web pages, s, …), literary texts(short stories, novels) Frame population : all the texts have to be accessible 문제점 Population 의 list oBook : ISBN 존재 omagazines : ISSN 존재 o ?? 해결책 구체적인 taget population 설정 oTo classify English (country, witten/spoken, register, …) Ex) American written English as it appears in newspaper business stories

6.3 Corpus as baseline Corpus Corpus as baseline 특정 부분에서는 English language 를 대표할 수 있기 때문에 corpus 를 기준으로 사용할 수 있음 Example “The Tell-Tale Heart” 의 단어 길이 평균적으로 단어가 긴지 짧은지 알수가 없음

6.3 Corpus as baseline(cont.) Copus 와 세 소설의 단어 빈도수 top 20 를 비교 Copus 무료인 EnronSent corpus 사용 소설 Dickens’s A Christmas Carol London’s The Call of the Wild Shelley’s Frankenstein 유의사항 Corpus( ) 와 소설간의 차이점 존재

6.3 Corpus as baseline(cont.) EnronSent corpus 특성 Character counts

6.3 Corpus as baseline(cont.) EnronSent corpus apostrophe apostrophe 제거

6.3 Corpus as baseline(cont.) EnronSent corpus 의 단어 빈도수

6.3 Corpus as baseline(cont.) Corpus, 세 소설 단어 빈도수 top 20 비교

6.3 Corpus as baseline(cont.) 4 개의 column 의 유사점, 차이점 4 column 모두 the 의 tf 가 가장 높음 Corpus 의 top5 단어가 다른 column 에서 상위에 랭크 Corpus 의 is, are, have 가 다른 column 에서 하위에 랭크 은 현재형, 소설은 과거형 선호 캐릭터 이름이 2, 3 번째 column 에 존재 Scrooge, buck I 는 column 마다 순위변동이 큼 2, 3 번째 소설은 3 인칭. 특히 3 번째 소설은 개가 주인공 4 번째 소설은 1 인칭

6.3.1 Function vs Content Word Function vs Content Word Function word The, is, on, a, … Stoplist 로 처리 Content word 그 외 위 2 개의 구분이 명확하지 않음

6.3.1 Function vs Content Word(cont.) Funcion word 일지라도 중요할 수 있음 Ex) I, my Frankenstein 의 경우 중요한 단어 (1 인칭 소설 ) Stoplist 로 처리하면 안됨 단어 빈도수 리스트는 소설과 연관이 높음 The Call of the Wild dogs(33rd), dog – 개에 관한 소설 Sled(85 th ), camp(71 st ), trail(88 th ) – 배경이 캐나다 Buck(11st), thorton(44 th ), spitz(58 th ) – 등장인물 이름