BNC-XML 소개 루 버나드(Lou Burnard) apercu

Slides:



Advertisements
Similar presentations
Information Security 경기대학교 김희열. Cloud Computing Security 보안 관련 뉴스.
Advertisements

일본 통판업계의 동향 柿 尾 正 之. 1.통신판매시장규모의 추이 出所) JADMA 「통신판매」기업실태조사 98→03 년 연평균 5.6% 증 91→96 년 연평균 5.3% 증 시장 감소.
운영 체제의 일반 발표자 : 백승재 황영종. 1. 운영체제의 의의 전자 계산기에서 사용자와 하드웨어와의 직접적으로 대화하는 대신 운영 체제라는 시스템 프로그램을 통하여 하드웨어를 다루는 것이다. 한정된 컴퓨터 자원을 효율적으로 관리, 운영함으로써 사용자에게 편의성을 제공하는.
Rethink: Big Intelligence? 2014 년 9 월 27 일 삼성전자 어길수 부사장.
영어 편지 / 이메일 쓰기 (Longman Dictionary of American English with Thesaurus 에서 발췌 )
2013 주니어 인텐시브 영어캠프 PHILACE OF LEARNING ENGLISH 즐거움으로 공부 할 수 있는 기회 C B
목차 국가 R&D 기획ㆍ조정ㆍ평가 체계 국가 R&D 사업의 조사ㆍ분석 국가 R&D 예산 조정ㆍ배분 국가 R&D사업의 평가
신입 직영영업사원 모집 2016년 LG하우시스 모집분야 및 지원자격 서류접수 및 제출서류 전형 안내 STEP 1 STEP 2
(Mobile Application Managemenet)
Effective Multimedia-based English Study
사용자 메뉴얼 차량용 4CH 블랙박스 매뉴얼 버전 : Version 2.1 Hardware Version : 2.0
*노동문제 * -비정규직 유효림 박지희 전향숙 황연두.
해외전자정보서비스이용교육 PAO KERIS Collection.
RefWorks 이용 매뉴얼.
미국 NEH의 디지털인문학 김 바 로 한국학중앙연구원
사용자 메뉴얼 차량용 4CH 블랙박스 매뉴얼 버전 : Version 1.1 Hardware Version : 1.0
English Communication 2
Knowledge Enterprise Portal Solution(iKEP)
DVR HD-1600M 1 제품 소개 시스템 구성도 H 채널 HD-SDI Stand Alone 타입 DVR
Copyright © SG Research Institute Inc. All rights reserved.
Project Management Professional EXAMINATION
Chapter 01. 정보 보안의 세계 : 과거와 현재의 보안 전문가
DB표준화 작업의 현황과 과제 Presentation
스마트폰 때문에 사라지는 10 가지 많이 이용하는 애플리케이션은 ?
[ LG상사 2012년 상반기 대졸신입 모집 ] 모집분야 모집인원 : 00명 자격요건 서류접수 전형절차 및 일정 기타
Institute for Advanced Topics in the Digital Humanities
해외전자정보서비스이용교육 PAO KERIS Collection.
아파트관리비 청구서 이용 프로세스 안내 ㈜한국전산기술.
Open Access 정보자원의 장기보존 전략
11장 사이버 가버넌스: 자유와 공유.
1.민족의 발전과 민족 문화 창달(4)주체적 문화교류의 자세
너는 네가 예쁘다는 걸 몰라 그것이 너를 예쁘게 만들어 주는 것이야..
DVR HD-400H 1 제품 소개 시스템 구성도 H.264 4채널 실시간 HD-SDI Stand Alone 타입 DVR
Open Class Lesson- L2B3 Greeting (5’ 00”) Word Like Daddy, Like Mommy
USABILITY ENGINEERING
Cafe24 쇼핑몰 구축방법 전략연구소 교육팀 권계영 대리.
헤럴드 스쿨 직영 해운대캠퍼스 유치부 Program
Sub-Title Powerpoint Template Exchange Your Company Name 미래기획위원회ㆍ관계부처.
Endless Creation - 안 승례 -
사업 계획서 위기의 남자.
London Online Presentation Dec 1
정보 검색 연구 내용 및 연구 방향 충남대학교 정보통신공학부 맹 성 현 데이타베이스연구회 2000년도 춘계 튜토리얼
Department of AD & PR, Youngsan University
London Online Presentation Dec 1
Lifecare Android Seminar
과거사 청산, 밝은 미래를 위하여 역사 청산 비교 분석-독일과 우리나라.
RefWorks 이용 매뉴얼.
‘기록물 검색도구 전산화를 위한 EAD DTD에 관한 연구’논문을 바탕으로
23rd KIMUN Orientation ROP 리서치 하는 방법 포지션페이퍼 쓰는 법 QNA
Copyright Prof. Byeong June MIN
성공어린이를 위한 확실한 선택과 투자! 학부모님께! 우리 귀한 자녀의 배는 어디를 향해 가고있습니까?
연구책임자용 충남대학교 생명윤리위원회 홈페이지 연구 책임자&담당자 매뉴얼 Date version 1.0.
2015 한국연구재단 글로벌박사 양성사업 변경사항 안내
C 프로그래밍 기초.
2007년도 유통산업 정책방향 산 업 자 원 부.
2DGP Project 최종 발표 염혜린 © Copyright Showeet.com – Free PowerPoint Templates.
Physical Distribution
Chapter 01. 정보 보안의 세계 : 과거와 현재의 보안 전문가
La consolacion college
사례 5 – 마이크로소프트의 학습조직문화.
Title IR Material | Aug, 2015 항목의 추가, 제거, 분할, 병합 등의 수정은 자유롭게 하실 수 있으나, 내용은 빠짐없이 넣으시는 것을 권장합니다. Contact information에서는 팀원 개개인의 정보를 모두 입력 해 주시기 바랍니다.
북한학 과목소개 최 장 옥 교 수 연평도 앞 월래도 시찰.
EndNote.
주관적인 청력검사 순음청력검사와 어음청력검사.
RefWorks 이용 매뉴얼.
Intermediate Korean 1 :Chapter 9 Conversation 2
NOISE POLLUTION UCC 지리학과 윤기섭.
RefWorks 이용 매뉴얼.
사회복지협의회와 지역사회복지협의체.
CAJ – KNS55 (China Academic Journals)
Presentation transcript:

BNC-XML 소개 루 버나드(Lou Burnard) http://www.natcorp.ox.ac.uk apercu echanti;llone multi-fonction, sans objectoif precis

BNC란 무엇인가? 20세기 말의 영국 영어를 포착한 결과 1억 단어. 약 4000개의 텍스트에서 수집 구어(10%), 문어 (90%)‏ 공시적 (1990-4), 표본화, 범용 말뭉치 라이선스 획득 후 사용 가능; 최신 버전은 BNC- XML (2007년 3월 13일)‏ 21 21

BNC의 구축에 대하여 학계와 산업계의 컨소시엄이 운영함 정부 보조 비율이 상당하였음 기간: 3년‏ 비용: 백만 육천 영국 파운드‏ 아래 집단들의 비일상적 이해 일치에서 출발 사전출판사 정부 (DTI)‏ 산업과학연구위원회(Engineering and Science Research Council) 이용대상자: 사전편찬가, NLP 연구자 교사는 제외!

90년대를 기억하십니까? WinWord 냐 WP5냐? 선택의 기로 50 Mb 하드디스크의 386 개인용 컴퓨터 ( Windows 3 정도에 적당한 성능)‏ 연구실에는 연구용으로 VAX 또는 Sparc (아마도)WWW에는 X용 Mosaic 디지털 문서는 거의 없었음 텍스트 인코딩‏ 방식 개발 중 TEI SGML Screenshot of WordPerfect 5.1 for DOS running on the IBM PC.

90년대의 말뭉치언어학 웹이 없었던 세상! 말뭉치 언어학 텍스트 인코딩 이론 언어공학과 NLP JFIT 정신 전통론자(ICAME)‏ 확장론자(LDC, monitor corpora)‏ 텍스트 인코딩 이론 언어공학과 NLP JFIT 정신

사업 목표 발표 미발표 구어와 문어를 비롯한 전 영역의 영국 영어에서 표본을 취한 공시적 (1990-4) 말뭉치 구어와 문어를 비롯한 전 영역의 영국 영어에서 표본을 취한 공시적 (1990-4) 말뭉치 범용을 지향하며 비편의주의적 설계 어휘부류 주석과 문맥 정보 부가 미발표 더 나은, 더 권위 있는 학습용 사전 유럽어들을 위한 새로운 템플릿 대단히 큰 말뭉치

BNC “소시지 기계” 선택, 정제, 저장 보강과 인코딩 문서화, 보급, 유지 문어 구어 (OUP/Chambers)‏ OUP (Longman)‏ Initial CDIF 변환, 검수 (OUCS)‏ 어휘부류 주석 (UCREL)‏ 헤더 생성, 최종 검수 선택, 정제, 저장 보강과 인코딩 문서화, 보급, 유지

BNC의 특징 편의주의적이지 않은 설계 표준화된 마크업 시스템 범용성 구조 명세 어휘부류 주석 문맥 정보

BNC 이용하기 접근 방법 이용자 유형 기관 라이선스 개인용 카피 온라인 액세스 (단어에 한정됨)‏ 순수 연구자, 상업적 연구자 학생 및 교사 일반인

누가 (어떻게) BNC를 이용하는가?‏ 사전편찬자 NLP 연구자 언어학자 교사 출판사 언어공학자 학생/언어 학습자 컴퓨터공학자 언어(영어) 연구 교사 참조, 교육 현장의 교육 자료 작성 출판사 사전, EFL 교재 언어공학자 언어 + 컴퓨터 도구, AI, NLP 학생/언어 학습자 컴퓨터공학자 정보 검색 심리학자/신경학자 보편적 ‘규범’ 또는 기준 사전편찬자 NLP 연구자

왜 BNC XML인가? 여전히 널리 사용되고 있음 ... 그러나 기술 동향은 다음으로 옮겨졌음 Unicode XML은 SGML의 변종 ... 한 속성이 특이함 XML 도구는 널리 보급되어 있음 XML 변환은 쉽게, (상당히) 자동적으로 처리될 수 있었음 ... 그러나 추적 가능성이 더 높은 마크업으로써 일부 말끔하지 못한 요소가 제거될 필요가 있었음

BNC의 구성은?

바늘과 건초더미 BNC가 포괄하는 엄청난 영역 문제는 찾아내는 것 여행사 브로셔, 일기예보, 초청장, 광고, 홍보 리플릿, 어린이의 대화, 학문적 담화, 의사 소견, 마케팅 회의, 구전설화, 농담과 일화, 문학작품, 베스트셀러, 사업 서신, 개인의 일기 등등 ... 문제는 찾아내는 것 WLD 원칙 분류 방법

BNC 선정 기준 문어 텍스트 선정 기준 (90%)‏ 구어 전사물 선정 기준 (10%)‏ 매체 (도서, 신문, 미출판물…)‏ 영역 (정보성, 오락성…)‏ 구어 전사물 선정 기준 (10%)‏ 맥락 기준, 50% 미리 정한 발화 상황 목록 인구통계적으로 표본화, 50% 200명/연령, 성별, 지역으로 표본화 선정기준은 일종의 분류체계를 이루며, 말뭉치 헤더에 정의되어 있음

주제는?‏

텍스트의 종류는?

기술 기준 구어 텍스트 문어 텍스트 화자 직업, 말씨, 교육수준, 인간 관계… 발화 영역, 지역, 장소 … 저자 연령, 성별, 유형 청취자, 유통, 지위 텍스트 유형별 분류 선정 제약들이 적용된 다음에 이 기준들이 변이 폭을 최대화하는 데 이용됨

주석, 인코딩, 마크업 명시화 및 처리 가능화 도구 단일 프레임을 채택하면 세부 자원들을 통합하고 공유하는 것이 쉬워짐 구조 텍스트, 섹션, 문단, 말차례, 문장, 단어... 메타데이터 텍스트 유형, 상황 변수, 문맥 분석 형태론, 통사적 기능, 번역 단일 프레임을 채택하면 세부 자원들을 통합하고 공유하는 것이 쉬워짐 그래서 연구 성과가 제고됨 또한 도구 개발이 훨씬 더 쉬워짐

BNC의 구조 wtext teiHeader bncdoc bnc stext 4049 908 bncDoc

BNC-XML의 구조 wtext stext div 1 div div div 1,599,692 p p u 784,484 p u 6,026,284 w w w w w w w 98,363,784

어휘부류의 주석 CLAWS (Leech, Garside et al) 방식 단어로 간주되는 것은? 어휘부류로 간주되는 것은? This isn't prima facie obvious, in spite of spelling conventions. NN1 NN2 NP1 NP2 TO0. . .

단어와 다수어 영어 철자 때문에 오해할 수 있음 BNC XML에서, “다수어”는 명시적으로 표시됨: ... in spite of common sense ... it wasn't me <mw c5=”PRP”> <w c5=”PRP” pos=”PREP” hw=”in”>in </w> <w c5=”NN1” pos=”SUBST” hw=”spite”>spite </w> <w c5=”PRF” pos=”PREP” hw=”of”>of </w> </mw> <w c5=”PNP” pos=”PREP” hw=”it”>it </w> <w c5=”VBD” pos=”VERB” hw=”be”>was</w> <w c5=”XX0” pos=”ADV” hw=”not”>n't </w> <w c5=”PNP” pos=”PRON” hw=”i”>me </w>

머리어와 POS 태그 연산적으로 부가되는 머리어 (Rayson, Fligelstone, et al의 공적임)‏ C5 태그세트 (57+4)가 축소된 결과 (10 +1) 일부 매핑 이상 가방(portmanteaux) 형태소가 분해되어 첫 요소로 매핑됨 한정사가 형용사로 매핑됨 부정사 TO가 전치사로 매핑됨 리태깅 불가! CLAWS 에러 잔존! corgis

문어 텍스트의 구조 대부분의 문어 텍스트는 다양한 계층적 division으로 조직화되어 있다. 이는 헤딩 등에 나타난다. 일부 division 유형: e.g. 장, 절, 이야기, 소절, 컬럼, 앞부분, 일부, 조리법, 리플릿... 모든 구어 텍스트는 “대화conversations” 로 나뉜다. <div level=”1”> <div level=”2”>... </div> <div level=”2”>...</div> </div>

문어 텍스트의 속성 유사 문단 문단의 부분 <p> : 문단 <head> : 헤딩 또는 캡션 <list> : 리스트 <quote> : 인용 <lg> : 시의 행 문단의 부분 <hi> : 인쇄적 강조 <corr> : 수정된 구절 <gap> : 고의적 생략 <pb/> : 페이지 나뉨

발화 처리 <sp> <speaker> <p> </p></sp> <s n="20461"> <w c5="NP0" hw="mr." pos="SUBST">Mr. </w> <w c5="NP0" hw="speaker" pos="SUBST">Skinner</w> </s> </speaker>... <p> <s n="20468"> <w c5="DT0" hw="that" pos="ADJ">That </w> <w c5="NN1" hw="millionaire" pos="SUBST">millionaire </w> <w c5="NN1" hw="mammy" pos="SUBST">mammy</w> <w c5="POS" hw="'s" pos="UNC">'s </w> <w c5="NN1" hw="boy" pos="SUBST">boy </w> <c c5="PUN">—</c> <stage> <s n="20469"> <w c5="NN1" hw="interruption" pos="SUBST">Interruption</w> </stage> </p></sp> <s n="20470"> <w c5="NP0" hw="speaker" pos="SUBST">Speaker</w> </speaker> <p> <s n="20471"> <w c5="NN1-VVB" hw="order" pos="SUBST">Order</w> <c c5="PUN">.</c> <s n="20472"> <w c5="VBZ" hw="be" pos="VERB">is </w> <w c5="XX0" hw="not" pos="ADV">not </w> <w c5="AV0" hw="wholly" pos="ADV">wholly </w> <w c5="AJ0" hw="unparliamentary" pos="ADJ">unparliamentary</w> </p> </sp> <!-- HHV -->

구어 텍스트의 구조 <u who=”XXX”> <align with=”XXX”/> 시간일치점 표시 화자에 대한 세부 정보는 텍스트 헤더에 기록 구어 동작의 다른 특징들도 역시 기록함

구어 텍스트의 속성 <shift> : 음성의 질적인 변화 <vocal> : 성문을 통과하는 비언어적 소리 e.g. 속삭임, 웃음 등 발화 내 구절에 영향을 미치는 별도의 사건이자 음성의 질적인 변화. <vocal> : 성문을 통과하는 비언어적 소리 e.g. 기침, 허밍 잡음 등. <event> : 성문을 통과하지 않는 비언어적 사건 e.g. 지나가는 트럭, 동물 소리, 주지해야 할 정도의 다른 것들 <pause> : 중요한 휴지 정상보다 더 긴 발화 내 또는 발화 사이의 침묵 <unclear> : 불분명한 구절 여러 이유로 들리지 않거나 이해되지 않는 발화나 구절

사건 기술 baby baby burped baby cries baby cry baby crying baby crying in background baby gurgling baby laughing baby noise baby noises baby screaming baby shouting baby shouting over the top baby shouts baby speaking baby squealing baby talk baby talking background chatter background chatter in pub background chatter in pub background chatting shuffling etcetera background conversation 사건 기술

성문 기술 <vocal desc=”breath”/> <vocal desc="big breath"/> <vocal desc="breathing out suddenly"/> <vocal desc="drawing in breath"/> <vocal desc="exhales"/> <vocal desc="indrawn breath"/> <vocal desc="inhales"/> <vocal desc="intake of breath"/> <vocal desc="sharp intake of breath"/> <vocal desc="takes a deep breath"/> <vocal desc="takes breath"/> <vocal desc=”breath”/> <vocal desc=”astonished snort”/>

문맥 정보 모든 텍스트에는 TEI 헤더가 모든 일반 데이터는 헤더에 헤더 내의 분류는 개별 텍스트에 의해 지정됨 확인과 분류 특정한 세부사항 (e.g. 화자)‏ 모든 일반 데이터는 헤더에 헤더 내의 분류는 개별 텍스트에 의해 지정됨

TEI 헤더의 구조 파일 기술 <fileDesc> 인코딩 기술 프로파일 기술 개정 기술 제목 진술 책임 진술 판 진술 범위 출판 진술 고유 번호 출처 기술 인코딩 기술 태깅 선언 프로파일 기술 생성 [참여자 기술] 텍스트 분류 개정 기술

제목 진술 <title>How we won the open: the caddies' stories. Sample containing about 36083 words from a book (domain: leisure) </title> <title>Harlow Women's Institute committee meeting. Sample containing about 246 words speech recorded in public context </title> <titleStmt> <title>The age of capital 1848-1875. Sample containing about 41650 words from a book (domain: world affairs) </title> <respStmt> <resp>Data capture and transcription</resp> <name>Oxford University Press </name> </respStmt> </titleStmt> <title>32 conversations recorded by `Frank' (PS09E) between 21 and 28 February 1992 with 9 interlocutors, totalling 3193 s-units, 20607 words, and 3 hours 22 minutes 23 seconds of recordings. </title> <title>[Leaflets advertising goods and products]. Sample containing about 23409 words of miscellanea (domain: commerce)</title>

판edition 진술 <editionStmt> <edition>BNC XML Edition, December 2006</edition> </editionStmt> <extent> 41650 tokens; 41573 w-units; 1436 s-units </extent> <publicationStmt> <distributor>Distributed under licence by Oxford University Computing Services on behalf of the BNC Consortium.</distributor> <availability> This material is protected by international copyright laws and may not be copied or redistributed in any way. Consult the BNC Web Site at http://www.natcorp.ox.ac.uk for full licencing and distribution conditions.</availability> <idno type="bnc">J0P</idno> <idno type="old"> AgeCap </idno> </publicationStmt>

출처 기술1 <sourceDesc> <bibl><title>The age of capital 1848-1875. </title> <author n="HobsbE1" domicile="England">Hobsbawm, E J</author> <imprint n="ABACUS1"> <publisher>Abacus</publisher> <pubPlace>London</pubPlace> <date value="1977">1977</date> </imprint> <pp>203-316</pp> </bibl> </sourceDesc> </fileDesc>

출처 기술2 <sourceDesc> <recordingStmt> <recording xml:id="KE5RE000" n="035201" date="1992-02-20" time="11:50+" type="Walkman"/> <recording xml:id="KE5RE001" n="035202" <recording xml:id="KE5RE002" n="035203" date="1992-02-23" time="17:05+" type="Walkman"/> <recording xml:id="KE5RE003" n="035204" date="1992-02-22" type="Walkman"/> </recordingStmt> </sourceDesc>

인코딩 기술 <encodingDesc> <tagsDecl> <namespace name=""> <tagUsage gi="c" occurs="5750"/> <tagUsage gi="corr" occurs="1"/> <tagUsage gi="div" occurs="115"/> <tagUsage gi="gap" occurs="3"/> <tagUsage gi="head" occurs="156"/> <tagUsage gi="hi" occurs="147"/> <tagUsage gi="l" occurs="2"/> <tagUsage gi="lg" occurs="1"/> <tagUsage gi="mw" occurs="256"/> <tagUsage gi="p" occurs="680"/> <tagUsage gi="quote" occurs="3"/> <tagUsage gi="s" occurs="2415"/> <tagUsage gi="w" occurs="41799"/> </namespace> </tagsDecl> </encodingDesc>

프로파일 기술(문어)‏ <profileDesc> <creation date="1962"> </creation> <textClass> <catRef targets="WRI ALLTIM1 ALLAVA2 ALLTYP3 WRIAAG4 WRIAD1 WRIASE1 WRIATY3 WRIAUD3 WRIDOM5 WRILEV2 WRIMED1 WRIPP5 WRISAM3 WRISTA2 WRITAS0"/> <classCode scheme="DLEE">W nonAc: humanities arts</classCode> <keywords scheme="COPAC"> <term>History, Modern - 19th century</term> <term>Capitalism - History - 19th century</term> <term>World, 1848-1875</term> </keywords> </textClass> </profileDesc>

분류 코드 사용되는 코드는 헤더에서 미리 선언됨 <taxonomy xml:id="WRIDOM"> <desc>Written Domain</desc> <category xml:id="WRIDOM1"> <catDesc>Imaginative</catDesc> </category> <category xml:id="WRIDOM2"> <catDesc>Natural and pure sciences</catDesc> <category xml:id="WRIDOM3"> <catDesc>Applied sciences</catDesc> ... </taxonomy>

프로파일 기술(구어)‏ <profileDesc> <creation date="1992">1992-02-23 </creation> <particDesc n="108"> <person ageGroup="Ag1" xml:id="PS0X2" role="self" sex="m" soc="DE" dialect="XSS"> <age>20</age> <persName>Wayne</persName> <occupation>unemployed</occupation> <dialect>Central South-west England</dialect> </person> .... </particDesc> <settingDesc> <setting xml:id="KE5SE000" n="035201" who="PS000 PS0X2"> <placeName>Hampshire: Andover </placeName> <locale> local shop </locale> <activity spont="H"> visiting friends</activity> </setting> ... </settingDesc> </profileDesc>

영어는 계속 움직였나? 텍스트 유형 주제 전자우편 웹 페이지 / 블로그 SMS 개인 서신 세계화 인터넷 Elvis Word Perfect

시대에 뒤떨어졌나? 말뭉치의 작성과 날짜는 말뭉치에서 이끌어내는 추론에 영향을 미침 대안이 많지 않음 말뭉치의 작성과 날짜는 말뭉치에서 이끌어내는 추론에 영향을 미침 대안이 많지 않음 말뭉치로서의 웹 구어 텍스트의 원천? monitor corpora는 복제 불가 저작권 허용은 반복 불가 BNC 에 대한 양적, 질적 상대평가가 필요함 그러나 “놀랄 만한 양이 존재한다”

여전히 유용한 이유는? BNC는 문제를 제기하는 자원임... ... 교사와 학습자 모두를 위함 직관을 보완함(또는 교정함) 학습자 자율성을 증대시킴 모어 화자의 잘못된 믿음을 비판함 ... 교사와 학습자 모두를 위함 XML은 비전문적 소프트웨어로도 더 유용하게 사용될 수 있음 돋보이는 범위와 활용성

어디서 얻을 수 있을까? BNC XML: http://www.natcorp.ox.ac.uk XAIRA 현재 DVD에 수록 독립형 단일사용자 라이선스 또는 기관 라이선스 기존 라이선스는 갱신해야 함 XAIRA BNC에 무료로 포함됨 ( http://xaira.sf.net에서도 무료 배포)‏ 모든 XML 말뭉치 사용 가능 모든 플랫폼에서 사용 가능(할 듯)