Download presentation
Presentation is loading. Please wait.
1
BNC-XML 소개 루 버나드(Lou Burnard) http://www.natcorp.ox.ac.uk apercu
echanti;llone multi-fonction, sans objectoif precis
2
BNC란 무엇인가? 20세기 말의 영국 영어를 포착한 결과 1억 단어. 약 4000개의 텍스트에서 수집
구어(10%), 문어 (90%) 공시적 (1990-4), 표본화, 범용 말뭉치 라이선스 획득 후 사용 가능; 최신 버전은 BNC- XML (2007년 3월 13일) 21 21
3
BNC의 구축에 대하여 학계와 산업계의 컨소시엄이 운영함 정부 보조 비율이 상당하였음
기간: 3년 비용: 백만 육천 영국 파운드 아래 집단들의 비일상적 이해 일치에서 출발 사전출판사 정부 (DTI) 산업과학연구위원회(Engineering and Science Research Council) 이용대상자: 사전편찬가, NLP 연구자 교사는 제외!
4
90년대를 기억하십니까? WinWord 냐 WP5냐? 선택의 기로
50 Mb 하드디스크의 386 개인용 컴퓨터 ( Windows 3 정도에 적당한 성능) 연구실에는 연구용으로 VAX 또는 Sparc (아마도)WWW에는 X용 Mosaic 디지털 문서는 거의 없었음 텍스트 인코딩 방식 개발 중 TEI SGML Screenshot of WordPerfect 5.1 for DOS running on the IBM PC.
5
90년대의 말뭉치언어학 웹이 없었던 세상! 말뭉치 언어학 텍스트 인코딩 이론 언어공학과 NLP JFIT 정신
전통론자(ICAME) 확장론자(LDC, monitor corpora) 텍스트 인코딩 이론 언어공학과 NLP JFIT 정신
6
사업 목표 발표 미발표 구어와 문어를 비롯한 전 영역의 영국 영어에서 표본을 취한 공시적 (1990-4) 말뭉치
구어와 문어를 비롯한 전 영역의 영국 영어에서 표본을 취한 공시적 (1990-4) 말뭉치 범용을 지향하며 비편의주의적 설계 어휘부류 주석과 문맥 정보 부가 미발표 더 나은, 더 권위 있는 학습용 사전 유럽어들을 위한 새로운 템플릿 대단히 큰 말뭉치
7
BNC “소시지 기계” 선택, 정제, 저장 보강과 인코딩 문서화, 보급, 유지 문어 구어 (OUP/Chambers) OUP
(Longman) Initial CDIF 변환, 검수 (OUCS) 어휘부류 주석 (UCREL) 헤더 생성, 최종 검수 선택, 정제, 저장 보강과 인코딩 문서화, 보급, 유지
8
BNC의 특징 편의주의적이지 않은 설계 표준화된 마크업 시스템 범용성 구조 명세 어휘부류 주석 문맥 정보
9
BNC 이용하기 접근 방법 이용자 유형 기관 라이선스 개인용 카피 온라인 액세스 (단어에 한정됨)
순수 연구자, 상업적 연구자 학생 및 교사 일반인
10
누가 (어떻게) BNC를 이용하는가? 사전편찬자 NLP 연구자 언어학자 교사 출판사 언어공학자 학생/언어 학습자 컴퓨터공학자
언어(영어) 연구 교사 참조, 교육 현장의 교육 자료 작성 출판사 사전, EFL 교재 언어공학자 언어 + 컴퓨터 도구, AI, NLP 학생/언어 학습자 컴퓨터공학자 정보 검색 심리학자/신경학자 보편적 ‘규범’ 또는 기준 사전편찬자 NLP 연구자
11
왜 BNC XML인가? 여전히 널리 사용되고 있음 ... 그러나 기술 동향은 다음으로 옮겨졌음
Unicode XML은 SGML의 변종 ... 한 속성이 특이함 XML 도구는 널리 보급되어 있음 XML 변환은 쉽게, (상당히) 자동적으로 처리될 수 있었음 ... 그러나 추적 가능성이 더 높은 마크업으로써 일부 말끔하지 못한 요소가 제거될 필요가 있었음
12
BNC의 구성은?
13
바늘과 건초더미 BNC가 포괄하는 엄청난 영역 문제는 찾아내는 것
여행사 브로셔, 일기예보, 초청장, 광고, 홍보 리플릿, 어린이의 대화, 학문적 담화, 의사 소견, 마케팅 회의, 구전설화, 농담과 일화, 문학작품, 베스트셀러, 사업 서신, 개인의 일기 등등 ... 문제는 찾아내는 것 WLD 원칙 분류 방법
14
BNC 선정 기준 문어 텍스트 선정 기준 (90%) 구어 전사물 선정 기준 (10%)
매체 (도서, 신문, 미출판물…) 영역 (정보성, 오락성…) 구어 전사물 선정 기준 (10%) 맥락 기준, 50% 미리 정한 발화 상황 목록 인구통계적으로 표본화, 50% 200명/연령, 성별, 지역으로 표본화 선정기준은 일종의 분류체계를 이루며, 말뭉치 헤더에 정의되어 있음
15
주제는?
16
텍스트의 종류는?
17
기술 기준 구어 텍스트 문어 텍스트 화자 직업, 말씨, 교육수준, 인간 관계… 발화 영역, 지역, 장소 …
저자 연령, 성별, 유형 청취자, 유통, 지위 텍스트 유형별 분류 선정 제약들이 적용된 다음에 이 기준들이 변이 폭을 최대화하는 데 이용됨
18
주석, 인코딩, 마크업 명시화 및 처리 가능화 도구 단일 프레임을 채택하면 세부 자원들을 통합하고 공유하는 것이 쉬워짐
구조 텍스트, 섹션, 문단, 말차례, 문장, 단어... 메타데이터 텍스트 유형, 상황 변수, 문맥 분석 형태론, 통사적 기능, 번역 단일 프레임을 채택하면 세부 자원들을 통합하고 공유하는 것이 쉬워짐 그래서 연구 성과가 제고됨 또한 도구 개발이 훨씬 더 쉬워짐
19
BNC의 구조 wtext teiHeader bncdoc bnc stext 4049 908 bncDoc
20
BNC-XML의 구조 wtext stext div 1 div div div 1,599,692 p p u 784,484 p u
6,026,284 w w w w w w w 98,363,784
21
어휘부류의 주석 CLAWS (Leech, Garside et al) 방식 단어로 간주되는 것은? 어휘부류로 간주되는 것은?
This isn't prima facie obvious, in spite of spelling conventions. NN1 NN2 NP1 NP2 TO0. . .
22
단어와 다수어 영어 철자 때문에 오해할 수 있음 BNC XML에서, “다수어”는 명시적으로 표시됨:
... in spite of common sense ... it wasn't me <mw c5=”PRP”> <w c5=”PRP” pos=”PREP” hw=”in”>in </w> <w c5=”NN1” pos=”SUBST” hw=”spite”>spite </w> <w c5=”PRF” pos=”PREP” hw=”of”>of </w> </mw> <w c5=”PNP” pos=”PREP” hw=”it”>it </w> <w c5=”VBD” pos=”VERB” hw=”be”>was</w> <w c5=”XX0” pos=”ADV” hw=”not”>n't </w> <w c5=”PNP” pos=”PRON” hw=”i”>me </w>
23
머리어와 POS 태그 연산적으로 부가되는 머리어 (Rayson, Fligelstone, et al의 공적임)
C5 태그세트 (57+4)가 축소된 결과 (10 +1) 일부 매핑 이상 가방(portmanteaux) 형태소가 분해되어 첫 요소로 매핑됨 한정사가 형용사로 매핑됨 부정사 TO가 전치사로 매핑됨 리태깅 불가! CLAWS 에러 잔존! corgis
24
문어 텍스트의 구조 대부분의 문어 텍스트는 다양한 계층적 division으로 조직화되어 있다. 이는 헤딩 등에 나타난다.
일부 division 유형: e.g. 장, 절, 이야기, 소절, 컬럼, 앞부분, 일부, 조리법, 리플릿... 모든 구어 텍스트는 “대화conversations” 로 나뉜다. <div level=”1”> <div level=”2”>... </div> <div level=”2”>...</div> </div>
25
문어 텍스트의 속성 유사 문단 문단의 부분 <p> : 문단 <head> : 헤딩 또는 캡션
<list> : 리스트 <quote> : 인용 <lg> : 시의 행 문단의 부분 <hi> : 인쇄적 강조 <corr> : 수정된 구절 <gap> : 고의적 생략 <pb/> : 페이지 나뉨
26
발화 처리 <sp> <speaker> <p> </p></sp>
<s n="20461"> <w c5="NP0" hw="mr." pos="SUBST">Mr. </w> <w c5="NP0" hw="speaker" pos="SUBST">Skinner</w> </s> </speaker>... <p> <s n="20468"> <w c5="DT0" hw="that" pos="ADJ">That </w> <w c5="NN1" hw="millionaire" pos="SUBST">millionaire </w> <w c5="NN1" hw="mammy" pos="SUBST">mammy</w> <w c5="POS" hw="'s" pos="UNC">'s </w> <w c5="NN1" hw="boy" pos="SUBST">boy </w> <c c5="PUN">—</c> <stage> <s n="20469"> <w c5="NN1" hw="interruption" pos="SUBST">Interruption</w> </stage> </p></sp> <s n="20470"> <w c5="NP0" hw="speaker" pos="SUBST">Speaker</w> </speaker> <p> <s n="20471"> <w c5="NN1-VVB" hw="order" pos="SUBST">Order</w> <c c5="PUN">.</c> <s n="20472"> <w c5="VBZ" hw="be" pos="VERB">is </w> <w c5="XX0" hw="not" pos="ADV">not </w> <w c5="AV0" hw="wholly" pos="ADV">wholly </w> <w c5="AJ0" hw="unparliamentary" pos="ADJ">unparliamentary</w> </p> </sp> <!-- HHV -->
27
구어 텍스트의 구조 <u who=”XXX”> <align with=”XXX”/>
시간일치점 표시 화자에 대한 세부 정보는 텍스트 헤더에 기록 구어 동작의 다른 특징들도 역시 기록함
28
구어 텍스트의 속성 <shift> : 음성의 질적인 변화 <vocal> : 성문을 통과하는 비언어적 소리
e.g. 속삭임, 웃음 등 발화 내 구절에 영향을 미치는 별도의 사건이자 음성의 질적인 변화. <vocal> : 성문을 통과하는 비언어적 소리 e.g. 기침, 허밍 잡음 등. <event> : 성문을 통과하지 않는 비언어적 사건 e.g. 지나가는 트럭, 동물 소리, 주지해야 할 정도의 다른 것들 <pause> : 중요한 휴지 정상보다 더 긴 발화 내 또는 발화 사이의 침묵 <unclear> : 불분명한 구절 여러 이유로 들리지 않거나 이해되지 않는 발화나 구절
29
사건 기술 baby baby burped baby cries baby cry baby crying
baby crying in background baby gurgling baby laughing baby noise baby noises baby screaming baby shouting baby shouting over the top baby shouts baby speaking baby squealing baby talk baby talking background chatter background chatter in pub background chatter in pub background chatting shuffling etcetera background conversation 사건 기술
30
성문 기술 <vocal desc=”breath”/>
<vocal desc="big breath"/> <vocal desc="breathing out suddenly"/> <vocal desc="drawing in breath"/> <vocal desc="exhales"/> <vocal desc="indrawn breath"/> <vocal desc="inhales"/> <vocal desc="intake of breath"/> <vocal desc="sharp intake of breath"/> <vocal desc="takes a deep breath"/> <vocal desc="takes breath"/> <vocal desc=”breath”/> <vocal desc=”astonished snort”/>
31
문맥 정보 모든 텍스트에는 TEI 헤더가 모든 일반 데이터는 헤더에 헤더 내의 분류는 개별 텍스트에 의해 지정됨 확인과 분류
특정한 세부사항 (e.g. 화자) 모든 일반 데이터는 헤더에 헤더 내의 분류는 개별 텍스트에 의해 지정됨
32
TEI 헤더의 구조 파일 기술 <fileDesc> 인코딩 기술 프로파일 기술 개정 기술 제목 진술 책임 진술
판 진술 범위 출판 진술 고유 번호 출처 기술 인코딩 기술 태깅 선언 프로파일 기술 생성 [참여자 기술] 텍스트 분류 개정 기술
33
제목 진술 <title>How we won the open: the caddies' stories. Sample containing about words from a book (domain: leisure) </title> <title>Harlow Women's Institute committee meeting. Sample containing about 246 words speech recorded in public context </title> <titleStmt> <title>The age of capital Sample containing about words from a book (domain: world affairs) </title> <respStmt> <resp>Data capture and transcription</resp> <name>Oxford University Press </name> </respStmt> </titleStmt> <title>32 conversations recorded by `Frank' (PS09E) between 21 and 28 February 1992 with 9 interlocutors, totalling 3193 s-units, words, and 3 hours 22 minutes 23 seconds of recordings. </title> <title>[Leaflets advertising goods and products]. Sample containing about words of miscellanea (domain: commerce)</title>
34
판edition 진술 <editionStmt>
<edition>BNC XML Edition, December 2006</edition> </editionStmt> <extent> tokens; w-units; 1436 s-units </extent> <publicationStmt> <distributor>Distributed under licence by Oxford University Computing Services on behalf of the BNC Consortium.</distributor> <availability> This material is protected by international copyright laws and may not be copied or redistributed in any way. Consult the BNC Web Site at for full licencing and distribution conditions.</availability> <idno type="bnc">J0P</idno> <idno type="old"> AgeCap </idno> </publicationStmt>
35
출처 기술1 <sourceDesc>
<bibl><title>The age of capital </title> <author n="HobsbE1" domicile="England">Hobsbawm, E J</author> <imprint n="ABACUS1"> <publisher>Abacus</publisher> <pubPlace>London</pubPlace> <date value="1977">1977</date> </imprint> <pp> </pp> </bibl> </sourceDesc> </fileDesc>
36
출처 기술2 <sourceDesc> <recordingStmt>
<recording xml:id="KE5RE000" n="035201" date=" " time="11:50+" type="Walkman"/> <recording xml:id="KE5RE001" n="035202" <recording xml:id="KE5RE002" n="035203" date=" " time="17:05+" type="Walkman"/> <recording xml:id="KE5RE003" n="035204" date=" " type="Walkman"/> </recordingStmt> </sourceDesc>
37
인코딩 기술 <encodingDesc> <tagsDecl> <namespace name="">
<tagUsage gi="c" occurs="5750"/> <tagUsage gi="corr" occurs="1"/> <tagUsage gi="div" occurs="115"/> <tagUsage gi="gap" occurs="3"/> <tagUsage gi="head" occurs="156"/> <tagUsage gi="hi" occurs="147"/> <tagUsage gi="l" occurs="2"/> <tagUsage gi="lg" occurs="1"/> <tagUsage gi="mw" occurs="256"/> <tagUsage gi="p" occurs="680"/> <tagUsage gi="quote" occurs="3"/> <tagUsage gi="s" occurs="2415"/> <tagUsage gi="w" occurs="41799"/> </namespace> </tagsDecl> </encodingDesc>
38
프로파일 기술(문어) <profileDesc>
<creation date="1962"> </creation> <textClass> <catRef targets="WRI ALLTIM1 ALLAVA2 ALLTYP3 WRIAAG4 WRIAD1 WRIASE1 WRIATY3 WRIAUD3 WRIDOM5 WRILEV2 WRIMED1 WRIPP5 WRISAM3 WRISTA2 WRITAS0"/> <classCode scheme="DLEE">W nonAc: humanities arts</classCode> <keywords scheme="COPAC"> <term>History, Modern - 19th century</term> <term>Capitalism - History - 19th century</term> <term>World, </term> </keywords> </textClass> </profileDesc>
39
분류 코드 사용되는 코드는 헤더에서 미리 선언됨 <taxonomy xml:id="WRIDOM">
<desc>Written Domain</desc> <category xml:id="WRIDOM1"> <catDesc>Imaginative</catDesc> </category> <category xml:id="WRIDOM2"> <catDesc>Natural and pure sciences</catDesc> <category xml:id="WRIDOM3"> <catDesc>Applied sciences</catDesc> ... </taxonomy>
40
프로파일 기술(구어) <profileDesc>
<creation date="1992"> </creation> <particDesc n="108"> <person ageGroup="Ag1" xml:id="PS0X2" role="self" sex="m" soc="DE" dialect="XSS"> <age>20</age> <persName>Wayne</persName> <occupation>unemployed</occupation> <dialect>Central South-west England</dialect> </person> .... </particDesc> <settingDesc> <setting xml:id="KE5SE000" n="035201" who="PS000 PS0X2"> <placeName>Hampshire: Andover </placeName> <locale> local shop </locale> <activity spont="H"> visiting friends</activity> </setting> ... </settingDesc> </profileDesc>
41
영어는 계속 움직였나? 텍스트 유형 주제 전자우편 웹 페이지 / 블로그 SMS 개인 서신 세계화 인터넷 Elvis
Word Perfect
42
시대에 뒤떨어졌나? 말뭉치의 작성과 날짜는 말뭉치에서 이끌어내는 추론에 영향을 미침 대안이 많지 않음
말뭉치의 작성과 날짜는 말뭉치에서 이끌어내는 추론에 영향을 미침 대안이 많지 않음 말뭉치로서의 웹 구어 텍스트의 원천? monitor corpora는 복제 불가 저작권 허용은 반복 불가 BNC 에 대한 양적, 질적 상대평가가 필요함 그러나 “놀랄 만한 양이 존재한다”
43
여전히 유용한 이유는? BNC는 문제를 제기하는 자원임... ... 교사와 학습자 모두를 위함
직관을 보완함(또는 교정함) 학습자 자율성을 증대시킴 모어 화자의 잘못된 믿음을 비판함 ... 교사와 학습자 모두를 위함 XML은 비전문적 소프트웨어로도 더 유용하게 사용될 수 있음 돋보이는 범위와 활용성
44
어디서 얻을 수 있을까? BNC XML: http://www.natcorp.ox.ac.uk XAIRA 현재 DVD에 수록
독립형 단일사용자 라이선스 또는 기관 라이선스 기존 라이선스는 갱신해야 함 XAIRA BNC에 무료로 포함됨 ( 무료 배포) 모든 XML 말뭉치 사용 가능 모든 플랫폼에서 사용 가능(할 듯)
Similar presentations