우리도 배워야 한다. - Europeana와 BBC 2014 LOD를 말하다. 우리도 배워야 한다. - Europeana와 BBC 2014.5.12. 박진호(성균관대학교 DataLab, jino.kor@gmail.com)
대표 브랜드 … 유럽 디지털문화유산 검색 서비스 데이터 API 2014.6.27. MARU 180 - THINK룸.
Europeana의 모든 프로젝트와 관련 정보 검색 http://pro.europeana.eu 2014.6.27. MARU 180 - THINK룸.
유로피아나는 유럽 전역에 유럽의 문화유산에 대한 자유롭고 신뢰할 수 있는 접근 제공 유로피아나 문화 유산 컨텐츠에 대한 광범위한 접근은 물론 창의, 혁신 촉진 지원 유로피아나 API : 서비스 개발자, 외부의 웹사이트, 응용프로그램이 유로피아나 컬렉션 검색 링크드 오픈 데이터 : 컨텐츠를 재사용하기 위한 방법. 웹에서 유로피아나에서 수집한 메타데이터에 접근하고 더 풍부하게 할 수 있도록 함 2014.6.27. MARU 180 - THINK룸.
1. Europeana - History 2005: 유럽연합집행위원회(European Commission)의 유럽 디지털도서관 프로 젝트 제안(i2010의 중요 전략 중 하나인 디지털도서관) 2007: i2010 자금지원으로 EDLnet(European Digital Library Network 프로토타입 시작 2008: 유로피아나 프로토타입 서비스 시작(11월 20일) 2009: 5백만 건 수집 달성 2010 유로피아나 자금, 컨텐츠 추가 승인 요청 통과(2월). 유로피아나 컬렉션 1,000만건 달성 유럽연합집행위원회의 경쟁력 혁신 프레임워크 프로그램 (CIP CIP ICT-PSP)의 자 2012 : CC0 기준에 준해서 자유롭게 재사용이 가능하도록 유로피아나의 모 든 메타데이터 공개. 유로피아나 켈렉션 2,500백만 달성 2013 : 유럽2020 의 중요한 전략 중 하나로 유럽의 Digital Agenda를 지원하는 중요한 프로젝트로 계속 진행 2014.6.27. MARU 180 - THINK룸.
2. Europeana - APIs 유로피아나 APIs를 통해서 유로피아나의 데이터베이스를 새로운 응용서비 스 개발 등에 직접 활용 가능 REST-API: 유로피아나 웹사이트에서 이용자들이 볼 수 있는 데이터와 동일한 데 이터의 검색과 탐색활동이 가능하도록 함 LOD: SPARQL을 통해서 보다 진보적인 시맨틱 검색, 탐색활동 지원이 가능한 완 전한 데이터셋 다운로드 지원(현재 전체 약 3,100백만 레코드 중 2,000만 데이터 셋을 제공) 2014.6.27. MARU 180 - THINK룸.
3. Europeana - LOD LOD 구조화된 데이터를 발행하는 방법으로 메타데이터가 서로 연결되고 풍부해지도록 함으로써 동일한 컨텐츠에 서로 다른 표현들이 발견될 수 있 도록하고 연관된 자원간의 연결을 만들어냄 유로피아나 포털 안에 존재하는 모든 객체에 대한 메타데이터는 개방되어 있고, CC0 Public Domain Dedication과 유럽의 Data Exchange Agreement(DEA) 규 정에 따라 자유롭게 API를 통해서 다운로드가 가능함 데이터는 EDM(Europeana Data Model)에 따라 모델링 http://creativecommons.org/publicdomain/zero/1.0/ http://pro.europeana.eu/support-for-open-data 2014.6.27. MARU 180 - THINK룸.
EMD EDM은 초기에 Europeana Semantic Elements(ESE) 모델에서 출발 메타데이터 상호운용성 확보 표현하고자 하는 대상객체를 나타내는 메타데이터의 공통 요소 발굴 상호운용성 강화 원본 데이터의 손실을 최소화 객체와 메타데이터 레코드 분리 동일 객체에 대한 다양한 레코드 정보 연결 허용 다른 객체를 하나의 요소로 포함해서 표현되는 객체(예, 그림책)의 표현 지원 통제어휘에 기반해서 개념간의 관계를 반영할 수 있는 구조 메타데이터 상호운용성 확보 서로 다른 데이터 모델간의 조화 특정 도메인별 요구사항들의 조화 데이터 손실을 줄이고 원본 데이터와 함께 운용할 수 있는 방식 고려 2014.6.27. MARU 180 - THINK룸.
3. Europeana Apps 실제 유로피아나의 OpenAPI와 Linked Data를 활용한 응용시스템 개발 사례 현재 약 100개의 사례 존재 2014.6.27. MARU 180 - THINK룸.
2014.6.27. MARU 180 - THINK룸.
4. Europeana Creative Challenge 2013년 2월부터 30개월간 진행 유로피아나가 구축한 콘텐츠를 산업계에서 창의적으로 활용할 수 있도록 지원 2014.6.27. MARU 180 - THINK룸.
5. Europeana - Cloud 유로피아나의 메타데이터를 보다 풍부하게 하고 이용자들에게 메타데이터 는 물론 관련된 콘텐츠 제공 현재의 메타데이터 수집 방식 일방적 커뮤니케이션 구조로 풍부한 메타데이터 확장과 다양한 관점의 반영이 어려움 2014.6.27. MARU 180 - THINK룸.
5. Europeana - Cloud 유로피아나 회원기관들이 공통의 시스템을 통해서 메타데이터를 업로드하 고 메타데이터를 관리(메타데이터 요소명 정의, 편집, 삭제, 주석 달기 등) 수행 3 Party들이 메타데이터를 관리(다운로드, 편집, 삭제, 주석 달기 등) 허용 연구자 집단의 참여 허용 2014.6.27. MARU 180 - THINK룸.
6. Europeana Business Plan 유로피아나 참여 기관은 하나의 생태계로써 유기적으로 움직여야 함 데이터 모델링, 관련 지적재산권 등 모두가 유로피아나의 켄텐츠를 이익창출이 가능한 구조 구축 네트워크의 효과를 통해 일반이용자(최종이용자)도 새로운 서비스 개발이 가능한 도구와 인프라 제공 개방과 공유에 더욱 집중 지식정보에 접근하기 위한 가자 기본은 메타데이터로 이런 데이터들이 제대로 충분히 개방되고 있는지 점검 향후에는 개방된 데이터들이 어떻게 활용되고 있는지를 증명할 것임 2014.6.27. MARU 180 - THINK룸.
1. BBC의 문제 온라인으로 텍스트, 비디오, 오디오 등 많은 컨텐츠를 게시함 대부분의 데이터가 방송별 브랜드와 특정 지식분야를 위한 것임 특정 지식분야: 음식, 음악, 뉴스 등 특정 지식분야 상호간의 인터링킹은 존재하지 않았으며, 데이터를 충분히 활용하고 있지 못함 2014.6.27. MARU 180 - THINK룸.
2. 해결방향 DBPedia는 통제어휘집으로써의 역할과 서비스를 제공 새로운 시스템으로 구 시스템을 부드럽고 유연하게 전환 BBC의 라디오, TV채널, 프로그램 브랜드를 지원할 수 있는 서비스 개발 (bbc.co.uk/programmes) 기존에 개방형 웹 표준(LOD)을 준수하는 서비스와 통합된 새로운 음악 서비스 제공(bbc.co.uk/music) 아주 간단한 탐색 요소(네비게이션 요소)로 상황적, 의미적 탐색 지원 모든 BBC 온라인 컨텐츠를 분류하고 여러 어휘집 사이에 동등성을 확보하기 위 해 웹 식별자 활용 2014.6.27. MARU 180 - THINK룸.
2. 해결방향 BBC 도메인 간에 연결 지행: 프로그램, 사람, 장소, 주제 간의 관계설정 CIS(자동 분류 시스템)로 데이터는 자동으로 분류됨 CIS는 5개의 주요 상위 Class로 구성(Proper names, Subjects, Brands, Time periods, Places) 객체는 다양한 도메인에서(프로그램, 음악 등) 사용될 수 있고 동일명칭의 경우 매핑을 통해서 구분하고 식별함 CIS의 개념을 Dbpedia와 연결 2014.6.27. MARU 180 - THINK룸.
2. 해결방향 공유(공통) 모델링 + 공유(공통) 언어(표현방식) 공유(공통)의 이해 = 지속적인 이용자 경험 주제별, 도메인별 공유(공통)된 기본 요소(장소, 사람 등)에 의한 온톨로지 모델링과 누구나 이해가능한 구조의 모델링(properties 구성) RDF/OWL 등 표준 준수 DBPedia 등 동일 개념에 대한 연결 결국에는 이용자에게 혜택 제공 2014.6.27. MARU 180 - THINK룸.
3. DSP(Dynamic Semantic Publishing) Framework BBC 링크드 데이터의 핵심 BBC 스포츠 사이트, BBC 2012 올림픽 콘텐츠 작성에 직접 활용 DSP는 향상된 이용자 경험과 참여 수준을 높이기 위해 자동적으로 통합, 출 판, 게시, 컨텐츠 객체의 목적변경 등을 온톨로지 모델에 기반한 정보 설계 로 해결하고 있으면 핵심으로 링크드 데이터 기술을 활용하고 있음 DSP는 HTML과 RDF로 데이터를 출판하고 또한 내부적으로 관리함 DSP의 RDF 활용은 RDF가 의미 탐색, 콘텐츠 재사용, 검색엔진 순위 등에 있 어서 자동화된 처리가 가능하여 효율적이며, 다차원적인 접근점과 풍부한 정보 탐색을 가능하게 함에 기인 DSP는 관련자(기사작성자 등)들의 최소한의 관리만을 요구하며, 대부분의 출판 자료는 자동으로 메타데이터와 콘텐츠 상태를 수집하고 관련된 이야 기나 BBC 정보자산과 링크를 관계를 설정함 2014.6.27. MARU 180 - THINK룸.
2010년 월드컵에 적용된 BBC내 정보자산, 태그, 도메인 온톨로지 관계도 2014.6.27. MARU 180 - THINK룸.
4. BBC Linked Data Platform DSP가 자연스럽게 진화한 형태로 뉴스나 스포츠기사에 의미적 태깅을 부여 한 것과 같이 BBC의 모든 컨텐츠에 태깅을 허용한다는 생각에 기초 BBC가 관심을 갖는 모든 유형의 주제(스포츠, 정치, 자연, 음악 등)에 대해서 링 크드 데이터 질의와 저장이 가능한 과정과 도구 제공 현재 BBC 링크드 데이터의 대표적인 사례로 거론되는 BBC Programmes과 Music을 포함해서 BBC는 매일 엄청난 양의 기사를 생산, 저장 기존의 BBC 콘텐츠 관리 시스템은 개방되고 연결된 구조의 웹에서 재활용되고 서비스되는데 부적합 링크드 데이터 플랫폼은 의미태깅에 따라 출판되는 각각의 저작물에 일반적인 메타데이터 모델을 적용하여 저장하는데 이 모델은 모든 유형의 컨텐츠에 적용 가능한 유용한 속성들을 포함하고 있어 서로 다른 시스템과의 컨텐츠 조합을 쉽 게 함 2014.6.27. MARU 180 - THINK룸.
4. BBC Linked Data Platform DSP가 자연스럽게 진화한 형태로 뉴스나 스포츠기사에 의미적 태깅을 부여 한 것과 같이 BBC의 모든 콘텐츠에 태깅을 허용한다는 생각에 기초 링크드 데이터 플랫폼의 주 목적은 모든 BBC 저작물이 데이터 뒤에 숨겨져 있는 의미를 이해할 수 있도록 하고 “things”에 대한 검색이 가능하도록 하는 API를 제 공하는 것임 이는 해당 객체(things)가 갖는 미래의 모습을 예측하는 것이 아니고 현재 존재하 는 이 객체와 관련된 사실들과의 연결을 가능하게 하는 것임 현재 BBC는 음악, 스포츠(축구와 올림픽), 정치, 학습 분야를 플랫폼에서 출판하 고 있으며 향후 다양하게 발전할 것임 2014.6.27. MARU 180 - THINK룸.
5. BBC News Juicer 모든 BBC의 뉴스와 스포츠 기사에 대해서 개념(사람, 장소, 시간, 사건 등)을 추출하고 외부 데이터셋(DBpedia, GeoNames 등)과 동일 개념으로 matching 시맨틱 프로토타이핑 플랫폼으로 개념 추출(Concept extraction) - DBPedia로 의미적 개념 매칭(Semantic concept matching to DBPedia) - 의미적 주석(Semantic Annotation) - RDF 저장 등의 과정을 지원 2014.6.27. MARU 180 - THINK룸.
6. 실제 웹사이트를 구축하는 방식 개념적 모델링: 도메인별 전문가와 실제 이용자 참여. 중요 요소 리스트화 및 관계설정 구축될 웹 페이지가 아니라 모델링 대상에만 집중 데이터모델링 URI 디자인: 사람중심의 가독성, hackable, 지속적인 접근성, 각각의 객체를 구분할 수 있는 하나의 식별자, 향후 변화가 가능한 명칭-구조는 제외 웹 페이지 디자인: 모든 객체를 표현할 수 있는 각각의 페이지 구성 레이아웃 적용 테스트: 시스템적 기능, 성능 외에 개념적 모델링이 반영되었는가 등 확인 2014.6.27. MARU 180 - THINK룸.
유럽연합의 프로젝트: 2012년 11월 ~ 2014년 11월 FP7의 지원 프로젝트: 교육관련 기관이 웹에서 활용 가능한 공공, 개방형 데이터 의 채택과 개발을 지원
Linked Education Cloud는 교육적 애플리케이션과 관련된 웹 데이터셋의 저장소 이자 목록 Web of Data 즉, Linked Data 원칙(표준)에 맞추어 데이터를 제공하고 Linked Up Community로부터 입력된 데이터에 기초하여 구축
3competitions: Veni, Vidi, Vici(왔노라, 보았노라, 이겼노라) 교육을 목적으로 하는 개방형 웹 데이터의 통합과 분석을 위한 툴 디자인 및 개 발 Veni Competition: 2013년 6월 - 2013년 9월 Vidi Competition: 2013년 11월 – 2014년 5월 Vici Competition: 2014년 6월 – 2014년 10월
Open Education은 가장 일반적이고 광범위하게 활용되고 있는 Open Educational Resources(OER: 자유롭게 접근이 가능하고 교수, 학습, 연구 등 교육관련 활동에 있어서 개방형 라이센스로 자유롭게 활용 가능한 자원)의 개념으로 생각하지만, Open Education은 교육적 데이터와 관련된 것들을 개방하는 측면을 포함하는 보다 OER 보다 광범위한 개념 Open Education 작업반은 Open Education에 관심이 있는 사람이나 조직 모두를 위해 설립
Europeana BBC LinkedUp 유럽 문화유산에 대한 통합적 접근점 제공 노력 디지털 documents 서비스에서 자연스럽게 data 중심 서비스 강화로 변화 (이용자와 제공 컨텐츠의 활성화 측면에서 고려) 단순 데이터 서비스 강화가 아니라 명확한 비전-목표-실행계획-단위과제 아래에 필요한 연구, 기술인프라, 개발, 장기적 이용자 참여 수행 BBC LOD로 공개된 데이터의 적극적 채용과 활용 LOD는 BBC의 문제점 해결하고 보다 나은 서비스 제공을 위한 방법으로 선택 (받아들여야하는 기술 트렌드로 선택한 방법이 아님) LinkedUp LOD 데이터는 더 많아져야 하지만 내가 필요한 (특정 도메인) 데이터를 찾기는 여 전히 어려움 특정 도메인이나 목적(Open Education)/용도/필요성이 명확한 또 다른 노력이 LOD 에 필요함 2014.6.27. MARU 180 - THINK룸.
[참고자료] Atherton, M. (2011), Beyond the Polar Bear [PowerPoint slides]. Retrieved from http://www.slideshare.net/reduxd/beyond-the-polar-bear http://linkedup-challenge.org/ http://www.bbc.co.uk/blogs/internet http://www.europeana.eu http://linkedup-project.eu/ 2014.6.27. MARU 180 - THINK룸.