INHA UNIVERSITY, KOREA 정보통신산업진흥원
INHA UNIVERSITY, KOREA 서론 LOD, LOD2 와 개체 식별 해외 기술 동향 국내 기술 동향 결론 2
INHA UNIVERSITY, KOREA 시맨틱 웹 기술 발전과 지능형 서비스 데이터 연계 및 병합에 효과적인 온톨로지 사용 LOD 2010 년부터 LOD2 프로젝트 수행 데이터 상호 연계와 데이터 품질 관리, 대용량 데이터 처리 및 유용성 향상을 위한 연구 수행 LOD, LOD2 소개를 통한 온톨로지 연계 중요성 개체 식별 현황과 이슈 분석 3
INHA UNIVERSITY, KOREA 데이터 상호 연계를 위한 데이터 출판 및 접근 원칙을 제공 동질적인 도메인 데이터와 이질적인 도메인 데이터 연계에 중요한 역할 수행 산업체 정보 공동 활용 BBC, Thomson Reuters, Eli Lilly 참여 분야 확대, 분야별 온톨로지의 규모 증가 온톨로지 내 데이터 간 관계 규모가 기하급수적으로 증가 데이터 일관성, 품질, 관리, 활용 및 도구 개발 요구 4
INHA UNIVERSITY, KOREA 5
6
Leipzig Univ, DERI Galway, FU Berlin 등 10 개 이상 산학연 협업 프로젝트 상호 연계된 데이터에서 지식을 생성하기 위해서 지능형 정보 관리 (Intelligent Information Management) 를 목표 Challenge 일관성 (Coherence): 개체간 상호 참조 링크의 확대 및 관리 품질 (Quality): 오류가 없는 데이터를 확보 저장 (Storage): RDBMS 의 성능에 준하는 시맨틱 저장소 개발 소비 (Consumption): 대용량 데이터 처리, 스키마 매핑 및 데이터 병합 사용성 (Usability): 사용자를 위한 직관적인 도구 개발 7
INHA UNIVERSITY, KOREA 8 LOD2 서비스와 UI 컴포넌트
INHA UNIVERSITY, KOREA 기존 개체 식별 연구 문헌 정보에 출현한 저자 식별 연구 중심 문헌 정보를 이용한 저자 식별 연구 대용량 평가 셋을 구축하고 문헌 정보와 웹 검색을 통해 획득한 자질을 이용한 저자 식별 연구 학술정보서비스 (Scopus) 에 저자 식별 결과를 이용한 학술 정보 서비스 온톨로지와 LOD 의 연계 특정 개체 URI 를 다른 온톨로지 내에 존재하는 해당 개체를 지칭하는 다른 URI 들과 동일 관계로 연계 정확하며 큰 규모 온톨로지 확보 개체 식별 – 표준에서 정의된 관계 속성 이용 owl:sameAs, owl:differentFrom, owl:AllDifferent 문제점 보유 온톨로지 내 개체 URI 와 대응하는 개체 URI 검색의 어려움 LOD 에 포함된 동일 개체 관계에 대한 일부 오류 개체 식별을 통해 URI 정합성 확보가 필요 9
INHA UNIVERSITY, KOREA European Bioinformatics Institute 에서 제공하는 개체 식별 서비스 생물 정보학 분야 정보인 MIRIAM (Minimum information requested in the Annotation of biological Models) 을 위한 서비스 MIRIAM Registry 기반으로 정보 관리와 서비스 제공 정보 간 교환과 재사용성을 확보하기 위해 모든 정보에 URI 부여 데이터가 시스템에 입력되기 전에 정합성 검사를 거쳐 Annotation models 을 생성 전문가에 의해 이루어지기 때문에 데이터 오류가 적음 생성된 계산 모델은 상호 참조, 용어 검색, 모델 군집화, 유전자 온톨로지 탐색, 형식 변환이 가능 특정 분야 제한된 서비스는 전문가가 수집된 데이터를 정제 관리하기 때문에 높은 URI 식별 정확도를 보임 10
INHA UNIVERSITY, KOREA 11
INHA UNIVERSITY, KOREA LOD 를 위한 개체 식별 서비스 서로 다른 온톨로지에서 동일 지시 (Co-Reference) URI 를 찾아 사용자에게 제공 RKBExplorer.com 의 CRS 이용 동일 지시 URI 를 모아 신규 URI 를 부여하고, 이 URI 를 중심으로 관리 RKBExplorer.com 로컬 저장소에 64 개 온톨로지 수집 병합을 위해 AKT Reference Ontology 적용 및 재구성 통합 지식 베이스 제공 장점 식별 대상 분야에 제한이 없다 쉬운 정보 검색을 위해 웹 페이지를 통한 서비스 제공 다양한 형식의 결과 제공 12
INHA UNIVERSITY, KOREA 13
INHA UNIVERSITY, KOREA 분산된 다중 온톨로지 환경에서 개체 식별을 기반으로 서비스 개체 식별후 URI 부여 URI 를 통해 개체 수집 관리 개체 식별 엔지 이용 Jolly String Metrics 기반 개체명과 속성 유사도, 속성 가중치 이용 FBEM (The Feature Based Entity Match Algorithm) 속성명과 값 비교, 시소러스나 번역서 사전을 통한 다국어 처리에 유용 Eureka 속성명과 값의 분포를 색인하여 유사한 속성값을 가지는 후보군을 점진적으로 생성하면서 식별 14
INHA UNIVERSITY, KOREA 15
INHA UNIVERSITY, KOREA 범용적인 식별 대상과 정확한 식별을 위한 KISTI 의 개체 식별 서비스 LOD 에서 사용자가 원하는 키워들 입력 받아 키워드나 URI 와 연관된 동일 지시 URI 를 식별 URI 가 지칭하는 관련 정보의 실제 값을 이용하여 보다 정확한 식별 결과와 식별 결과 관리 기능을 제공 sameAs.org: 온톨로지에 포함된 일부 오류가 여과 없이 반영되어 정합성 보장을 못하는 경우가 발생 OntoURIResolver 는 개체가 가지는 자질의 실제 속성 값을 비교하여 오류가 포함된 데이터를 필터링 16
INHA UNIVERSITY, KOREA 온톨로지를 구성하는 인스턴스에 대한 URI 부여 및 관리의 중요성 증대 LOD 기반 데이터 상호 연계 및 품질 관리, 대용량 데이터 처리를 위한 LOD2 프로젝트 시작 EBI 의 Identifiers.org, 영국 Southampton 대학의 sameAs.org, EU 의 OKKAM, KISTI 의 OntoURIResolver 새로운 인스턴스에 URI 부여 기존 인스턴스에 부여된 URI 들과의 관계 생성 지원 LOD 내 데이터 상호 연계를 용이하게 함 LOD 데이터 셋 규모 증가, 개체 종류 및 온톨로지 속성 다양화 다중 온톨로지 속성을 활용한 보다 정확한 개체 식별 서비스 요구 17