Problem description and pipeline

Slides:



Advertisements
Similar presentations
스마트 기기를 활용하여 교수 자료 제작하기 성신여자대학교 교육학과 김명랑. Simple substitution or replacement!
Advertisements

김수연 Capstone Design Realization Cost Reduction through Deep Artificial Neural Network Analysis.
김예슬 김원석 김세환. Info Northcutt Bikes Northcutt Bikes The Forecasting problem The Forecasting problem The solution 1~6 The.
Reverse Engineering (RapidForm). 실습 일정 및 프로그램  얻어낸 공간 위치 데이터를 RapidForm (Analysis software) 을 이용하여 3D 객체 생성 후 제출  시간 : 4/11 ( 수요일 ) 오후 6: 30, 오후 9:00.
What Opinion mining? Abstract 이 논문에서는... 1.Different granularity levels (word, sentence, document) 2. Discussion about terms of challenges 3. Discussion.
KUSITMS 6조 더 이상의 커플들의 고민은 없다! 고민을 날려줄 신개념 App 큐시즘 커플 조작단.
7장 텍스트의 처리 7.1. 자연어 처리의 개요 자연어 처리의 중요성 자연어 처리의 기반 기술
2. 문학의 활동 방법 [1] 문학의 수용 01 소설가 구보 씨의 일일 작가 소개 작품 정리 읽기 중 활동 학습 활동.
재료수치해석 HW # 박재혁.
Multimedia Programming 04: Point Processing Departments of Digital Contents Sang Il Park.
Regularization 과적합(overfitting) 문제 Machine Learning.
Machine Learning to Deep Learning_2
스테레오 비젼을 위한 3장 영상의 효율적인 영상정렬 기법
Eliminating noise and other sources of error
Digital image processing을 이용한 Pilling(Grade) 판정
(Classification – Advanced Techniques)
1. 컴파일러 개론 1-1. Compiler 정의 1-2. Language Processing System
심플 프레임 마커: 마커 내부 이미지 및 문자 패턴의 인식 및 추적 기법 구현
정 의 학습의 일반적 정의 기계학습(Machine Learning)의 정의
A SMALL TRUTH TO MAKE LIFE 100%
7장 : 캐시와 메모리.
OpenGL Programming (II) 3D Graphics Fundamentals
Multimedia Programming 05: Point Processing
Data Communications 제 2 장 OSI 참조 모델.
A Dining Context-Aware System with Mobile and Wearable Devices
Multimedia Programming 06: Point Processing3
SSAS 변화된 구조와 사용자 분석 화면 구현 우철웅 기술이사 BI 사업부 인브레인.
포항공과대학교 COMPUTER VISION LAB. 석박통합과정 여동훈
Chapter 1 디지털 영상처리의 개념.
Accelerometer Data Collection and Preprocessing
Progress Seminar 선석규.
제10장 컴퓨터비전 (Computer Vision)
3D Vision Lecture 7 동작 이해 (광류).
8차시: 측정시스템 분석(MSA) 학 습 목 표 학 습 내 용 1. 측정시스템 분석(MSA) 개념 이해
Multimedia Programming 10: Point Processing 5
Machine Vision의 이해
Cluster Analysis (군집 분석)
할 일의 우선순위를 매기기: 스팸(Spam) 분류 예
A SMALL TRUTH TO MAKE LIFE 100%
for Robust Facial Landmark Localization
Multimedia Programming 06: Point Processing 2
Dongchul Kim / / OpenCV Tutorials Course Dongchul Kim / /
노출영역 노출영역의 해당 배너들 클릭 시 실제 기획전 페이지로 이동됩니다..
Medical Instrumentation
Parallel software Lab. 박 창 규
Lab Assignment 3 Deep Learning 1 1.
▶ GTQ - Photoshop 어플리케이션 바 메뉴 표시줄 옵션바 4. 툴 패널 5. 총 30개의 패널
모형 선택과 적합도 지수.
Multimedia Programming 10: Unsharp Masking/ Histogram Equalization
Premiere의 개요 Adobe사에서 제작한 동영상 편집 소트프웨어로 비디오와 오디오 편집뿐만 아니라 애니매이션, 사진 및 그래픽 등을 동영상에 첨가하여 결합된 형태인 디지털 무비(Digital Movie)를 제작하는 프로그램 Premiere는 원래 매킨토시용으로 개발된.
파이프라이닝.
OCR Test Youn Se-hyo Youn Se-hyo 2013.
패턴인식 개론 패턴인식 개요 ( CSCE 666 Pattern Analysis | Ricardo Gutierrez-Osuna | )
과거사 청산, 밝은 미래를 위하여 역사 청산 비교 분석-독일과 우리나라.
매스커뮤니케이션 신문 목원대학교 서 진 희.
키타노카시쇼쿠닌(北の菓子職人) - 「오호츠크의 소금 맛」
좋은징조 담당교수 : 조성제 김도엽 김현일 이상훈.
The normal distribution (정규분포)
1 장. 소개 오일석, 패턴인식, 교보문고, © 오일석, 전북대학교 컴퓨터공학.
1장. 디지털 영상처리의 개념(1) 임은경 2주차 - 디지털영상처리의개념.
Progress Seminar 선석규.
히스토그램 그리고 이진화 This course is a basic introduction to parts of the field of computer vision. This version of the course covers topics in 'early' or 'low'
1 개인과 공동체 04. 사회적 약자 보호 정책 및 지역 격차 해소 정책 사회적 약자 보호 정책 지역 격차 해소 정책
Advanced Data Analytics 데이터분석 전문가
3D Vision This course is a basic introduction to parts of the field of computer vision. This version of the course covers topics in 'early' or 'low' level.
A SMALL TRUTH TO MAKE LIFE 100%
Progress Seminar 신희안.
Progress Seminar 선석규.
소리가 작으면 이어폰 사용 권장!.
Deep Learning Basics Junghwan Goh (Kyung Hee University)
Presentation transcript:

Problem description and pipeline Application example: Photo OCR Problem description and pipeline Machine Learning

The Photo OCR(Optical Character Recognition) problem 문자 감지 문자 인식 LULA B’s ANTIQUE MALL 응용: 자동 이미지 인식 시각장애인 차량 항법 Etc. LULA B’s OPEN LULA B’s

2. 문자 분할 (Character segmentation) Photo OCR pipeline 1. 문자 감지 (text detection) 2. 문자 분할 (Character segmentation) 3. 문자 분류 (Character classification) A N T 4. Spelling correction

Character segmentation Character recognition Photo OCR pipeline Character segmentation Character recognition Image Text detection Break the problem down into a sequence of different machine learning modules

Application example: Photo OCR Sliding windows Machine Learning

문자 감지 보행자(Pedestrian) 감지 Simpler – each rectangle has simillar aspect ratio Difficult – each rectangle has different aspect ratio

pixels in 82x36 image patches 보행자 감지를 위한 감독학습 pixels in 82x36 image patches Positive examples Negative examples

Sliding window detection

Sliding window detection

Sliding window detection

Sliding window detection

Text detection

Text detection Positive examples Negative examples

Text detection (using one rectangle size) Different shade of grey correspond to the probability Expansion Rectangles around operator [David Wu]

문자 분할을 위한 1D 슬라이딩 창(Sliding window) Positive examples (needs a split in the middle) Negative examples Change it to segmentation examples instead:

Photo OCR pipeline 1. 문자 감지 2. 문자 문할 3. 문자 분류 A N T

Application example: Photo OCR 많은 자료 얻기: 인공적 자료 합성 Machine Learning

문자 인식(Character recognition) Q A Sort it, spell antique

photo OCR 을 위한 인공적 자료 합성 Abcdefg Real data [Adam Coates and Tao Wang]

photo OCR 을 위한 인공적 자료 합성 Synthetic data Real data [Adam Coates and Tao Wang]

왜곡 적용에 의한 자료 합성 [Adam Coates and Tao Wang]

Audio on bad cellphone connection 왜곡 적용에 의한 자료 합성 : 음성인식(Speech recognition) Original audio: Audio on bad cellphone connection Noisy background: Crowd Noisy background: Machinery [www.pdsounds.org]

intensity (brightness) of pixel random noise 왜곡 적용에 의한 자료 합성 적용된 왜곡은 시험 자료에서의 잡음/왜곡의 형식의 표현이어야 한다. Audio: 배경 잡음, 나쁜 전화 연결 당신의 자료에 순전한 무작위/의미없는 잡음을 더하는 것은 일반적으로 도움이 되지 않는다. intensity (brightness) of pixel random noise 2x2, add noise [Adam Coates and Tao Wang]

더 많은 자료 얻기에 대하여… 노력하기에 앞서서 낮은 바이어스(low bias) 분류기를 갖었는지 확인하라. (Plot learning curves). 즉, 당신이 낮은 바이어스 분류기를 얻기까지 특징의 개수/신경망의 은닉층 단위 개 수를 증가시켜본다. “우리가 현재 갖고 있는 자료보다 10배를 얻는데 어느 정도의 작업이 소요될까?” 인공적 자료 합성 직접 수집/라벨 붙이기 “크라우드 소스(Crowd source)” (E.g. Amazon Mechanical Turk)

“우리가 현재 갖고 있는 자료보다 10배를 얻는데 어느 정도의 작업이 소요될까?” 더 많은 자료 얻기에 대하여… 노력하기에 앞서서 낮은 바이어스(low bias) 분류기를 갖었는지 확인하라. (Plot learning curves). 즉, 당신이 낮은 바이어스 분류기를 얻기까지 특징의 개수/신경망의 은닉층 단위 개 수를 증가시켜본다. “우리가 현재 갖고 있는 자료보다 10배를 얻는데 어느 정도의 작업이 소요될까?” 인공적 자료 합성 직접 수집/라벨 붙이기 “크라우드 소스(Crowd source)” (E.g. Amazon Mechanical Turk)

Ceiling analysis: What part of the pipeline to work on next Application example: Photo OCR Ceiling analysis: What part of the pipeline to work on next Machine Learning

Character segmentation Character recognition 각 요소에 의한 오류 추정하기 (ceiling analysis) Character segmentation Character recognition Image Text detection 개선을 위해서 파이프라인의 어느 부분에서 당신의 대부분의 시간을 사용해야 하는가? Component Accuracy Overall system 72% Text detection 89% Character segmentation 90% Character recognition 100%

Another ceiling analysis example Face recognition from images (Artificial example) Camera image Preprocess (remove background) Eyes segmentation Face detection Nose segmentation Logistic regression Label Mouth segmentation

Preprocess (remove background) Another ceiling analysis example Camera image Preprocess (remove background) Eyes segmentation Logistic regression Label Nose segmentation Face detection Component Accuracy Overall system 85% Preprocess (remove background) 85.1% Face detection 91% Eyes segmentation 95% Nose segmentation 96% Mouth segmentation 97% Logistic regression 100% Mouth segmentation