Download presentation
Presentation is loading. Please wait.
1
Problem description and pipeline
Application example: Photo OCR Problem description and pipeline Machine Learning
2
The Photo OCR(Optical Character Recognition) problem
문자 감지 문자 인식 LULA B’s ANTIQUE MALL 응용: 자동 이미지 인식 시각장애인 차량 항법 Etc. LULA B’s OPEN LULA B’s
3
2. 문자 분할 (Character segmentation)
Photo OCR pipeline 1. 문자 감지 (text detection) 2. 문자 분할 (Character segmentation) 3. 문자 분류 (Character classification) A N T 4. Spelling correction
4
Character segmentation Character recognition
Photo OCR pipeline Character segmentation Character recognition Image Text detection Break the problem down into a sequence of different machine learning modules
5
Application example: Photo OCR Sliding windows Machine Learning
6
문자 감지 보행자(Pedestrian) 감지
Simpler – each rectangle has simillar aspect ratio Difficult – each rectangle has different aspect ratio
7
pixels in 82x36 image patches
보행자 감지를 위한 감독학습 pixels in 82x36 image patches Positive examples Negative examples
8
Sliding window detection
9
Sliding window detection
10
Sliding window detection
11
Sliding window detection
12
Text detection
13
Text detection Positive examples Negative examples
14
Text detection (using one rectangle size) Different shade of grey
correspond to the probability Expansion Rectangles around operator [David Wu]
15
문자 분할을 위한 1D 슬라이딩 창(Sliding window)
Positive examples (needs a split in the middle) Negative examples Change it to segmentation examples instead:
16
Photo OCR pipeline 1. 문자 감지 2. 문자 문할 3. 문자 분류 A N T
17
Application example: Photo OCR 많은 자료 얻기: 인공적 자료 합성 Machine Learning
18
문자 인식(Character recognition)
Q A Sort it, spell antique
19
photo OCR 을 위한 인공적 자료 합성 Abcdefg Real data [Adam Coates and Tao Wang]
20
photo OCR 을 위한 인공적 자료 합성 Synthetic data Real data
[Adam Coates and Tao Wang]
21
왜곡 적용에 의한 자료 합성 [Adam Coates and Tao Wang]
22
Audio on bad cellphone connection
왜곡 적용에 의한 자료 합성 : 음성인식(Speech recognition) Original audio: Audio on bad cellphone connection Noisy background: Crowd Noisy background: Machinery [
23
intensity (brightness) of pixel random noise
왜곡 적용에 의한 자료 합성 적용된 왜곡은 시험 자료에서의 잡음/왜곡의 형식의 표현이어야 한다. Audio: 배경 잡음, 나쁜 전화 연결 당신의 자료에 순전한 무작위/의미없는 잡음을 더하는 것은 일반적으로 도움이 되지 않는다. intensity (brightness) of pixel random noise 2x2, add noise [Adam Coates and Tao Wang]
24
더 많은 자료 얻기에 대하여… 노력하기에 앞서서 낮은 바이어스(low bias) 분류기를 갖었는지 확인하라. (Plot learning curves). 즉, 당신이 낮은 바이어스 분류기를 얻기까지 특징의 개수/신경망의 은닉층 단위 개 수를 증가시켜본다. “우리가 현재 갖고 있는 자료보다 10배를 얻는데 어느 정도의 작업이 소요될까?” 인공적 자료 합성 직접 수집/라벨 붙이기 “크라우드 소스(Crowd source)” (E.g. Amazon Mechanical Turk)
25
“우리가 현재 갖고 있는 자료보다 10배를 얻는데 어느 정도의 작업이 소요될까?”
더 많은 자료 얻기에 대하여… 노력하기에 앞서서 낮은 바이어스(low bias) 분류기를 갖었는지 확인하라. (Plot learning curves). 즉, 당신이 낮은 바이어스 분류기를 얻기까지 특징의 개수/신경망의 은닉층 단위 개 수를 증가시켜본다. “우리가 현재 갖고 있는 자료보다 10배를 얻는데 어느 정도의 작업이 소요될까?” 인공적 자료 합성 직접 수집/라벨 붙이기 “크라우드 소스(Crowd source)” (E.g. Amazon Mechanical Turk)
26
Ceiling analysis: What part of the pipeline to work on next
Application example: Photo OCR Ceiling analysis: What part of the pipeline to work on next Machine Learning
27
Character segmentation Character recognition
각 요소에 의한 오류 추정하기 (ceiling analysis) Character segmentation Character recognition Image Text detection 개선을 위해서 파이프라인의 어느 부분에서 당신의 대부분의 시간을 사용해야 하는가? Component Accuracy Overall system 72% Text detection 89% Character segmentation 90% Character recognition 100%
28
Another ceiling analysis example
Face recognition from images (Artificial example) Camera image Preprocess (remove background) Eyes segmentation Face detection Nose segmentation Logistic regression Label Mouth segmentation
29
Preprocess (remove background)
Another ceiling analysis example Camera image Preprocess (remove background) Eyes segmentation Logistic regression Label Nose segmentation Face detection Component Accuracy Overall system 85% Preprocess (remove background) 85.1% Face detection 91% Eyes segmentation 95% Nose segmentation 96% Mouth segmentation 97% Logistic regression 100% Mouth segmentation
Similar presentations