CoCalc -- test_letter

GitHub Repository: Tetragramm/opencv
Path: blob/master/modules/python/test/test_letter_recog.py
¹⁶³³⁷ views
1
#!/usr/bin/env python
2

3
'''
4
The sample demonstrates how to train Random Trees classifier
5
(or Boosting classifier, or MLP, or Knearest, or Support Vector Machines) using the provided dataset.
6

7
We use the sample database letter-recognition.data
8
from UCI Repository, here is the link:
9

10
Newman, D.J. & Hettich, S. & Blake, C.L. & Merz, C.J. (1998).
11
UCI Repository of machine learning databases
12
[http://www.ics.uci.edu/~mlearn/MLRepository.html].
13
Irvine, CA: University of California, Department of Information and Computer Science.
14

15
The dataset consists of 20000 feature vectors along with the
16
responses - capital latin letters A..Z.
17
The first 10000 samples are used for training
18
and the remaining 10000 - to test the classifier.
19
======================================================
20
  Models: RTrees, KNearest, Boost, SVM, MLP
21
'''
22

23
# Python 2/3 compatibility
24
from __future__ import print_function
25

26
import numpy as np
27
import cv2 as cv
28

29
def load_base(fn):
30
    a = np.loadtxt(fn, np.float32, delimiter=',', converters={ 0 : lambda ch : ord(ch)-ord('A') })
31
    samples, responses = a[:,1:], a[:,0]
32
    return samples, responses
33

34
class LetterStatModel(object):
35
    class_n = 26
36
    train_ratio = 0.5
37

38
    def load(self, fn):
39
        self.model.load(fn)
40
    def save(self, fn):
41
        self.model.save(fn)
42

43
    def unroll_samples(self, samples):
44
        sample_n, var_n = samples.shape
45
        new_samples = np.zeros((sample_n * self.class_n, var_n+1), np.float32)
46
        new_samples[:,:-1] = np.repeat(samples, self.class_n, axis=0)
47
        new_samples[:,-1] = np.tile(np.arange(self.class_n), sample_n)
48
        return new_samples
49

50
    def unroll_responses(self, responses):
51
        sample_n = len(responses)
52
        new_responses = np.zeros(sample_n*self.class_n, np.int32)
53
        resp_idx = np.int32( responses + np.arange(sample_n)*self.class_n )
54
        new_responses[resp_idx] = 1
55
        return new_responses
56

57
class RTrees(LetterStatModel):
58
    def __init__(self):
59
        self.model = cv.ml.RTrees_create()
60

61
    def train(self, samples, responses):
62
        #sample_n, var_n = samples.shape
63
        self.model.setMaxDepth(20)
64
        self.model.train(samples, cv.ml.ROW_SAMPLE, responses.astype(int))
65

66
    def predict(self, samples):
67
        _ret, resp = self.model.predict(samples)
68
        return resp.ravel()
69

70

71
class KNearest(LetterStatModel):
72
    def __init__(self):
73
        self.model = cv.ml.KNearest_create()
74

75
    def train(self, samples, responses):
76
        self.model.train(samples, cv.ml.ROW_SAMPLE, responses)
77

78
    def predict(self, samples):
79
        _retval, results, _neigh_resp, _dists = self.model.findNearest(samples, k = 10)
80
        return results.ravel()
81

82

83
class Boost(LetterStatModel):
84
    def __init__(self):
85
        self.model = cv.ml.Boost_create()
86

87
    def train(self, samples, responses):
88
        _sample_n, var_n = samples.shape
89
        new_samples = self.unroll_samples(samples)
90
        new_responses = self.unroll_responses(responses)
91
        var_types = np.array([cv.ml.VAR_NUMERICAL] * var_n + [cv.ml.VAR_CATEGORICAL, cv.ml.VAR_CATEGORICAL], np.uint8)
92

93
        self.model.setWeakCount(15)
94
        self.model.setMaxDepth(10)
95
        self.model.train(cv.ml.TrainData_create(new_samples, cv.ml.ROW_SAMPLE, new_responses.astype(int), varType = var_types))
96

97
    def predict(self, samples):
98
        new_samples = self.unroll_samples(samples)
99
        _ret, resp = self.model.predict(new_samples)
100

101
        return resp.ravel().reshape(-1, self.class_n).argmax(1)
102

103

104
class SVM(LetterStatModel):
105
    def __init__(self):
106
        self.model = cv.ml.SVM_create()
107

108
    def train(self, samples, responses):
109
        self.model.setType(cv.ml.SVM_C_SVC)
110
        self.model.setC(1)
111
        self.model.setKernel(cv.ml.SVM_RBF)
112
        self.model.setGamma(.1)
113
        self.model.train(samples, cv.ml.ROW_SAMPLE, responses.astype(int))
114

115
    def predict(self, samples):
116
        _ret, resp = self.model.predict(samples)
117
        return resp.ravel()
118

119

120
class MLP(LetterStatModel):
121
    def __init__(self):
122
        self.model = cv.ml.ANN_MLP_create()
123

124
    def train(self, samples, responses):
125
        _sample_n, var_n = samples.shape
126
        new_responses = self.unroll_responses(responses).reshape(-1, self.class_n)
127
        layer_sizes = np.int32([var_n, 100, 100, self.class_n])
128

129
        self.model.setLayerSizes(layer_sizes)
130
        self.model.setTrainMethod(cv.ml.ANN_MLP_BACKPROP)
131
        self.model.setBackpropMomentumScale(0)
132
        self.model.setBackpropWeightScale(0.001)
133
        self.model.setTermCriteria((cv.TERM_CRITERIA_COUNT, 20, 0.01))
134
        self.model.setActivationFunction(cv.ml.ANN_MLP_SIGMOID_SYM, 2, 1)
135

136
        self.model.train(samples, cv.ml.ROW_SAMPLE, np.float32(new_responses))
137

138
    def predict(self, samples):
139
        _ret, resp = self.model.predict(samples)
140
        return resp.argmax(-1)
141

142
from tests_common import NewOpenCVTests
143

144
class letter_recog_test(NewOpenCVTests):
145

146
    def test_letter_recog(self):
147

148
        eps = 0.01
149

150
        models = [RTrees, KNearest, Boost, SVM, MLP]
151
        models = dict( [(cls.__name__.lower(), cls) for cls in models] )
152
        testErrors = {RTrees: (98.930000, 92.390000), KNearest: (94.960000, 92.010000),
153
         Boost: (85.970000, 74.920000), SVM: (99.780000, 95.680000), MLP: (90.060000, 87.410000)}
154

155
        for model in models:
156
            Model = models[model]
157
            classifier = Model()
158

159
            samples, responses = load_base(self.repoPath + '/samples/data/letter-recognition.data')
160
            train_n = int(len(samples)*classifier.train_ratio)
161

162
            classifier.train(samples[:train_n], responses[:train_n])
163
            train_rate = np.mean(classifier.predict(samples[:train_n]) == responses[:train_n].astype(int))
164
            test_rate  = np.mean(classifier.predict(samples[train_n:]) == responses[train_n:].astype(int))
165

166
            self.assertLess(train_rate - testErrors[Model][0], eps)
167
            self.assertLess(test_rate - testErrors[Model][1], eps)
168

169

170
if __name__ == '__main__':
171
    NewOpenCVTests.bootstrap()
172

173
Product

Resources

Company