Пример #1
0
 def setUp(self):
     self.unicodeInput = u'p. Zażółć _gęślą_ *jaźń* tak, ' + \
         u'jak to jest opisane "tutaj":http://o2.pl/.'
     self.unicodeTokens = (u'Zażółć', u'gęślą', u'jaźń', u'tak', u'jak', 
         u'to', u'jest', u'opisane', u'tutaj')
     self.stringInput = 'p. Zażółć _gęślą_ *jaźń* tak, ' + \
         'jak to jest opisane "tutaj":http://o2.pl/.'
     self.stringTokens = ('Zażółć', 'gęślą', 'jaźń', 'tak', 'jak', 
         'to', 'jest', 'opisane', 'tutaj')
     self.tokenizer = Tokenizer()
Пример #2
0
class TokenizerTest(unittest.TestCase):

    def setUp(self):
        self.unicodeInput = u'p. Zażółć _gęślą_ *jaźń* tak, ' + \
            u'jak to jest opisane "tutaj":http://o2.pl/.'
        self.unicodeTokens = (u'Zażółć', u'gęślą', u'jaźń', u'tak', u'jak', 
            u'to', u'jest', u'opisane', u'tutaj')
        self.stringInput = 'p. Zażółć _gęślą_ *jaźń* tak, ' + \
            'jak to jest opisane "tutaj":http://o2.pl/.'
        self.stringTokens = ('Zażółć', 'gęślą', 'jaźń', 'tak', 'jak', 
            'to', 'jest', 'opisane', 'tutaj')
        self.tokenizer = Tokenizer()
    
    def testSetFlagsSuccess(self):
        self.tokenizer.setInput(self.unicodeInput)
        self.failUnless(self.tokenizer.flags == re.UNICODE)

    def testGetTokensUnicodeSuccess(self):
        self.tokenizer.setInput(self.unicodeInput)
        tokens = self.tokenizer.getTokens()
        i = 0
        for t in self.unicodeTokens:
            self.failUnless(tokens[i] == t, u'%s <> %s' % (tokens[i], t))
            i = i + 1
    
    def testGetTokensUnicodeFailure(self):
        self.tokenizer.setInput(self.unicodeInput)
        tokens = self.tokenizer.getTokens()
        badTokens = self.unicodeInput.split()
        self.failIf(len(tokens) == len(badTokens))