def setUp(self): self.unicodeInput = u'p. Zażółć _gęślą_ *jaźń* tak, ' + \ u'jak to jest opisane "tutaj":http://o2.pl/.' self.unicodeTokens = (u'Zażółć', u'gęślą', u'jaźń', u'tak', u'jak', u'to', u'jest', u'opisane', u'tutaj') self.stringInput = 'p. Zażółć _gęślą_ *jaźń* tak, ' + \ 'jak to jest opisane "tutaj":http://o2.pl/.' self.stringTokens = ('Zażółć', 'gęślą', 'jaźń', 'tak', 'jak', 'to', 'jest', 'opisane', 'tutaj') self.tokenizer = Tokenizer()
class TokenizerTest(unittest.TestCase): def setUp(self): self.unicodeInput = u'p. Zażółć _gęślą_ *jaźń* tak, ' + \ u'jak to jest opisane "tutaj":http://o2.pl/.' self.unicodeTokens = (u'Zażółć', u'gęślą', u'jaźń', u'tak', u'jak', u'to', u'jest', u'opisane', u'tutaj') self.stringInput = 'p. Zażółć _gęślą_ *jaźń* tak, ' + \ 'jak to jest opisane "tutaj":http://o2.pl/.' self.stringTokens = ('Zażółć', 'gęślą', 'jaźń', 'tak', 'jak', 'to', 'jest', 'opisane', 'tutaj') self.tokenizer = Tokenizer() def testSetFlagsSuccess(self): self.tokenizer.setInput(self.unicodeInput) self.failUnless(self.tokenizer.flags == re.UNICODE) def testGetTokensUnicodeSuccess(self): self.tokenizer.setInput(self.unicodeInput) tokens = self.tokenizer.getTokens() i = 0 for t in self.unicodeTokens: self.failUnless(tokens[i] == t, u'%s <> %s' % (tokens[i], t)) i = i + 1 def testGetTokensUnicodeFailure(self): self.tokenizer.setInput(self.unicodeInput) tokens = self.tokenizer.getTokens() badTokens = self.unicodeInput.split() self.failIf(len(tokens) == len(badTokens))