Exemplo n.º 1
0
 def test_split_simple(self):
     assert tokenize(u"Ich bin krank") == [u"Ich", u"bin", u"krank"]
Exemplo n.º 2
0
 def test_split_abbrev(self):
     assert tokenize(u"ggf. kommen wir auf Ihr Angebot zurück") == [
         u'ggf.', u'kommen', u'wir', u'auf', u'Ihr', u'Angebot', u'zurück'
     ]
Exemplo n.º 3
0
 def test_split_punct(self):
     assert tokenize(u"Ich bin krank, sie auch; ich auch") == [
         u'Ich', u'bin', u'krank', u'sie', u'auch', u'ich', u'auch'
     ]
Exemplo n.º 4
0
 def test_split_url(self):
     assert tokenize(u"www.akbank.com.tr ich du Sie bahn.de") == [
         u'www.akbank.com.tr', u'ich', u'du', u'Sie', u'bahn.de'
     ]
Exemplo n.º 5
0
 def test_split_email(self):
     assert tokenize(u"Bitte schreiben Sie an [email protected] ") == [
         u"Bitte", u"schreiben", u"Sie", u"an", u"*****@*****.**"
     ]
Exemplo n.º 6
0
 def test_split_hypen(self):
     assert tokenize(u"Wir können uns auf der U-Bahn treffen") == [
         u'Wir', u'können', u'uns', u'auf', u'der', u'U-Bahn', u'treffen.'
     ]