Python Tokenizer.tokenize_genの例

プログラミング言語: Python

名前空間/パッケージ名: tok

クラス/型: Tokenizer

メソッド/関数: tokenize_gen

hotexamples.comのコード掲載数: 1

Python Tokenizer.tokenize_gen - 1件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのtok.Tokenizer.tokenize_genの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

Tokenizer(5)

tokenize(2)

tokenize_html(2)

build_vocab(1)

drop(1)

dump(1)

get(1)

get_number(1)

get_number_array(1)

load(1)

tokenize_gen(1)

tokenize_gen_alpha_digit(1)

コード例 #1

ファイルを表示

ファイル: test_tok.py プロジェクト: anastasiaberyoza/python3

class TestTokenizerGen(unittest.TestCase):
    def setUp(self):
        self.t = Tokenizer()

    def test_last_nonalpha(self):
        s = list(self.t.tokenize_gen('мамамылараму2'))
        self.assertEqual(len(s), 12)
        self.assertEqual(s[11], Token('мамамылараму', 'alpha', 0, 13))

    def test_first_alpha(self):
        s = list(self.t.tokenize_gen('я иду в кино'))
        self.assertEqual(s[0], Token("я", "alpha", 0, 1))
        self.assertEqual(len(s), 7)

    def test_empty_string(self):
        s = list(self.t.tokenize_gen(''))
        self.assertEqual(len(s), 0)
        self.assertEqual(s, [])

    def test_no_spaces(self):
        s = list(self.t.tokenize_gen('яидувкиноcinema'))
        self.assertEqual(s, [Token('яидувкиноcinema', 'alpha', 0, 15)])
        self.assertEqual(len(s), 1)

    def test_digital_string(self):
        s = list(self.t.tokenize_gen('012345'))
        self.assertEqual(len(s), 1)
        self.assertEqual(s, [Token('012345', 'digit', 0, 6)])

    def test_first_nonalpha(self):
        s = list(self.t.tokenize_gen('!!!!я иду в кино cinema'))
        self.assertEqual(len(s), 10)
        self.assertEqual(s[0], Token('!!!!', 'punct', 0, 4))

    def test_middle_nonapha(self):
        s = list(self.t.tokenize_gen('я иду в кино00000 111 00000cinema'))
        self.assertEqual(len(s), 13)
        self.assertEqual(s[7], Token('00000', 'digit', 12, 17))
        self.assertEqual(s[9], Token('111', 'digit', 18, 21))