Python Tokenizer примеры использования

Язык программирования: Python

Пространство имен/Пакет: hate.nn.preprocessing

Класс/Тип: Tokenizer

Примеров на hotexamples.com: 11

Python Tokenizer - 11 примеров найдено. Это лучшие примеры Python кода для hate.nn.preprocessing.Tokenizer, полученные из open source проектов. Вы можете ставить оценку каждому примеру, чтобы помочь нам улучшить качество примеров.

Основные методы

Показать Скрыть

Tokenizer(11)

tokenize(11)

Основные методы

Tokenizer (11)

tokenize (11)

Пример #1

Показать файл

    def test_deaccents(self):
        tokenizer = Tokenizer(deaccent=True)

        self.assertEqual(
            tokenizer.tokenize("qué onda möno"),
            ["que", "onda", "mono"]
        )

Пример #2

Показать файл

    def test_reduces_len_by_default(self):
        tokenizer = Tokenizer()

        self.assertEqual(
            tokenizer.tokenize("jajaaaaaa"),
            ["jajaaa"]
        )

Пример #3

Показать файл

    def test_removes_nonalpha(self):
        tokenizer = Tokenizer(alpha_only=True)

        self.assertEqual(
            tokenizer.tokenize("hola a1 $"),
            ["hola"]
        )

Пример #4

Показать файл

    def test_stemming(self):
        tokenizer = Tokenizer(stem=True)

        self.assertEqual(
            tokenizer.tokenize("hola gatos"),
            ["hol", "gat"]
        )

Пример #5

Показать файл

    def test_removes_urls(self):
        tokenizer = Tokenizer()

        self.assertEqual(
            tokenizer.tokenize("@usuario http://t.co/123 jajaja"),
            ["@user", "jajaja"]
        )

Пример #6

Показать файл

    def test_keeps_nonalpha_by_default(self):
        tokenizer = Tokenizer()

        self.assertEqual(
            tokenizer.tokenize("1 2 3 $"),
            ["1", "2", "3", "$"]
        )

Пример #7

Показать файл

    def test_tokenizes_simple(self):
        tokenizer = Tokenizer()

        self.assertEqual(
            tokenizer.tokenize("hola mundo"),
            ["hola", "mundo"]
        )

Пример #8

Показать файл

    def test_does_not_deaccents_by_default(self):
        tokenizer = Tokenizer()

        self.assertEqual(
            tokenizer.tokenize("el mató a un policía motorizado"),
            ["el", "mató", "a", "un", "policía", "motorizado"]
        )

Пример #9

Показать файл

 def test_removes_hash_from_hashtags(self):
     tokenizer = Tokenizer()
     self.assertEqual(
         tokenizer.tokenize("Hola #HashTag"),
         ["Hola", "HashTag"]
     )

Пример #10

Показать файл

 def test_replaces_handles_by_user(self):
     tokenizer = Tokenizer()
     self.assertEqual(
         tokenizer.tokenize("hola @pepe"),
         ["hola", "@user"]
     )

Пример #11

Показать файл

 def test_does_not_lowercase_by_default(self):
     tokenizer = Tokenizer()
     self.assertEqual(
         tokenizer.tokenize("EL PERRO"),
         ["EL", "PERRO"]
     )