Exemplo n.º 1
0
    def test_deaccents(self):
        tokenizer = Tokenizer(deaccent=True)

        self.assertEqual(
            tokenizer.tokenize("qué onda möno"),
            ["que", "onda", "mono"]
        )
Exemplo n.º 2
0
    def test_reduces_len_by_default(self):
        tokenizer = Tokenizer()

        self.assertEqual(
            tokenizer.tokenize("jajaaaaaa"),
            ["jajaaa"]
        )
Exemplo n.º 3
0
    def test_removes_nonalpha(self):
        tokenizer = Tokenizer(alpha_only=True)

        self.assertEqual(
            tokenizer.tokenize("hola a1 $"),
            ["hola"]
        )
Exemplo n.º 4
0
    def test_stemming(self):
        tokenizer = Tokenizer(stem=True)

        self.assertEqual(
            tokenizer.tokenize("hola gatos"),
            ["hol", "gat"]
        )
Exemplo n.º 5
0
    def test_removes_urls(self):
        tokenizer = Tokenizer()

        self.assertEqual(
            tokenizer.tokenize("@usuario http://t.co/123 jajaja"),
            ["@user", "jajaja"]
        )
Exemplo n.º 6
0
    def test_keeps_nonalpha_by_default(self):
        tokenizer = Tokenizer()

        self.assertEqual(
            tokenizer.tokenize("1 2 3 $"),
            ["1", "2", "3", "$"]
        )
Exemplo n.º 7
0
    def test_tokenizes_simple(self):
        tokenizer = Tokenizer()

        self.assertEqual(
            tokenizer.tokenize("hola mundo"),
            ["hola", "mundo"]
        )
Exemplo n.º 8
0
    def test_does_not_deaccents_by_default(self):
        tokenizer = Tokenizer()

        self.assertEqual(
            tokenizer.tokenize("el mató a un policía motorizado"),
            ["el", "mató", "a", "un", "policía", "motorizado"]
        )
Exemplo n.º 9
0
 def test_removes_hash_from_hashtags(self):
     tokenizer = Tokenizer()
     self.assertEqual(
         tokenizer.tokenize("Hola #HashTag"),
         ["Hola", "HashTag"]
     )
Exemplo n.º 10
0
 def test_replaces_handles_by_user(self):
     tokenizer = Tokenizer()
     self.assertEqual(
         tokenizer.tokenize("hola @pepe"),
         ["hola", "@user"]
     )
Exemplo n.º 11
0
 def test_does_not_lowercase_by_default(self):
     tokenizer = Tokenizer()
     self.assertEqual(
         tokenizer.tokenize("EL PERRO"),
         ["EL", "PERRO"]
     )