Python Tokenizer Examples

Programming Language: Python

Namespace/Package Name: yargy.tokenizer

Class/Type: Tokenizer

Examples at hotexamples.com: 13

Python Tokenizer - 13 examples found. These are the top rated real world Python examples of yargy.tokenizer.Tokenizer extracted from open source projects. You can rate examples to help us improve the quality of examples.

Frequently Used Methods

Show Hide

Tokenizer(11)

remove_types(4)

add_rules(3)

check_type(1)

split(1)

Example #1

Show file

File: test_tokenizer.py Project: bureaucratic-labs/yargy

def test_change_rules():
    tokenizer = Tokenizer().add_rules(EMAIL_RULE)
    values = tokenizer.split('mailto:[email protected]')
    assert values == ['mailto', ':', '*****@*****.**']

    tokenizer = Tokenizer().remove_types(EOL)
    text = """
hi,

the
"""
    values = tokenizer.split(text)
    assert values == ['hi', ',', 'the']

Example #2

Show file

File: test_tokenizer.py Project: vitalyvels/yargy

def test_check_type():
    tokenizer = Tokenizer()
    with pytest.raises(ValueError):
        tokenizer.check_type('UNK')

    tokenizer.remove_types(EOL)
    with pytest.raises(ValueError):
        tokenizer.check_type(EOL)

Example #3

Show file

File: test_tokenizer.py Project: vitalyvels/yargy

def test_types():
    tokenizer = Tokenizer()
    tokens = list(tokenizer('Ростов-на-Дону'))
    assert tokens == [
        Token('Ростов', (0, 6), RUSSIAN),
        Token('-', (6, 7), PUNCT),
        Token('на', (7, 9), RUSSIAN),
        Token('-', (9, 10), PUNCT),
        Token('Дону', (10, 14), RUSSIAN)
    ]

    tokens = list(tokenizer('vk.com'))
    assert tokens == [
        Token('vk', (0, 2), LATIN),
        Token('.', (2, 3), PUNCT),
        Token('com', (3, 6), LATIN)
    ]

    tokens = list(tokenizer('1 500 000$'))
    assert tokens == [
        Token('1', (0, 1), INT),
        Token('500', (2, 5), INT),
        Token('000', (6, 9), INT),
        Token('$', (9, 10), PUNCT)
    ]

    tokens = list(tokenizer('π'))
    assert tokens == [Token('π', (0, 1), OTHER)]

Example #4

Show file

File: test_tokenizer.py Project: bureaucratic-labs/yargy

def test_check_type():
    tokenizer = Tokenizer()
    with pytest.raises(ValueError):
        tokenizer.check_type('UNK')

    tokenizer.remove_types(EOL)
    with pytest.raises(ValueError):
        tokenizer.check_type(EOL)

Example #5

Show file

File: RPD_Parser.py Project: omega1996/parser_results_and_competitions

 def token_fgos(self, text):
     tokenizer = Tokenizer()
     fgos_rule = TokenRule(
         'FOS', '[А-Я]+К+-+[0-9]+')  # букв не больше 3 и последняя к
     tokenizer.remove_types('EOL', 'RU', 'PUNCT', 'OTHER', 'INT', 'LATIN')
     tokenizer.add_rules(fgos_rule)
     return list(tokenizer(text))

Example #6

Show file

 def __init__(self, rand_seed=42):
     self.execution_timer = Timer()
     self.environment_features = {
         'punct_between': 0,
         'preposition_between': 0,
         'preposition_before': 0,
         'conjunction_between': 0
     }
     self.feature_vector_size = len(feature_func_patterns) * 2 + len(
         self.environment_features)
     self.network = FeedforwardNetwork(self.feature_vector_size,
                                       2, (200, 50, 5),
                                       rand_seed=rand_seed)
     self.tokenizer = Tokenizer()

Example #7

Show file

File: test_tokenizer.py Project: vitalyvels/yargy

def test_change_rules():
    tokenizer = Tokenizer().add_rules(EMAIL_RULE)
    values = tokenizer.split('mailto:[email protected]')
    assert values == ['mailto', ':', '*****@*****.**']

    tokenizer = Tokenizer().remove_types(EOL)
    text = """
hi,

the
"""
    values = tokenizer.split(text)
    assert values == ['hi', ',', 'the']

Example #8

Show file

File: test_tokenizer.py Project: vitalyvels/yargy

def test_join_tokens():
    tokenizer = Tokenizer()
    tokens = tokenizer('pi =        3.14')
    assert join_tokens(tokens) == 'pi = 3.14'

Example #9

Show file

File: test_tokenizer.py Project: stcoder/yargy

def tokenizer():
    return Tokenizer()

Example #10

Show file

File: RPD_Parser.py Project: omega1996/parser_results_and_competitions

 def token_direction_of_preparation(self, text):
     CODE_RULE = TokenRule('Code', '\d{2}.\d{2}.\d{2}(?!\d)')
     tokenizer = Tokenizer()
     tokenizer.remove_types('EOL', 'LATIN', 'RU', 'INT', 'PUNCT', 'OTHER')
     tokenizer.add_rules(CODE_RULE)
     return list(tokenizer(text))

Example #11

Show file

File: text_processor.py Project: BelowzeroA/DHC

 def __init__(self, typos={}):
     self.tokenizer = Tokenizer()
     self.typos = typos

Example #12

Show file

File: bank.py Project: stcoder/yargy

def tokenize(string):
    from yargy.tokenizer import Tokenizer

    tokenizer = Tokenizer()
    return list(tokenizer(string))

Example #13

Show file

File: name_rpd.py Project: iitProgect/parser_results_and_competitions

import os


def GetDocuments():
    documents = []
    for filename in os.listdir(baseDir):
        if filename.endswith('.docx'):
            documents.append(filename)
    return documents


from yargy.tokenizer import TokenRule
from yargy.tokenizer import Tokenizer

CODE_RULE = TokenRule('Code', '\d{2}.\d{2}.\d{2}(?!\d)')
tokenizer = Tokenizer()
tokenizer.remove_types('EOL', 'LATIN', 'RU', 'INT', 'PUNCT', 'OTHER')
tokenizer.add_rules(CODE_RULE)

isRPD = rule(and_(dictionary({'рабочая'}), is_title()),
             dictionary({'программа'}))

isRPD2 = rule(dictionary({'дисциплина'}))

rpdRule = Parser(isRPD)

# print(rpdRule.find('Рабочая программа дисциплины'))

baseDir = r'C:\Users\Katia\Desktop\рпд'
documents = GetDocuments()
path = baseDir + '\\' + documents[0]