Python LanguageModelTokenizer.train示例

编程语言: Python

命名空间/包名称: rasa.nlu.tokenizers.lm_tokenizer

方法/功能: train

hotexamples.com的示例: 2

Python LanguageModelTokenizer.train - 已找到2个示例。这些是从开源项目中提取的最受好评的rasa.nlu.tokenizers.lm_tokenizer.LanguageModelTokenizer.train现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

LanguageModelTokenizer(7)

process(2)

tokenize(2)

train(2)

示例#1

显示文件

文件： test_lm_tokenizer.py 项目： zylhub/rasa

def test_lm_tokenizer_number_of_sub_tokens(text, expected_number_of_sub_tokens):
    transformers_config = {"model_name": "bert"}  # Test for one should be enough

    transformers_nlp = HFTransformersNLP(transformers_config)
    lm_tokenizer = LanguageModelTokenizer()

    message = Message(text)

    td = TrainingData([message])

    transformers_nlp.train(td)
    lm_tokenizer.train(td)

    assert [
        t.get(NUMBER_OF_SUB_TOKENS) for t in message.get(TOKENS_NAMES[TEXT])[:-1]
    ] == expected_number_of_sub_tokens

示例#2

显示文件

文件： test_lm_tokenizer.py 项目： zylhub/rasa

def test_lm_tokenizer_custom_intent_symbol(text, expected_tokens):
    component_config = {"intent_tokenization_flag": True, "intent_split_symbol": "+"}

    transformers_config = {"model_name": "bert"}  # Test for one should be enough

    transformers_nlp = HFTransformersNLP(transformers_config)
    lm_tokenizer = LanguageModelTokenizer(component_config)

    message = Message(text)
    message.set(INTENT, text)

    td = TrainingData([message])

    transformers_nlp.train(td)
    lm_tokenizer.train(td)

    assert [t.text for t in message.get(TOKENS_NAMES[INTENT])] == expected_tokens