Python UtteranceTokenizer.tokenize示例

编程语言: Python

命名空间/包名称: dataflow.core.utterance_tokenizer

方法/功能: tokenize

hotexamples.com的示例: 3

Python UtteranceTokenizer.tokenize - 已找到3个示例。这些是从开源项目中提取的最受好评的dataflow.core.utterance_tokenizer.UtteranceTokenizer.tokenize现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

UtteranceTokenizer(6)

tokenize(3)

示例#1

显示文件

def build_user_utterance(
        text: str, utterance_tokenizer: UtteranceTokenizer) -> UserUtterance:
    text = clean_utterance_text(text)
    if not text:
        return UserUtterance(original_text=SpecialStrings.NULL,
                             tokens=[SpecialStrings.NULL])
    return UserUtterance(original_text=text,
                         tokens=utterance_tokenizer.tokenize(text))

示例#2

显示文件

def build_agent_utterance(text: str, utterance_tokenizer: UtteranceTokenizer,
                          described_entities: List[str]) -> AgentUtterance:
    text = clean_utterance_text(text)
    if not text:
        return AgentUtterance(
            original_text=SpecialStrings.NULL,
            tokens=[SpecialStrings.NULL],
            described_entities=described_entities,
        )
    return AgentUtterance(
        original_text=text,
        tokens=utterance_tokenizer.tokenize(text),
        described_entities=described_entities,
    )

示例#3

显示文件

文件： test_utterance_tokenizer.py 项目： zhang-xi/task_oriented_dialogue_as_dataflow_synthesis

def test_tokenize_utterance():
    utterance_tokenizer = UtteranceTokenizer()

    data = [
        (
            "Reschedule meeting with Barack Obama to 5/30/2019 at 3:00pm",
            [
                "Reschedule",
                "meeting",
                "with",
                "Barack",
                "Obama",
                "to",
                "5",
                "/",
                "30",
                "/",
                "2019",
                "at",
                "3",
                ":",
                "00",
                "pm",
            ],
        ),
        (
            "Can you also add icecream birthday tomorrow at 6PM?",
            [
                "Can",
                "you",
                "also",
                "add",
                "icecream",
                "birthday",
                "tomorrow",
                "at",
                "6",
                "PM",
                "?",
            ],
        ),
    ]
    for text, expected in data:
        assert utterance_tokenizer.tokenize(text) == expected