Python SentenceTokenizer示例

编程语言: Python

命名空间/包名称: konoha.sentence_tokenizer

hotexamples.com的示例: 6

Python SentenceTokenizer - 已找到6个示例。这些是从开源项目中提取的最受好评的konoha.sentence_tokenizer.SentenceTokenizer现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

SentenceTokenizer(6)

tokenize(6)

示例#1

显示文件

文件： test_sentence_tokenizer.py 项目： altescy/konoha

def test_sentence_tokenize_with_combined():
    corpus = SentenceTokenizer()
    expect = ["わんわん。", "「にゃ？」(にゃー）わんわん。", "「わおーん。」（犬より。）"]
    result = corpus.tokenize(DOCUMENT4)
    assert expect == result

示例#2

显示文件

文件： test_sentence_tokenizer.py 项目： altescy/konoha

def test_sentence_tokenize_with_quotation():
    corpus = SentenceTokenizer()
    expect = ["猫「にゃおにゃ。ただしかわいいものとする。異議は認める」。", "にゃお。", "にゃにゃ"]
    result = corpus.tokenize(DOCUMENT3)
    assert expect == result

示例#3

显示文件

文件： test_sentence_tokenizer.py 项目： altescy/konoha

def test_sentence_tokenize_with_bracket():
    corpus = SentenceTokenizer()
    expect = ["私は猫である（ただしかわいいものとする。異議は認める）。", "にゃお。", "にゃにゃ"]
    result = corpus.tokenize(DOCUMENT2)
    assert expect == result

示例#4

显示文件

文件： test_sentence_tokenizer.py 项目： altescy/konoha

def test_sentence_tokenize():
    corpus = SentenceTokenizer()
    expect = ["私は猫である。", "にゃお。", "にゃにゃ", "わんわん。", "にゃーにゃー。"]
    result = corpus.tokenize(DOCUMENT1)
    assert expect == result

示例#5

显示文件

文件： test_sentence_tokenizer.py 项目： himkt/konoha

def test_sentence_tokenize_with_custom_period():
    corpus = SentenceTokenizer(period="．")
    expect = ["わんわん。「にゃ？」(にゃー）わんわん．", "「わおーん。」（犬より。）"]
    result = corpus.tokenize(DOCUMENT6)
    assert expect == result

示例#6

显示文件

文件： test_sentence_tokenizer.py 项目： himkt/konoha

def test_sentence_tokenize_with_custom_patterns():
    corpus = SentenceTokenizer(patterns=SentenceTokenizer.PATTERNS +
                               [re.compile(r"『.*?』")])
    expect = ["わんわん。", "「にゃ？」(にゃー）わんわん。", "『わおーん。』（犬より。）"]
    result = corpus.tokenize(DOCUMENT5)
    assert expect == result