Ejemplos de SentenceTokenizer en Python

Lenguaje de programación: Python

Namespace/Package Name: konoha.sentence_tokenizer

Clase / Tipo: SentenceTokenizer

Ejemplos en hotexamples.com: 6

Python SentenceTokenizer - 6 ejemplos encontrados. Estos son los ejemplos en Python del mundo real mejor valorados de konoha.sentence_tokenizer.SentenceTokenizer extraídos de proyectos de código abierto. Puedes valorar ejemplos para ayudarnos a mejorar la calidad de los ejemplos.

Métodos usados con frecuencia

Mostrar Ocultar

SentenceTokenizer(6)

tokenize(6)

Métodos usados con frecuencia

SentenceTokenizer (6)

tokenize (6)

Ejemplo n.º 1

Mostrar archivo

Archivo: test_sentence_tokenizer.py Proyecto: altescy/konoha

def test_sentence_tokenize_with_combined():
    corpus = SentenceTokenizer()
    expect = ["わんわん。", "「にゃ？」(にゃー）わんわん。", "「わおーん。」（犬より。）"]
    result = corpus.tokenize(DOCUMENT4)
    assert expect == result

Ejemplo n.º 2

Mostrar archivo

Archivo: test_sentence_tokenizer.py Proyecto: altescy/konoha

def test_sentence_tokenize_with_quotation():
    corpus = SentenceTokenizer()
    expect = ["猫「にゃおにゃ。ただしかわいいものとする。異議は認める」。", "にゃお。", "にゃにゃ"]
    result = corpus.tokenize(DOCUMENT3)
    assert expect == result

Ejemplo n.º 3

Mostrar archivo

Archivo: test_sentence_tokenizer.py Proyecto: altescy/konoha

def test_sentence_tokenize_with_bracket():
    corpus = SentenceTokenizer()
    expect = ["私は猫である（ただしかわいいものとする。異議は認める）。", "にゃお。", "にゃにゃ"]
    result = corpus.tokenize(DOCUMENT2)
    assert expect == result

Ejemplo n.º 4

Mostrar archivo

Archivo: test_sentence_tokenizer.py Proyecto: altescy/konoha

def test_sentence_tokenize():
    corpus = SentenceTokenizer()
    expect = ["私は猫である。", "にゃお。", "にゃにゃ", "わんわん。", "にゃーにゃー。"]
    result = corpus.tokenize(DOCUMENT1)
    assert expect == result

Ejemplo n.º 5

Mostrar archivo

Archivo: test_sentence_tokenizer.py Proyecto: himkt/konoha

def test_sentence_tokenize_with_custom_period():
    corpus = SentenceTokenizer(period="．")
    expect = ["わんわん。「にゃ？」(にゃー）わんわん．", "「わおーん。」（犬より。）"]
    result = corpus.tokenize(DOCUMENT6)
    assert expect == result

Ejemplo n.º 6

Mostrar archivo

Archivo: test_sentence_tokenizer.py Proyecto: himkt/konoha

def test_sentence_tokenize_with_custom_patterns():
    corpus = SentenceTokenizer(patterns=SentenceTokenizer.PATTERNS +
                               [re.compile(r"『.*?』")])
    expect = ["わんわん。", "「にゃ？」(にゃー）わんわん。", "『わおーん。』（犬より。）"]
    result = corpus.tokenize(DOCUMENT5)
    assert expect == result