Python TagSentenceSplitterの例

プログラミング言語: Python

名前空間/パッケージ名: flair.tokenization

hotexamples.comのコード掲載数: 2

Python TagSentenceSplitter - 2件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのflair.tokenization.TagSentenceSplitterの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

TagSentenceSplitter(2)

split(1)

よく使われるメソッド

TagSentenceSplitter (2)

split (1)

コード例 #1

ファイルを表示

def test_tag_sentence_splitter():
    tag_splitter = TagSentenceSplitter(tag="#!")

    sentences = tag_splitter.split("I love Berlin#!Me too")
    assert len(sentences) == 2
    assert sentences[0].start_pos == 0
    assert len(sentences[0].tokens) == 3
    assert sentences[1].start_pos == 15
    assert len(sentences[1].tokens) == 2

    tag_splitter = TagSentenceSplitter(tag="#!", tokenizer=TokenizerWrapper(no_op_tokenizer))
    sentences = tag_splitter.split("I love Berlin#!Me too")
    assert len(sentences) == 2
    assert sentences[0].start_pos == 0
    assert len(sentences[0].tokens) == 1
    assert sentences[1].start_pos == 15
    assert len(sentences[1].tokens) == 1

    sentences = tag_splitter.split("I love Berlin Me too")
    assert len(sentences) == 1

    sentences = tag_splitter.split("I love Berlin#!#!Me too")
    assert len(sentences) == 2

    sentences = tag_splitter.split("I love Berl#! #!inMe too")
    assert len(sentences) == 2

コード例 #2

ファイルを表示

ファイル: test_datasets_biomedical.py プロジェクト: wyp19930313/flair

def test_conll_writer_whitespace_after():
    text = f"A sentence with cardio-dependent. {SENTENCE_TAG}Clark et al. reported that"
    dataset = InternalBioNerDataset(
        documents={"1": text},
        entities_per_document={"1": []},
    )

    assert_conll_writer_output(
        dataset, [
            "A O +",
            "sentence O +",
            "with O +",
            "cardio O -",
            "dependent. O +",
            "Clark O +",
            "et O +",
            "al. O +",
            "reported O +",
            "that O -",
        ],
        TagSentenceSplitter(tag=SENTENCE_TAG,
                            tokenizer=TokenizerWrapper(simple_tokenizer)))