Python Tokenizer 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: biome.text.tokenizer

클래스/타입: Tokenizer

hotexamples.com에서의 예제들: 6

Python Tokenizer - 6개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 biome.text.tokenizer.Tokenizer에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

Tokenizer(6)

tokenize_text(4)

tokenize_document(2)

예제 #1

파일 보기

파일: test_tokenizer.py 프로젝트: radovankavicky/biome-text

def test_set_sentence_segmentation_with_max_number_of_sentences():
    tokenizer = Tokenizer(TokenizerConfiguration(max_nr_of_sentences=2))
    tokenized = tokenizer.tokenize_document([
        "This is a sentence. This is another sentence.",
        "One more sentence here.",
        "Last sentence here.",
    ])
    assert len(tokenized) == 2

예제 #2

파일 보기

def test_min_max_sentence_length():
    tokenizer = Tokenizer(
        TokenizerConfiguration(segment_sentences=True,
                               min_sentence_length=10,
                               max_sentence_length=15))
    tokenized = tokenizer.tokenize_text(
        "short. A very long sentence. This is fine")

    assert len(tokenized) == 1
    assert len(tokenized[0]) == 3

예제 #3

파일 보기

파일: test_tokenizer.py 프로젝트: radovankavicky/biome-text

def test_document_cleaning():
    tokenizer = Tokenizer(
        TokenizerConfiguration(
            text_cleaning={"rules": ["html_to_text", "strip_spaces"]},
            segment_sentences=True,
        ))

    tokenized = tokenizer.tokenize_document([html_text])
    assert len(tokenized) == 2
    assert (len(tokenized[0]) == 7
            ), "Expected [My, First, Heading, My, first, paragraph, .]"
    assert len(tokenized[1]) == 4, "Expected [My, second, paragraph, .]"

예제 #4

파일 보기

파일: test_tokenizer.py 프로젝트: radovankavicky/biome-text

def test_text_cleaning_with_sentence_segmentation_and_max_sequence():
    tokenizer = Tokenizer(
        TokenizerConfiguration(
            max_sequence_length=8,
            text_cleaning={"rules": ["html_to_text", "strip_spaces"]},
            segment_sentences=True,
        ))

    tokenized = tokenizer.tokenize_text(html_text)
    assert len(tokenized) == 2
    assert len(tokenized[0]) == 2, "Expected [My, First]"
    assert len(tokenized[1]) == 2, "Expected [My, second]"

예제 #5

파일 보기

 def build_tokenizer(self) -> Tokenizer:
     """Build the pipeline tokenizer"""
     if self.tokenizer_config.use_transformers:
         return TransformersTokenizer(self.tokenizer_config)
     return Tokenizer(self.tokenizer_config)

예제 #6

파일 보기

파일: test_tokenizer.py 프로젝트: radovankavicky/biome-text

def test_using_allennlp_tokens():
    tokenizer = Tokenizer(TokenizerConfiguration(use_spacy_tokens=False))
    tokenized = tokenizer.tokenize_text("This is a text")
    assert len(tokenized) == 1
    assert len(tokenized[0]) == 4
    assert all(map(lambda t: isinstance(t, AllennlpToken), tokenized[0]))