Python Tokenizer 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: jiant.utils.tokenizers

클래스/타입: Tokenizer

hotexamples.com에서의 예제들: 4

Python Tokenizer - 4개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 jiant.utils.tokenizers.Tokenizer에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

tokenize(4)

자주 사용되는 메소드들

tokenize (4)

예제 #1

파일 보기

파일: retokenize.py 프로젝트: ypruksachatkun-asapp/jiant

def align_bpe(text: Text, bpe_tokenizer: Tokenizer) -> Tuple[TokenAligner, List[Text]]:
    """Alignment fn for BPE tokenizer, used in GPT and XLM
    """
    eow_tokens = space_tokenize_with_eow(text.lower())
    bpe_tokens = bpe_tokenizer.tokenize(text)
    ta = TokenAligner(eow_tokens, bpe_tokens)
    return ta, bpe_tokens

예제 #2

파일 보기

파일: retokenize.py 프로젝트: ypruksachatkun-asapp/jiant

def align_bytebpe(text: Text, bytebpe_tokenizer: Tokenizer) -> Tuple[TokenAligner, List[Text]]:
    """Alignment fn for Byte-level BPE tokenizer, used in GPT-2 and RoBERTa
    """
    bow_tokens = space_tokenize_with_bow(text)
    bytebpe_tokens = bytebpe_tokenizer.tokenize(text)

    modified_bytebpe_tokens = list(map(process_bytebpe_for_alignment, bytebpe_tokens))
    ta = TokenAligner(bow_tokens, modified_bytebpe_tokens)
    return ta, bytebpe_tokens

예제 #3

파일 보기

def align_sentencepiece(
        text: Text,
        sentencepiece_tokenizer: Tokenizer) -> Tuple[TokenAligner, List[Text]]:
    """Alignment fn for SentencePiece Tokenizer, used in XLNET
    """
    bow_tokens = space_tokenize_with_bow(text)
    sentencepiece_tokens = sentencepiece_tokenizer.tokenize(text)

    modified_sentencepiece_tokens = list(
        map(process_sentencepiece_for_alignment, sentencepiece_tokens))
    ta = TokenAligner(bow_tokens, modified_sentencepiece_tokens)
    return ta, sentencepiece_tokens

예제 #4

파일 보기

파일: retokenize.py 프로젝트: ypruksachatkun-asapp/jiant

def align_wpm(
    text: Text, wpm_tokenizer: Tokenizer, do_lower_case: bool
) -> Tuple[TokenAligner, List[Text]]:
    """Alignment fn for WPM tokenizer, used in BERT
    """
    # If using lowercase, do this for the source tokens for better matching.
    bow_tokens = space_tokenize_with_bow(text.lower() if do_lower_case else text)
    wpm_tokens = wpm_tokenizer.tokenize(text)

    # Align using <w> markers for stability w.r.t. word boundaries.
    modified_wpm_tokens = list(map(process_wordpiece_for_alignment, wpm_tokens))
    ta = TokenAligner(bow_tokens, modified_wpm_tokens)
    return ta, wpm_tokens