Python GPT2Tokenizer.encode 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: pytorch_pretrained_bert

클래스/타입: GPT2Tokenizer

메소드/함수: encode

hotexamples.com에서의 예제들: 2

Python GPT2Tokenizer.encode - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 pytorch_pretrained_bert.GPT2Tokenizer.encode에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

from_pretrained(30)

GPT2Tokenizer(4)

encode(2)

decode(1)

예제 #1

파일 보기

파일: generate.py 프로젝트: databill86/duet

def main(model: GPT2LMHeadModel, enc: GPT2Tokenizer, phrase: str = ''):
    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
    nsamples = 1
    length = 40
    temperature = 1.2
    top_k = 0
    top_p = 0.9
    batch_size = 1
    stop_token = [enc.encoder[x] for x in ('<|endoftext|>', '.', '?', '!')]
    assert nsamples % batch_size == 0

    if length == -1:
        length = model.config.n_ctx // 2
    elif length > model.config.n_ctx:
        raise ValueError("Can't get samples longer than window size: %s" %
                         model.config.n_ctx)

    context_tokens = enc.encode(phrase) if phrase else [
        enc.encoder['<|endoftext|>']
    ]
    generated = 0
    out = sample_sequence(model=model,
                          length=length,
                          context=context_tokens,
                          start_token=None,
                          batch_size=batch_size,
                          temperature=temperature,
                          top_k=top_k,
                          device=device,
                          top_p=top_p,
                          stop_token=stop_token)
    out = out[:, len(context_tokens):].tolist()
    return enc.decode(out[0])

예제 #2

파일 보기

파일: better_train.py 프로젝트: matvich/nnlp_qa_project

def encode_many_texts(tokenizer: GPT2Tokenizer, texts: Iterable[str]) \
-> torch.Tensor:
    """Uses -1 as padding."""
    encoded_texts = [tokenizer.encode(text) for text in texts]
    max_len = max(len(text) for text in encoded_texts)
    padded_encoded_texts = [
        text + [-1] * (max_len - len(text)) for text in encoded_texts
    ]
    return torch.tensor(padded_encoded_texts)