Python text_to_indices 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: thseq.data.plain

메소드/함수: text_to_indices

hotexamples.com에서의 예제들: 4

Python text_to_indices - 4개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 thseq.data.plain.text_to_indices에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

예제 #1

파일 보기

파일: train.py 프로젝트: hushukai/ABDNMT-RNMT

    def fn(src, trg):
        src = torch.as_tensor(text_to_indices(src, source_vocab))
        trg = torch.as_tensor(text_to_indices(trg, target_vocab))
        n_src_tok = src.size(0)
        n_trg_tok = trg.size(0)

        return {
            'src': src,
            'trg': trg,
            'n_src_tok': n_src_tok,
            'n_trg_tok': n_trg_tok,
        }

예제 #2

파일 보기

파일: mulsrctrain.py 프로젝트: hushukai/ABDNMT-RNMT

    def fn(src, r2l, l2r):
        src = torch.as_tensor(text_to_indices(src, source_vocab))
        r2l = torch.as_tensor(text_to_indices(r2l, target_vocab))
        l2r = torch.as_tensor(text_to_indices(l2r, target_vocab))
        n_src_tok = src.size(0)
        n_trg_tok_r2l = r2l.size(0)
        n_trg_tok_l2r = l2r.size(0)

        return {
            'src': src,
            'r2l': r2l,
            'l2r': l2r,
            'n_src_tok': n_src_tok,
            'ntok_r2l': n_trg_tok_r2l,
            'ntok_l2r': n_trg_tok_l2r,
        }

예제 #3

파일 보기

파일: train.py 프로젝트: hushukai/ABDNMT-RNMT

def get_dev_iterator(args, source_vocab: Vocabulary):
    threads = args.num_workers

    src = TextLine(args.dev[0], bufsize=args.buffer_size, num_threads=threads)
    refs = [
        TextLine(ref, bufsize=args.buffer_size, num_threads=threads)
        for ref in args.dev[1:]
    ]
    src = src.select(
        lambda x: torch.as_tensor(text_to_indices(x, source_vocab)))
    refs = Zip(refs, bufsize=args.buffer_size, num_threads=threads)
    ds = Zip([src, refs], bufsize=args.buffer_size,
             num_threads=threads).select(
                 lambda x, ys: {
                     'src': x,
                     'n_tok': x.size(0),
                     'refs': [y.split() for y in ys]  # tokenize references
                 })

    def collate_fn(xs):
        return {
            'src':
            cuda(
                pack_tensors(aggregate_value_by_key(xs, 'src'),
                             source_vocab.pad_id)),
            'n_tok':
            aggregate_value_by_key(xs, 'n_tok', sum),
            'refs':
            aggregate_value_by_key(xs, 'refs')
        }

    batch_size = args.eval_batch_size
    iterator = Iterator(ds,
                        batch_size,
                        cache_size=batch_size,
                        collate_fn=collate_fn,
                        sort_cache_by=lambda sample: -sample['n_tok'])

    return iterator

예제 #4

파일 보기

 def fn(*xs):
     tensors = [torch.as_tensor(text_to_indices(x, voc)) for x, voc in zip(xs, vocabs)]
     return {
         'src': tensors,
         'n_tok': tensors[0].size(0)
     }