Python Dictionary.add_symbol 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: nmtg.data

클래스/타입: Dictionary

메소드/함수: add_symbol

hotexamples.com에서의 예제들: 3

Python Dictionary.add_symbol - 3개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 nmtg.data.Dictionary.add_symbol에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

load(6)

Dictionary(6)

add_symbol(3)

finalize(3)

save(3)

infer_from_text(2)

load_state_dict(2)

pad(2)

convert(1)

from_counters(1)

pad_index(1)

state_dict(1)

string(1)

to_indices(1)

update(1)

예제 #1

파일 보기

파일: monolingual.py 프로젝트: zqs01/NMTGMinor

    def preprocess(cls, args):
        split_words = args.input_type == 'word'

        os.makedirs(args.data_dir_out, exist_ok=True)
        basename = os.path.basename(args.in_data)

        ((offsets, lengths,
          counter), ) = cls.get_indices_and_vocabulary([args.in_data],
                                                       split_words, args.lower,
                                                       not args.no_progress,
                                                       args.report_every)

        out_offsets = os.path.join(args.data_dir_out, basename + '.idx.npy')
        out_lengths = os.path.join(args.data_dir_out, basename + '.len.npy')
        np.save(out_offsets, offsets)
        np.save(out_lengths, lengths)

        dictionary = Dictionary()
        for word, count in counter.items():
            dictionary.add_symbol(word, count)

        dictionary.finalize(nwords=args.vocab_size,
                            threshold=args.vocab_threshold or -1)

        dictionary.save(os.path.join(args.data_dir_out, 'dict'))

예제 #2

파일 보기

    def preprocess(cls, args):
        split_words = args.input_type == 'word'

        os.makedirs(args.data_dir_out, exist_ok=True)
        src_name = os.path.basename(args.in_src)
        tgt_name = os.path.basename(args.in_tgt)

        (src_offsets, src_lengths, src_counter), \
        (tgt_offsets, tgt_lengths, tgt_counter) = \
            cls.get_indices_and_vocabulary((args.in_src, args.in_tgt),
                                           split_words,
                                           args.lower,
                                           not args.no_progress,
                                           args.report_every)

        out_offsets_src = os.path.join(args.data_dir_out,
                                       src_name + '.idx.npy')
        out_lengths_src = os.path.join(args.data_dir_out,
                                       src_name + '.len.npy')
        np.save(out_offsets_src, src_offsets)
        np.save(out_lengths_src, src_lengths)

        src_dictionary = Dictionary()
        for word, count in src_counter.items():
            src_dictionary.add_symbol(word, count)

        out_offsets_tgt = os.path.join(args.data_dir_out,
                                       tgt_name + '.idx.npy')
        out_lengths_tgt = os.path.join(args.data_dir_out,
                                       tgt_name + '.len.npy')
        np.save(out_offsets_tgt, tgt_offsets)
        np.save(out_lengths_tgt, tgt_lengths)

        tgt_dictionary = Dictionary()
        for word, count in tgt_counter.items():
            tgt_dictionary.add_symbol(word, count)

        if args.join_vocab:
            # If we explicitly load a target dictionary to merge
            # or we are inferring both dictionaries
            # if args.tgt_vocab is not None or args.src_vocab is None:
            #     src_dictionary.update(tgt_dictionary)
            src_dictionary.finalize(nwords=args.src_vocab_size,
                                    threshold=args.vocab_threshold or -1)

            src_dictionary.save(os.path.join(args.data_dir_out, 'dict'))

        else:
            src_dictionary.finalize(nwords=args.src_vocab_size,
                                    threshold=args.vocab_threshold or -1)
            tgt_dictionary.finalize(nwords=args.tgt_vocab_size,
                                    threshold=args.vocab_threshold or -1)

            src_dictionary.save(os.path.join(args.data_dir_out, 'src.dict'))
            tgt_dictionary.save(os.path.join(args.data_dir_out, 'tgt.dict'))

예제 #3

파일 보기

파일: denoising_text_trainer.py 프로젝트: PuerJing/NMTGMinor

    def preprocess(args):
        split_words = args.input_type == 'word'

        os.makedirs(args.data_dir_out, exist_ok=True)
        train_clean_name = os.path.basename(args.train_clean)
        source_files = [args.train_clean]
        if args.train_noisy is not None:
            source_files.append(args.train_noisy)

        outputs = get_indices_and_vocabulary(source_files, split_words,
                                             args.lower, not args.no_progress,
                                             args.report_every)

        if args.train_noisy is not None:
            train_noisy_name = os.path.basename(args.train_noisy)
            (offsets, lengths, counter), \
            (noisy_offsets, noisy_lengths, noisy_counter) = outputs
            counter.update(noisy_counter)

            noisy_offset_filename = os.path.join(args.data_dir_out,
                                                 train_noisy_name + '.idx.npy')
            np.save(noisy_offset_filename, noisy_offsets)
        else:
            ((offsets, lengths, counter), ) = outputs

        out_offsets = os.path.join(args.data_dir_out,
                                   train_clean_name + '.idx.npy')
        out_lengths = os.path.join(args.data_dir_out,
                                   train_clean_name + '.len.npy')
        np.save(out_offsets, offsets)
        np.save(out_lengths, lengths)
        if args.vocab is not None:
            dictionary = Dictionary.load(args.vocab)
        else:
            dictionary = Dictionary()
            for word, count in counter.items():
                dictionary.add_symbol(word, count)

        dictionary.finalize(nwords=args.vocab_size,
                            threshold=args.vocab_threshold or -1)
        dictionary.save(os.path.join(args.data_dir_out, 'dict'))