Python Vocabulary.build_corpusの例

プログラミング言語: Python

名前空間/パッケージ名: vocabulary

クラス/型: Vocabulary

メソッド/関数: build_corpus

hotexamples.comのコード掲載数: 2

Python Vocabulary.build_corpus - 2件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのvocabulary.Vocabulary.build_corpusの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

Vocabulary(30)

add_word(15)

clean_text(8)

build_vocab(8)

add_words(8)

deserialize(7)

compile(4)

add(4)

antonym(4)

auto_punctuate(3)

add_token(3)

encode(3)

add_from_file(2)

decode_output(2)

getUniGrams(2)

from_documents(2)

build_corpus(2)

getVocabularyByDocument(2)

getBiGrams(2)

get_id_from_token(2)

add_a_word(2)

add_text(2)

add_many(2)

getFullDict(2)

gen_DAG(1)

from_text_files(1)

from_text(1)

from_serializable(1)

from_sentences(1)

get(1)

add_constant(1)

getPTStopWords(1)

getQuestions(1)

getVocabularySize(1)

get_all_source_words(1)

get_all_translations(1)

get_pos(1)

get_term_text(1)

make_dictionary(1)

seg_content(1)

from_nlp_data(1)

encode_sent(1)

from_idx2word_dict(1)

convert_sentence(1)

add_new_word(1)

add_sentence(1)

add_chunk(1)

add_word_lst(1)

append(1)

build(1)

コード例 #1

ファイルを表示

ファイル: dataset.py プロジェクト: superjcd/Chinese_NER

import torch
from torch.utils.data import Dataset
from vocabulary import Vocabulary

# this is what i want: ( word1, word2....), (tag1, tag2.... )

voc = Vocabulary.build_corpus('train')


class ResumeData(Dataset):
    def __init__(self, voc):
        self.voc = voc
        self.word_lists = voc.word_lists
        self.tag_lists = voc.tag_lists

    def __getitem__(self, item):
        # 获取每个字对应的id
        # TODO: 对UNK_TOKEN 进行处理
        _word_list = self.word_lists[item]
        word_list = [self.voc.word2id[word] for word in _word_list]
        # 获取每个tag对应的id
        _tag_list = self.tag_lists[item]
        tag_list = [self.voc.tag2id[tag] for tag in _tag_list]
        return torch.tensor(word_list, dtype=torch.long), torch.tensor(tag_list, dtype=torch.long)

    def __len__(self):
        return len(self.word_lists)

コード例 #2

ファイルを表示

ファイル: main.py プロジェクト: superjcd/Chinese_NER

if __name__ == '__main__':
    parser = ArgumentParser()
    parser.add_argument('--data',
                        default='train',
                        help='Choose data type to train your model',
                        choices=['train', 'test', 'dev'])
    parser.add_argument('--epoch',
                        default=10,
                        help='Epochs to train your model')
    parser.add_argument('--load_model_name',
                        type=str,
                        help='If wanna load model stats before trainning')
    parser.add_argument('--save_model_name',
                        type=str,
                        help='Directory to save your model')
    parser.add_argument('--save_every',
                        type=int,
                        default=1,
                        help='After n epoch to save you model, \
                                                   make sure you had type in save_model_name param first'
                        )
    args = parser.parse_args()
    print(f'we are gonna use the following arguments:\n{args.__dict__}\n')
    voc = Vocabulary.build_corpus(args.data)
    data = ResumeData(voc)
    model = BiLSTM_CRF(len(voc.word2id), voc.tag2id, 100, 100)
    optimizer = optim.SGD(model.parameters(), lr=0.01, weight_decay=1e-4)
    train(args.epoch, model, optimizer, data, args.load_model_name,
          args.save_model_name, args.save_every)