Python Vocab.build Exemples

Langage de programmation: Python

Espace de nommage/Pack: utils

Class/Type: Vocab

Méthode/Fonction: build

Exemples au hotexamples.com: 2

Python Vocab.build - 2 exemples trouvés. Ce sont les exemples réels les mieux notés de utils.Vocab.build extraits de projets open source. Vous pouvez noter les exemples pour nous aider à en améliorer la qualité.

Méthodes fréquemment utilisées

Afficher Cacher

encode(30)

construct(30)

load(15)

Vocab(9)

add_word(6)

to_input_tensor(4)

get_word_list(3)

pickle(3)

decode(3)

get_train_dev_test(3)

get_pre_trained_examples(2)

build_vocab(2)

add_dataframe(2)

save_to_file(2)

add(2)

add_special_token(2)

update(2)

build_bert_vocab(2)

build(2)

add_words(2)

add_special_tokens(2)

build_embedding_matrix(2)

word2id(1)

get_wv(1)

id2word(1)

indices2tokens(1)

transform(1)

_looking_up(1)

load_pretrained_char_embeddings(1)

load_pretrained_word_embeddings(1)

py_size(1)

randomly_init_py_embeddings(1)

size(1)

add_char(1)

filter_pys_by_cnt(1)

get_vocab(1)

construct_phrase(1)

add_list(1)

add_py(1)

build_from_counter(1)

char_size(1)

check_words(1)

construct_batch(1)

convert_to_str(1)

getIndex(1)

decode_docs(1)

emb_wordtoindex(1)

__len__(1)

filter_chars_by_cnt(1)

filter_tokens_by_cnt(1)

Méthodes fréquemment utilisées

encode (30)

construct (30)

load (15)

Vocab (9)

add_word (6)

to_input_tensor (4)

get_word_list (3)

pickle (3)

decode (3)

get_train_dev_test (3)

Méthodes fréquemment utilisées

get_pre_trained_examples (2)

build_vocab (2)

add_dataframe (2)

save_to_file (2)

add (2)

add_special_token (2)

update (2)

build_bert_vocab (2)

build (2)

add_words (2)

add_special_tokens (2)

build_embedding_matrix (2)

word2id (1)

get_wv (1)

id2word (1)

indices2tokens (1)

transform (1)

_looking_up (1)

load_pretrained_char_embeddings (1)

load_pretrained_word_embeddings (1)

Méthodes fréquemment utilisées

add_special_tokens (2)

build_embedding_matrix (2)

word2id (1)

get_wv (1)

id2word (1)

indices2tokens (1)

transform (1)

_looking_up (1)

load_pretrained_char_embeddings (1)

load_pretrained_word_embeddings (1)

py_size (1)

randomly_init_py_embeddings (1)

size (1)

add_char (1)

filter_pys_by_cnt (1)

get_vocab (1)

construct_phrase (1)

add_list (1)

add_py (1)

build_from_counter (1)

char_size (1)

check_words (1)

construct_batch (1)

convert_to_str (1)

getIndex (1)

decode_docs (1)

emb_wordtoindex (1)

__len__ (1)

filter_chars_by_cnt (1)

filter_tokens_by_cnt (1)

Méthodes fréquemment utilisées

py_size (1)

randomly_init_py_embeddings (1)

size (1)

add_char (1)

filter_pys_by_cnt (1)

get_vocab (1)

construct_phrase (1)

add_list (1)

add_py (1)

build_from_counter (1)

char_size (1)

check_words (1)

construct_batch (1)

convert_to_str (1)

getIndex (1)

decode_docs (1)

emb_wordtoindex (1)

__len__ (1)

filter_chars_by_cnt (1)

filter_tokens_by_cnt (1)

fit (1)

from_corpus (1)

word_size (1)

Exemple #1

0

Afficher le fichier

def xml_train_test_prep(field='body', relevance='TACM'): train_file = os.path.join(args.data_dir, 'qd.xml.seg.train') test_file = os.path.join(args.data_dir, 'qd.xml.seg.test') max_vocab_size = args.max_vocab_size train_word_file = os.path.join(args.data_dir, 'train.pointwise') test_word_file = os.path.join(args.data_dir, 'test.pointwise') train_prep_file = os.path.join(args.data_dir, 'train.prep.pointwise') test_prep_file = os.path.join(args.data_dir, 'test.prep.pointwise') vocab_file = os.path.join(args.data_dir, 'vocab') field_in_xml = xml_field_maping(field) print('build vocab ...') vocab = Vocab(max_size=max_vocab_size) for i, qd in enumerate(qd_xml_iterator(train_file)): ''' query = qd.find('./query').text words = query.split(' ') for doc in qd.findall('./doc/{}'.format(field_in_xml)): words.extend(doc.text.split(' ')) ''' if i % 10000 == 0: print('{}w'.format(i // 10000)) query = qd['query'] words = query.split(' ') for doc in qd['doc']: words.extend(doc[field_in_xml].split(' ')) for w in words: vocab.add(w) vocab.build() vocab.save_to_file(vocab_file) for from_file, word_file, prep_file in \ [(train_file, train_word_file, train_prep_file), (test_file, test_word_file, test_prep_file)]: qd_xml_to_prep(from_file, prep_file, vocab, field_in_xml=field_in_xml, relevance=relevance)

Exemple #2

0

Afficher le fichier

Fichier : prep.py Projet : jzbjyb/rri

def preprocess(): binary = args.binary_html data_dir = args.data_dir max_vocab_size = args.max_vocab_size docs_dir = os.path.join(data_dir, 'docs') query_filepath = os.path.join(data_dir, 'query') train_filepath = os.path.join(data_dir, 'train.pointwise') test_filepath = os.path.join(data_dir, 'test.pointwise') vocab = Vocab(max_size=max_vocab_size) train_query_ids, train_doc_ids = get_query_doc_ids(train_filepath) test_query_ids, test_doc_ids = get_query_doc_ids(test_filepath) query_ids = train_query_ids | test_query_ids doc_ids = train_doc_ids | test_doc_ids print('total query: {}, total doc: {}'.format(len(query_ids), len(doc_ids))) query_dict = load_from_query_file(query_filepath) doc_dict = {} for qid in sorted(train_query_ids): for term in query_dict[qid].split(): vocab.add(term) count = 0 for docid in sorted(train_doc_ids): count += 1 if count % 10000 == 0: print('processed {}w docs'.format(count // 10000)) doc_body = load_from_html_cascade(os.path.join(docs_dir, docid + '.html'), binary=binary)['body'] doc_dict[docid] = doc_body #print(docid) #print(' '.join(doc_body)) #input() for term in doc_body: vocab.add(term) vocab.build() vocab.save_to_file(os.path.join(data_dir, 'vocab')) empty_qid, empty_docid = set(), set() with open(os.path.join(data_dir, 'query.prep'), 'w') as fp: for qid in sorted(query_ids): qt = query_dict[qid].split() if len(qt) == 0: empty_qid.add(qid) continue fp.write('{}\t{}\n'.format( qid, ' '.join(map(lambda x: str(x), vocab.encode(qt))))) with open(os.path.join(data_dir, 'docs.prep'), 'w') as fp: for docid in sorted(doc_ids): if docid in doc_dict: doc_body = doc_dict[docid] else: doc_body = load_from_html_cascade(os.path.join( docs_dir, docid + '.html'), binary=binary)['body'] if len(doc_body) == 0: empty_docid.add(docid) continue fp.write('{}\t{}\n'.format( docid, ' '.join(map(lambda x: str(x), vocab.encode(doc_body))))) print('have {} empty query, have {} empty doc'.format( len(empty_qid), len(empty_docid))) filter_samples(train_filepath, '{}.prep.{}'.format(*train_filepath.rsplit('.', 1)), empty_qid, empty_docid) filter_samples(test_filepath, '{}.prep.{}'.format(*test_filepath.rsplit('.', 1)), empty_qid, empty_docid)