Python Preparation.save_corpus_dmn примеры использования

Язык программирования: Python

Пространство имен/Пакет: preparation

Класс/Тип: Preparation

Метод/Функция: save_corpus_dmn

Примеров на hotexamples.com: 2

Python Preparation.save_corpus_dmn - 2 примера найдено. Это лучшие примеры Python кода для preparation.Preparation.save_corpus_dmn, полученные из open source проектов. Вы можете ставить оценку каждому примеру, чтобы помочь нам улучшить качество примеров.

Основные методы

Показать Скрыть

Preparation(10)

save_relation(4)

run_with_train_valid_test_corpus(2)

check_filter_query_with_dup_doc(2)

save_corpus_dmn(2)

save_corpus(2)

run_with_train_valid_test_corpus_dmn(2)

train_test_move_to_dirs(1)

train_test_make_dirs(1)

text_mining_all(1)

split_train_valid_test(1)

show(1)

save_relation_linear(1)

save_relation_intents(1)

run_with_separate(1)

run_with_separate_linear(1)

calculate_per_change(1)

run_with_one_corpus_for_quora(1)

run_with_one_corpus(1)

refine_dataframe(1)

read_options(1)

raw(1)

move(1)

jsonfile_to_dataframe(1)

get_size(1)

get_options(1)

get_malicous_directory(1)

get_benign_directory(1)

train_test_separation(1)

Пример #1

Показать файл

Файл: preprocess_dmn.py Проект: alexanderblnf/NeuralResponseRankingMTL

                                                    'relation_' + data_part +
                                                    '_intents.txt')

        rels_web = None
        if add_web:
            rels_web = all_rels_web[index]
            print '[Web] total relations in ', data_part, len(rels_web)
            prepare.save_relation(
                cur_data_dir + 'relation_' + data_part + '_web.txt', rels_web)
            print '[Web] filter queries with duplicated doc ids...'
            prepare.check_filter_query_with_dup_doc(cur_data_dir +
                                                    'relation_' + data_part +
                                                    '_web.txt')

    print 'total corpus ', len(corpus)
    prepare.save_corpus_dmn(cur_data_dir + 'corpus.txt', corpus, '\t')
    print 'preparation finished ...'

    print 'begin preprocess...'
    # Prerpocess corpus file
    preprocessor = Preprocess(word_filter_config={'min_freq': 5})
    dids, docs = preprocessor.run_2d(
        cur_data_dir +
        'corpus.txt')  # docs is [corpus_size, utterance_num, max_text1_len]
    preprocessor.save_word_dict(cur_data_dir + 'word_dict.txt')
    # preprocessor.save_words_df(basedir + 'word_df.txt')

    fout = open(cur_data_dir + 'corpus_preprocessed.txt', 'w')

    for inum, did in enumerate(dids):
        doc_txt = docs[inum]  # 2d list

Пример #2

Показать файл

    corpus, rels_train, rels_valid, rels_test = prepare.run_with_train_valid_test_corpus_dmn(
        basedir + train_file, basedir + valid_file, basedir + test_file)
    for data_part in list(['train', 'valid', 'test']):
        if data_part == 'train':
            rels = rels_train
        elif data_part == 'valid':
            rels = rels_valid
        else:
            rels = rels_test
        print 'total relations in ', data_part, len(rels)
        prepare.save_relation(basedir + 'relation_' + data_part + '.txt', rels)
        print 'filter queries with duplicated doc ids...'
        prepare.check_filter_query_with_dup_doc(basedir + 'relation_' +
                                                data_part + '.txt')
    print 'total corpus ', len(corpus)
    prepare.save_corpus_dmn(basedir + 'corpus.txt', corpus, '\t')
    print 'preparation finished ...'

    print 'begin preprocess...'
    # Prerpocess corpus file
    # Trying not filtering terms by frequency
    preprocessor = Preprocess()
    dids, docs = preprocessor.run_2d_smn(
        basedir +
        'corpus.txt')  # docs is [corpus_size, utterance_num, max_text1_len]
    preprocessor.save_word_dict(basedir + 'word_dict.txt')
    # preprocessor.save_words_df(basedir + 'word_df.txt')

    fout = open(basedir + 'corpus_preprocessed.txt', 'w')
    for inum, did in enumerate(dids):
        doc_txt = docs[inum]  # 2d list