PREPROCESSOR.save(auto_text_path) PARSER = Parser() print('かかり受け解析を行います..') PARSER.t2f([auto_text_path + '/' + root + '.text'], kytea_model=kytea_path, eda_model=eda_path) print('結果を保存します') PARSER.save(tree_path) # かかり受け解析したものをファイルに保存 print("Indexを読み込みます...") VECTORIZER = Vectorizer(index_path, t=1, list=whitelist) # Indexの読み込み print('Treeを読み込みます') vectors = VECTORIZER.get_vector([tree_path + '/' + root + '.eda'], filter=3) # ベクトルを生成 print(vectors) print('Vectorを保存します') VECTORIZER.save(vectors, [vector_path]) # ベクトルを保存 #----- # いまもっているTFIDFコーパスベクトル群と、クエリベクトルtfidf_vectorsを比較 #---- print('TFIDF corpus Vectorsを読み込みます') tfidf_corpus_vectors = VECTORIZER.load( sorted(glob.glob(tfidf_DB_path + '/*.vector'))) print(tfidf_corpus_vectors) print('IDF Vectorを読み込みます') IDF_vector = VECTORIZER.load_IDF(IDF_path) print(IDF_vector) print('クエリをTFIDF化します...')
print(index_path) print("Indexを読み込みます...") VECTORIZER = Vectorizer(index_path, t=1, list=whitelist) # Indexの読み込み # 閾値は1 print('Treeを読み込みます') vectors = VECTORIZER.get_vector(sorted(glob.glob(tree_path + '/*')), filter=3) # ベクトルを生成 print(vectors) print('Vectorを保存します') filename_list = sorted(glob.glob(tree_path + '/*')) vector_path_list = [] for filename in filename_list: base_name = os.path.basename(filename) # A.text root = os.path.splitext(base_name)[0] # A file_name = vector_folder_path + '/' + root + '.vector' vector_path_list.append(file_name) VECTORIZER.save(vectors, vector_path_list) # ベクトルを保存 print(vector_path_list) IDF = VECTORIZER.calculate_IDF(vectors) IDF_path = '../auto/IDF.index' VECTORIZER.save_IDF(IDF, IDF_path) print('IDFVectorを保存します') print('データベースにTFIDF値を登録します...') tfidf_corpus_vectors = vectors * IDF print(tfidf_corpus_vectors) TFIDF_path = '../auto/TFIDF_vectors_DB' vector_path_list = [] # 以下72行目の流用,サブルーチン化すべき for filename in filename_list: base_name = os.path.basename(filename) # A.text root = os.path.splitext(base_name)[0] # A