Exemplo n.º 1
0
PREPROCESSOR.save(auto_text_path)
PARSER = Parser()
print('かかり受け解析を行います..')
PARSER.t2f([auto_text_path + '/' + root + '.text'],
           kytea_model=kytea_path,
           eda_model=eda_path)
print('結果を保存します')
PARSER.save(tree_path)  # かかり受け解析したものをファイルに保存
print("Indexを読み込みます...")
VECTORIZER = Vectorizer(index_path, t=1, list=whitelist)  # Indexの読み込み
print('Treeを読み込みます')
vectors = VECTORIZER.get_vector([tree_path + '/' + root + '.eda'],
                                filter=3)  # ベクトルを生成
print(vectors)
print('Vectorを保存します')
VECTORIZER.save(vectors, [vector_path])  # ベクトルを保存

#-----
# いまもっているTFIDFコーパスベクトル群と、クエリベクトルtfidf_vectorsを比較
#----

print('TFIDF corpus Vectorsを読み込みます')
tfidf_corpus_vectors = VECTORIZER.load(
    sorted(glob.glob(tfidf_DB_path + '/*.vector')))
print(tfidf_corpus_vectors)

print('IDF Vectorを読み込みます')
IDF_vector = VECTORIZER.load_IDF(IDF_path)
print(IDF_vector)

print('クエリをTFIDF化します...')
Exemplo n.º 2
0
print(index_path)
print("Indexを読み込みます...")
VECTORIZER = Vectorizer(index_path, t=1, list=whitelist)  # Indexの読み込み  # 閾値は1
print('Treeを読み込みます')
vectors = VECTORIZER.get_vector(sorted(glob.glob(tree_path + '/*')),
                                filter=3)  # ベクトルを生成
print(vectors)
print('Vectorを保存します')
filename_list = sorted(glob.glob(tree_path + '/*'))
vector_path_list = []
for filename in filename_list:
    base_name = os.path.basename(filename)  # A.text
    root = os.path.splitext(base_name)[0]  # A
    file_name = vector_folder_path + '/' + root + '.vector'
    vector_path_list.append(file_name)
VECTORIZER.save(vectors, vector_path_list)  # ベクトルを保存
print(vector_path_list)

IDF = VECTORIZER.calculate_IDF(vectors)
IDF_path = '../auto/IDF.index'
VECTORIZER.save_IDF(IDF, IDF_path)
print('IDFVectorを保存します')

print('データベースにTFIDF値を登録します...')
tfidf_corpus_vectors = vectors * IDF
print(tfidf_corpus_vectors)
TFIDF_path = '../auto/TFIDF_vectors_DB'
vector_path_list = []  # 以下72行目の流用,サブルーチン化すべき
for filename in filename_list:
    base_name = os.path.basename(filename)  # A.text
    root = os.path.splitext(base_name)[0]  # A