def main(start_epoch, end_epoch, n_in, n_mid, n_out, batchsize, gpu): # ネットワークインスタンス作成 net = JAtoENG(n_in, n_mid, n_out, batchsize, gpu) # 途中のエポックから処理を行う場合、その直前のモデルを読み込んでから学習・テストを行う if start_epoch != 1: model_file = "/home/kaneko-takayuki/NLP/ja_eng_lib/model_mse/epoch" + str(start_epoch) + "_model.npz" net.load(model_file) # 実験で使用する補完関数を設定 jw2v_func.set_completion_func(jw2v_func.return_none) ew2v_func.set_completion_func(ew2v_func.return_none) # 実験で使用するword2vecモデルを読み込む jw2v_func.load_w2v("/home/kaneko-takayuki/NLP/w2v_model/nwcj_word_1_200_8_25_0_1e4_32_1_15.bin") ew2v_func.load_w2v("/home/kaneko-takayuki/NLP/w2v_model/GoogleNews-vectors-negative300.bin") net.set_train_data(read_all()) # 繰り返し学習・テスト for epoch in range(start_epoch, end_epoch + 1): sys.stdout.write("epoch" + str(epoch) + ": ") sys.stdout.flush() net.train() net.save("/home/kaneko-takayuki/NLP/ja_eng_lib/model_mse/epoch" + str(epoch) + "_model.npz")
def main(): """ 既知語と未知語のタイプ数を調べる :return: なし """ well_known_n = 0 unknown_n = 0 # word2vec読み込み w2v_func.load_w2v( "/home/kaneko-takayuki/NLP/w2v_model/nwcj_word_1_200_8_25_0_1e4_32_1_15.bin" ) # Amazonコーパスを読み取る data = functions.read_amazon_corpus( "/home/kaneko-takayuki/NLP/amazon_corpus/data/jp/books/all.tsv") for sentence in data[0]: words = spliter.words(sentence) for word in words: try: _ = w2v.model[word] well_known_n += 1 except KeyError: unknown_n += 1 print("既知語: " + str(well_known_n)) print("未知語: " + str(unknown_n))
def main(n_in, n_mid, n_out, gpu, dir_name): # cudaへのパス os.environ[ "PATH"] = "/usr/local/cuda-7.5/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin" # ネットワークインスタンス作成 net = JAtoENG(n_in, n_mid, n_out, None, gpu) net.load(dir_name + "epoch230_model.npz") # 実験で使用する補完関数を設定 jw2v_func.set_completion_func(jw2v_func.return_none) ew2v_func.set_completion_func(ew2v_func.return_none) # 実験で使用するword2vecモデルを読み込む jw2v_func.load_w2v( "/home/kaneko-takayuki/NLP/w2v_model/nwcj_word_1_200_8_25_0_1e4_32_1_15.bin" ) ew2v_func.load_w2v( "/home/kaneko-takayuki/NLP/w2v_model/GoogleNews-vectors-negative300.bin" ) # for epoch in range(1, 2001): # sys.stdout.write("epoch" + str(epoch) + "...") # sys.stdout.flush() # # 使用するモデルのロード # net.load(dir_name + "epoch" + str(epoch) + "_model.npz") # # # 学習データと同じものを読み込む # data = read_all() # keys = ['日本'] # # # 学習データ・類似度を出力 # with open("/home/kaneko-takayuki/NLP/ja_eng_lib/similarity_test/epoch" + str(epoch) + ".tsv", 'w') as f: # for key in keys: # for e_word in data[key]: # similarity = net.similarity(key, e_word) # if similarity == 0.0: # 日単語か英単語がKeyErrorなら、飛ばす # continue # f.write(key + '\t' + e_word + '\t' + str(similarity) + '\n') # print("完了") # 繰り返し入力を得て、マッチする英単語を求める while (True): j_word = input() matched_eword = net.most_similar(j_word) print(matched_eword)
def main(n_in, n_mid, n_out, gpu, dir_name): # cudaへのパス os.environ[ "PATH"] = "/usr/local/cuda-7.5/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin" # ネットワークインスタンス作成 net = JAtoENG(n_in, n_mid, n_out, None, gpu) net.load(dir_name + "epoch200_model.npz") # 実験で使用する補完関数を設定 jw2v_func.set_completion_func(jw2v_func.return_none) # 実験で使用するword2vecモデルを読み込む jw2v_func.load_w2v( "/home/kaneko-takayuki/NLP/w2v_model/nwcj_word_1_200_8_25_0_1e4_32_1_15.bin" ) n = 1 keys = [] # 繰り返し入力を得て、マッチする英単語を求める with open("/home/kaneko-takayuki/NLP/amazon_corpus/data/jp/books/all.tsv", 'r') as i: print("単語を読み取り中...") for line in i: if n % 10 == 0: sys.stdout.write("\r" + str(n) + " / 4000") sys.stdout.flush() n += 1 items = line.replace('\n', '').split('\t') words = spliter.words(items[1]) # 単語リスト for word in words: if word in keys: continue # 既に登録済 jp_word_vector = net.foward(word) # 日単語の英ベクトル if len(jp_word_vector) == 0: continue with open( "/home/kaneko-takayuki/NLP/ja_eng_lib/dictionary.txt", 'a') as o: keys.append(word) vec_str = ','.join([str(v) for v in jp_word_vector]) o.write(word + '\t' + vec_str + '\n')
def main(start_k, end_k, start_epoch, end_epoch, n_in, n_mid, batchsize, gpu, window_size, patience=0): """ Amazonコーパスに対して、 sigmoidを5つ使用したモデルで、フレーズベクトルを素性として、学習・テストを行う :param start_k: 5分割交差検定において、どこから行うか :param end_k: 5分割交差検定において、どこまで行うか :param start_epoch: 開始エポック数 :param end_epoch: 限界終了エポック数 :param n_in: 入力次元数 :param n_mid: 中間次元数 :param batchsize: バッチサイズ :param gpu: GPUを利用するかどうか :param window_size: フレーズを区切るウィンドウサイズ :param patience: early stoppingに関して、様子見する回数(0の時、early stoppingはしない) :return: なし """ print("-------------------------------------") print("exec_file: ja_amazon_nwjc2vec_sigmoid5_majority.py") print("start_k: " + str(start_k)) print("end_k: " + str(end_k)) print("start_epoch: " + str(start_epoch)) print("end_epoch: " + str(end_epoch)) print("入力次元数: " + str(n_in)) print("中間次元数: " + str(n_mid)) print("バッチサイズ: " + str(batchsize)) print("GPU: " + str(gpu)) print("ウィンドウサイズ: " + str(window_size)) print("patience: " + str(patience)) print("-------------------------------------") # 実験ディレクトリ experiment_dir = constants.AMAZON_DIR + "experiment/ja/nwjc2vec_sigmoid5_majority/window" + str( window_size) + "/" # 実験で使用する補完関数を設定 w2v_func.set_completion_func(w2v_func.create_random_vector) # 実験で使用するword2vecモデルを読み込む w2v_func.load_w2v(constants.W2V_MODEL_DIR + "nwjc_word_1_200_8_25_0_1e4_32_1_15") # k_start〜k_endで5分割交差検定 # k: k回目の検定 for k in range(start_k, end_k + 1): print(str(k) + " / 5 分割目") # ネットワークインスタンス作成 net = NWJC2VECSigmoid5MAJORITY(n_in, n_mid, batchsize, gpu, window_size) # 途中のエポックから処理を行う場合、その直前のモデルを読み込んでから学習・テストを行う if start_epoch != 1: model_file = experiment_dir + "model/cross_validation" + str(k) + "/" \ + "epoch" + str(start_epoch-1) + "_model.npz" net.load(model_file) # 学習データ, テストデータの準備 train_sentences = [] train_labels = [] dev_sentences = [] dev_labels = [] test_sentences = [] test_labels = [] # あらかじめ5分割しておいたデータセットを学習用とテスト用に振り分ける # 3/5が学習用、1/5が検証用、5/1がテスト用 for i in range(1, 6): _sentence, _label = read_amazon_corpus( constants.AMAZON_JP_BOOKDATA_DIR + "dataset" + str(i) + ".tsv") if ((k + i) % 5 == 0) and (patience > 0): dev_sentences.extend(_sentence) # 検証用 dev_labels.extend(_label) if (k + i) % 5 == 1: test_sentences.extend(_sentence) # テスト用 test_labels.extend(_label) else: train_sentences.extend(_sentence) # 学習用 train_labels.extend(_label) # データのセット net.set_train_data(train_sentences, train_labels) net.set_dev_data(dev_sentences, dev_labels) net.set_test_data(test_sentences, test_labels) # 繰り返し学習・テスト print("--------------------------------------------------------------") print(" epoch | train_loss | test_accuracy | dev_accuracy ") for epoch in range(start_epoch, end_epoch + 1): sys.stdout.write(str(epoch).center(7) + '|') sys.stdout.flush() # 学習フェーズ train_loss = net.train() sys.stdout.write(str(train_loss)[:10].center(12) + '|') sys.stdout.flush() # テストフェーズ test_accuracy = net.test(experiment_dir + "out/cross_validation" + str(k) + "/epoch" + str(epoch) + ".tsv") sys.stdout.write(str(test_accuracy)[:13].center(15) + '|') sys.stdout.flush() # モデルの保存 net.save(experiment_dir + "model/cross_validation" + str(k) + "/epoch" + str(epoch) + "_model.npz") # 収束検証フェーズ if patience > 0: dev_accuracy, early_stopping_flag = net.dev(patience) sys.stdout.write(str(dev_accuracy)[:12].center(14)) sys.stdout.flush() if early_stopping_flag: break print() print("--------------------------------------------------------------")
def main(start_k, end_k, start_epoch, end_epoch, n_in, n_mid, batchsize, gpu, window_size, completion): """ Amazonコーパスに対して、 sigmoidを5つ使用したモデルで、フレーズベクトルを素性として、学習・テストを行う :param start_k: 5分割交差検定において、どこから行うか :param end_k: 5分割交差検定において、どこまで行うか :param start_epoch: 開始エポック数 :param end_epoch: 終了エポック数 :param n_in: 入力次元数 :param n_mid: 中間次元数 :param batchsize: バッチサイズ :param gpu: GPUを利用するかどうか :param window_size: フレーズを区切るウィンドウサイズ :param completion: 補完関数(zero, random) :return: なし """ print("-------------------------------------") print("exec_file: exec_ja_to_en_amazon_w2v_sigmoid5.py") print("start_k: " + str(start_k)) print("end_k: " + str(end_k)) print("start_epoch: " + str(start_epoch)) print("end_epoch: " + str(end_epoch)) print("入力次元数: " + str(n_in)) print("中間次元数: " + str(n_mid)) print("バッチサイズ: " + str(batchsize)) print("GPU: " + str(gpu)) print("ウィンドウサイズ: " + str(window_size)) print("補完関数: " + completion) print("-------------------------------------") # 実験ディレクトリ experiment_dir = "amazon_corpus/j_to_e_sigmoid5_w2v/window" + str( window_size) + "/" + completion + "/" # 実験で使用する補完関数を設定 if completion == "zero": w2v_func.set_completion_func(w2v_func.create_zero_vector) elif completion == "random": w2v_func.set_completion_func(w2v_func.create_random_vector) else: sys.stderr.write("指定した補完関数が適切ではありません\n") exit() # 実験で使用するword2vecモデルを読み込む w2v_func.load_w2v( "/home/kaneko-takayuki/NLP/w2v_model/nwcj_word_1_200_8_25_0_1e4_32_1_15.bin" ) # k_start〜k_endで5分割交差検定 # k: k回目の検定 for k in range(start_k, end_k + 1): print("-------------------") print(str(k) + " / 5 分割目") print("-------------------") # ネットワークインスタンス作成 net = JW2VSigmoid5(n_in, n_mid, batchsize, gpu, window_size) # 途中のエポックから処理を行う場合、その直前のモデルを読み込んでから学習・テストを行う if start_epoch != 1: model_file = experiment_dir + "model/cross_validation" + str(k) + "/" \ + "epoch" + str(start_epoch-1) + "_model.npz" net.load(model_file) # 学習データ, テストデータの準備 train_sentences = [] train_labels = [] test_sentences = [] test_labels = [] # あらかじめ5分割しておいたデータセットを学習用とテスト用に振り分ける # 5/4が学習用、5/1がテスト用 for i in range(1, 6): _sentence, _label = read_amazon_corpus( constants.AMAZON_JP_BOOKDATA_DIR + "dataset" + str(i) + ".tsv") if k != i: train_sentences.extend(_sentence) train_labels.extend(_label) else: test_sentences.extend(_sentence) test_labels.extend(_label) # 繰り返し学習・テスト for epoch in range(start_epoch, end_epoch + 1): sys.stdout.write("epoch" + str(epoch) + "...") sys.stdout.flush() net.set_train_data(train_sentences, train_labels) net.set_test_data(test_sentences, test_labels) net.train() net.test(experiment_dir + "out/cross_validation" + str(k) + "/epoch" + str(epoch) + ".tsv") net.save(experiment_dir + "model/cross_validation" + str(k) + "/epoch" + str(epoch) + "_model.npz") print("完了")