Esempio n. 1
0
def main(start_epoch, end_epoch, n_in, n_mid, n_out, batchsize, gpu):
    # ネットワークインスタンス作成
    net = JAtoENG(n_in, n_mid, n_out, batchsize, gpu)

    # 途中のエポックから処理を行う場合、その直前のモデルを読み込んでから学習・テストを行う
    if start_epoch != 1:
        model_file = "/home/kaneko-takayuki/NLP/ja_eng_lib/model_mse/epoch" + str(start_epoch) + "_model.npz"
        net.load(model_file)

    # 実験で使用する補完関数を設定
    jw2v_func.set_completion_func(jw2v_func.return_none)
    ew2v_func.set_completion_func(ew2v_func.return_none)

    # 実験で使用するword2vecモデルを読み込む
    jw2v_func.load_w2v("/home/kaneko-takayuki/NLP/w2v_model/nwcj_word_1_200_8_25_0_1e4_32_1_15.bin")
    ew2v_func.load_w2v("/home/kaneko-takayuki/NLP/w2v_model/GoogleNews-vectors-negative300.bin")

    net.set_train_data(read_all())

    # 繰り返し学習・テスト
    for epoch in range(start_epoch, end_epoch + 1):
        sys.stdout.write("epoch" + str(epoch) + ": ")
        sys.stdout.flush()
        net.train()
        net.save("/home/kaneko-takayuki/NLP/ja_eng_lib/model_mse/epoch" + str(epoch) + "_model.npz")
Esempio n. 2
0
def main():
    """
    既知語と未知語のタイプ数を調べる
    :return: なし
    """
    well_known_n = 0
    unknown_n = 0

    # word2vec読み込み
    w2v_func.load_w2v(
        "/home/kaneko-takayuki/NLP/w2v_model/nwcj_word_1_200_8_25_0_1e4_32_1_15.bin"
    )

    # Amazonコーパスを読み取る
    data = functions.read_amazon_corpus(
        "/home/kaneko-takayuki/NLP/amazon_corpus/data/jp/books/all.tsv")
    for sentence in data[0]:
        words = spliter.words(sentence)
        for word in words:
            try:
                _ = w2v.model[word]
                well_known_n += 1
            except KeyError:
                unknown_n += 1

    print("既知語: " + str(well_known_n))
    print("未知語: " + str(unknown_n))
Esempio n. 3
0
def main(n_in, n_mid, n_out, gpu, dir_name):
    # cudaへのパス
    os.environ[
        "PATH"] = "/usr/local/cuda-7.5/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin"

    # ネットワークインスタンス作成
    net = JAtoENG(n_in, n_mid, n_out, None, gpu)
    net.load(dir_name + "epoch230_model.npz")

    # 実験で使用する補完関数を設定
    jw2v_func.set_completion_func(jw2v_func.return_none)
    ew2v_func.set_completion_func(ew2v_func.return_none)

    # 実験で使用するword2vecモデルを読み込む
    jw2v_func.load_w2v(
        "/home/kaneko-takayuki/NLP/w2v_model/nwcj_word_1_200_8_25_0_1e4_32_1_15.bin"
    )
    ew2v_func.load_w2v(
        "/home/kaneko-takayuki/NLP/w2v_model/GoogleNews-vectors-negative300.bin"
    )

    # for epoch in range(1, 2001):
    #     sys.stdout.write("epoch" + str(epoch) + "...")
    #     sys.stdout.flush()
    #     # 使用するモデルのロード
    #     net.load(dir_name + "epoch" + str(epoch) + "_model.npz")
    #
    #     # 学習データと同じものを読み込む
    #     data = read_all()
    #     keys = ['日本']
    #
    #     # 学習データ・類似度を出力
    #     with open("/home/kaneko-takayuki/NLP/ja_eng_lib/similarity_test/epoch" + str(epoch) + ".tsv", 'w') as f:
    #         for key in keys:
    #             for e_word in data[key]:
    #                 similarity = net.similarity(key, e_word)
    #                 if similarity == 0.0:  # 日単語か英単語がKeyErrorなら、飛ばす
    #                     continue
    #                 f.write(key + '\t' + e_word + '\t' + str(similarity) + '\n')
    #     print("完了")

    # 繰り返し入力を得て、マッチする英単語を求める
    while (True):
        j_word = input()
        matched_eword = net.most_similar(j_word)
        print(matched_eword)
Esempio n. 4
0
def main(n_in, n_mid, n_out, gpu, dir_name):
    # cudaへのパス
    os.environ[
        "PATH"] = "/usr/local/cuda-7.5/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin"

    # ネットワークインスタンス作成
    net = JAtoENG(n_in, n_mid, n_out, None, gpu)
    net.load(dir_name + "epoch200_model.npz")

    # 実験で使用する補完関数を設定
    jw2v_func.set_completion_func(jw2v_func.return_none)

    # 実験で使用するword2vecモデルを読み込む
    jw2v_func.load_w2v(
        "/home/kaneko-takayuki/NLP/w2v_model/nwcj_word_1_200_8_25_0_1e4_32_1_15.bin"
    )

    n = 1
    keys = []
    # 繰り返し入力を得て、マッチする英単語を求める
    with open("/home/kaneko-takayuki/NLP/amazon_corpus/data/jp/books/all.tsv",
              'r') as i:
        print("単語を読み取り中...")
        for line in i:
            if n % 10 == 0:
                sys.stdout.write("\r" + str(n) + " / 4000")
            sys.stdout.flush()
            n += 1
            items = line.replace('\n', '').split('\t')
            words = spliter.words(items[1])  # 単語リスト

            for word in words:
                if word in keys:
                    continue  # 既に登録済

                jp_word_vector = net.foward(word)  # 日単語の英ベクトル
                if len(jp_word_vector) == 0:
                    continue

                with open(
                        "/home/kaneko-takayuki/NLP/ja_eng_lib/dictionary.txt",
                        'a') as o:
                    keys.append(word)
                    vec_str = ','.join([str(v) for v in jp_word_vector])
                    o.write(word + '\t' + vec_str + '\n')
Esempio n. 5
0
def main(start_k,
         end_k,
         start_epoch,
         end_epoch,
         n_in,
         n_mid,
         batchsize,
         gpu,
         window_size,
         patience=0):
    """
    Amazonコーパスに対して、
    sigmoidを5つ使用したモデルで、フレーズベクトルを素性として、学習・テストを行う
    :param start_k: 5分割交差検定において、どこから行うか
    :param end_k: 5分割交差検定において、どこまで行うか
    :param start_epoch: 開始エポック数
    :param end_epoch: 限界終了エポック数
    :param n_in: 入力次元数
    :param n_mid: 中間次元数
    :param batchsize: バッチサイズ
    :param gpu: GPUを利用するかどうか
    :param window_size: フレーズを区切るウィンドウサイズ
    :param patience: early stoppingに関して、様子見する回数(0の時、early stoppingはしない)
    :return: なし
    """
    print("-------------------------------------")
    print("exec_file: ja_amazon_nwjc2vec_sigmoid5_majority.py")
    print("start_k: " + str(start_k))
    print("end_k: " + str(end_k))
    print("start_epoch: " + str(start_epoch))
    print("end_epoch: " + str(end_epoch))
    print("入力次元数: " + str(n_in))
    print("中間次元数: " + str(n_mid))
    print("バッチサイズ: " + str(batchsize))
    print("GPU: " + str(gpu))
    print("ウィンドウサイズ: " + str(window_size))
    print("patience: " + str(patience))
    print("-------------------------------------")

    # 実験ディレクトリ
    experiment_dir = constants.AMAZON_DIR + "experiment/ja/nwjc2vec_sigmoid5_majority/window" + str(
        window_size) + "/"

    # 実験で使用する補完関数を設定
    w2v_func.set_completion_func(w2v_func.create_random_vector)

    # 実験で使用するword2vecモデルを読み込む
    w2v_func.load_w2v(constants.W2V_MODEL_DIR +
                      "nwjc_word_1_200_8_25_0_1e4_32_1_15")

    # k_start〜k_endで5分割交差検定
    # k: k回目の検定
    for k in range(start_k, end_k + 1):
        print(str(k) + " / 5 分割目")
        # ネットワークインスタンス作成
        net = NWJC2VECSigmoid5MAJORITY(n_in, n_mid, batchsize, gpu,
                                       window_size)

        # 途中のエポックから処理を行う場合、その直前のモデルを読み込んでから学習・テストを行う
        if start_epoch != 1:
            model_file = experiment_dir + "model/cross_validation" + str(k) + "/" \
                         + "epoch" + str(start_epoch-1) + "_model.npz"
            net.load(model_file)

        # 学習データ, テストデータの準備
        train_sentences = []
        train_labels = []
        dev_sentences = []
        dev_labels = []
        test_sentences = []
        test_labels = []

        # あらかじめ5分割しておいたデータセットを学習用とテスト用に振り分ける
        # 3/5が学習用、1/5が検証用、5/1がテスト用
        for i in range(1, 6):
            _sentence, _label = read_amazon_corpus(
                constants.AMAZON_JP_BOOKDATA_DIR + "dataset" + str(i) + ".tsv")

            if ((k + i) % 5 == 0) and (patience > 0):
                dev_sentences.extend(_sentence)  # 検証用
                dev_labels.extend(_label)
            if (k + i) % 5 == 1:
                test_sentences.extend(_sentence)  # テスト用
                test_labels.extend(_label)
            else:
                train_sentences.extend(_sentence)  # 学習用
                train_labels.extend(_label)

        # データのセット
        net.set_train_data(train_sentences, train_labels)
        net.set_dev_data(dev_sentences, dev_labels)
        net.set_test_data(test_sentences, test_labels)

        # 繰り返し学習・テスト
        print("--------------------------------------------------------------")
        print(" epoch | train_loss | test_accuracy | dev_accuracy ")
        for epoch in range(start_epoch, end_epoch + 1):
            sys.stdout.write(str(epoch).center(7) + '|')
            sys.stdout.flush()

            # 学習フェーズ
            train_loss = net.train()
            sys.stdout.write(str(train_loss)[:10].center(12) + '|')
            sys.stdout.flush()

            # テストフェーズ
            test_accuracy = net.test(experiment_dir + "out/cross_validation" +
                                     str(k) + "/epoch" + str(epoch) + ".tsv")
            sys.stdout.write(str(test_accuracy)[:13].center(15) + '|')
            sys.stdout.flush()

            # モデルの保存
            net.save(experiment_dir + "model/cross_validation" + str(k) +
                     "/epoch" + str(epoch) + "_model.npz")

            # 収束検証フェーズ
            if patience > 0:
                dev_accuracy, early_stopping_flag = net.dev(patience)
                sys.stdout.write(str(dev_accuracy)[:12].center(14))
                sys.stdout.flush()
                if early_stopping_flag:
                    break
            print()
        print("--------------------------------------------------------------")
Esempio n. 6
0
def main(start_k, end_k, start_epoch, end_epoch, n_in, n_mid, batchsize, gpu,
         window_size, completion):
    """
    Amazonコーパスに対して、
    sigmoidを5つ使用したモデルで、フレーズベクトルを素性として、学習・テストを行う
    :param start_k: 5分割交差検定において、どこから行うか
    :param end_k: 5分割交差検定において、どこまで行うか
    :param start_epoch: 開始エポック数
    :param end_epoch: 終了エポック数
    :param n_in: 入力次元数
    :param n_mid: 中間次元数
    :param batchsize: バッチサイズ
    :param gpu: GPUを利用するかどうか
    :param window_size: フレーズを区切るウィンドウサイズ
    :param completion: 補完関数(zero, random)
    :return: なし
    """
    print("-------------------------------------")
    print("exec_file: exec_ja_to_en_amazon_w2v_sigmoid5.py")
    print("start_k: " + str(start_k))
    print("end_k: " + str(end_k))
    print("start_epoch: " + str(start_epoch))
    print("end_epoch: " + str(end_epoch))
    print("入力次元数: " + str(n_in))
    print("中間次元数: " + str(n_mid))
    print("バッチサイズ: " + str(batchsize))
    print("GPU: " + str(gpu))
    print("ウィンドウサイズ: " + str(window_size))
    print("補完関数: " + completion)
    print("-------------------------------------")

    # 実験ディレクトリ
    experiment_dir = "amazon_corpus/j_to_e_sigmoid5_w2v/window" + str(
        window_size) + "/" + completion + "/"

    # 実験で使用する補完関数を設定
    if completion == "zero":
        w2v_func.set_completion_func(w2v_func.create_zero_vector)
    elif completion == "random":
        w2v_func.set_completion_func(w2v_func.create_random_vector)
    else:
        sys.stderr.write("指定した補完関数が適切ではありません\n")
        exit()

    # 実験で使用するword2vecモデルを読み込む
    w2v_func.load_w2v(
        "/home/kaneko-takayuki/NLP/w2v_model/nwcj_word_1_200_8_25_0_1e4_32_1_15.bin"
    )

    # k_start〜k_endで5分割交差検定
    # k: k回目の検定
    for k in range(start_k, end_k + 1):
        print("-------------------")
        print(str(k) + " / 5 分割目")
        print("-------------------")
        # ネットワークインスタンス作成
        net = JW2VSigmoid5(n_in, n_mid, batchsize, gpu, window_size)

        # 途中のエポックから処理を行う場合、その直前のモデルを読み込んでから学習・テストを行う
        if start_epoch != 1:
            model_file = experiment_dir + "model/cross_validation" + str(k) + "/" \
                         + "epoch" + str(start_epoch-1) + "_model.npz"
            net.load(model_file)

        # 学習データ, テストデータの準備
        train_sentences = []
        train_labels = []
        test_sentences = []
        test_labels = []

        # あらかじめ5分割しておいたデータセットを学習用とテスト用に振り分ける
        # 5/4が学習用、5/1がテスト用
        for i in range(1, 6):
            _sentence, _label = read_amazon_corpus(
                constants.AMAZON_JP_BOOKDATA_DIR + "dataset" + str(i) + ".tsv")
            if k != i:
                train_sentences.extend(_sentence)
                train_labels.extend(_label)
            else:
                test_sentences.extend(_sentence)
                test_labels.extend(_label)

        # 繰り返し学習・テスト
        for epoch in range(start_epoch, end_epoch + 1):
            sys.stdout.write("epoch" + str(epoch) + "...")
            sys.stdout.flush()
            net.set_train_data(train_sentences, train_labels)
            net.set_test_data(test_sentences, test_labels)
            net.train()
            net.test(experiment_dir + "out/cross_validation" + str(k) +
                     "/epoch" + str(epoch) + ".tsv")
            net.save(experiment_dir + "model/cross_validation" + str(k) +
                     "/epoch" + str(epoch) + "_model.npz")
            print("完了")