示例#1
0
文件: news.py 项目: tetuomi/opython
        f = open('./data/text/' + d + '/' + file, 'r', encoding='utf-8')
        raw = f.read()
        reg_raw = re.sub(r'[0-9a-zA-z]', '', raw)
        reg_raw = reg_raw.replace('\n', '')
        #         print(reg_raw)

        f.close()

x_ls = []
y_ls = []

tmp1 = []
tmp2 = ''

tokenizer = Tokenizer()
token_filters = [POSKeepFilter(['名詞'])]
analyzer = Analyzer([], tokenizer, token_filters)

for i, d in enumerate(dirs):
    files = os.listdir('./data/text/' + d)

    for file in files:
        f = open('./data/text/' + d + '/' + file, 'r', encoding='utf-8')
        raw = f.read()

        reg_raw = re.sub(r'[0-9a-zA-z]', '', raw)
        reg_raw = reg_raw.replace('\n', '')

        for token in analyzer.analyze(reg_raw):
            tmp1.append(token.surface)
            tmp2 = ' '.join(tmp1)
示例#2
0
    re_1(dfile,makefile)

    print("おそらく書き込みは完了")
    """
    print("データを解析中だと考える。")

    #加工データを変数に入れて、その変数を単語頻度のjanomeに投げるやつ。
    #変数はsとする
    #makefile2は任意に入力したtextデータタイトルをテキストデータとしての文字列に変更したもの
    makefile = "パリ"
    makefile2 = "" + makefile + ".txt"
    f = open(makefile2)
    s = f.read()
    f.close()

    a = Analyzer(token_filters=[POSKeepFilter(['名詞']), TokenCountFilter()])

    g_count = a.analyze(s)
    #リスト化させる。
    l_count = list(a.analyze(s))
    #print(type(g_count))
    #print(type(l_count))
    # <class 'generator'>
    #全て表記させる。
    #for i in g_count:
    #   print(i)
    """
    
    print("sort前")
    print(l_count)
    

# ワードと品詞をタプルリストで返す
def decompose_pos(sentence):
    result = []
    for token in tokenizer.tokenize(sentence):
        result.append((token.surface, token.part_of_speech.split(",")[0]))
    return result


# inserted_sentence_textを品詞分解してタプルリストに格納
inserted_sentence_tuple_list = decompose_pos(inserted_sentence_text)


# 名詞のみを抽出させるフィルター
filter_extract_noun = Analyzer(token_filters=[POSKeepFilter(['名詞'])])


# 名詞のみ抽出されたリストの個数
inserted_sentence_noun_num = len(
    list(filter_extract_noun.analyze(inserted_sentence_text)))


# extracted_only_noun_textの名詞を抽出し, リストに格納
analyzed_extracted_only_noun_noun = list(
    filter_extract_noun.analyze(extracted_only_noun_text))


# analyzed_extracted_only_noun_nounの情報をワードと品詞のみにする
extracted_only_noun_noun_list = []
for t in analyzed_extracted_only_noun_noun: