f = open('./data/text/' + d + '/' + file, 'r', encoding='utf-8') raw = f.read() reg_raw = re.sub(r'[0-9a-zA-z]', '', raw) reg_raw = reg_raw.replace('\n', '') # print(reg_raw) f.close() x_ls = [] y_ls = [] tmp1 = [] tmp2 = '' tokenizer = Tokenizer() token_filters = [POSKeepFilter(['名詞'])] analyzer = Analyzer([], tokenizer, token_filters) for i, d in enumerate(dirs): files = os.listdir('./data/text/' + d) for file in files: f = open('./data/text/' + d + '/' + file, 'r', encoding='utf-8') raw = f.read() reg_raw = re.sub(r'[0-9a-zA-z]', '', raw) reg_raw = reg_raw.replace('\n', '') for token in analyzer.analyze(reg_raw): tmp1.append(token.surface) tmp2 = ' '.join(tmp1)
re_1(dfile,makefile) print("おそらく書き込みは完了") """ print("データを解析中だと考える。") #加工データを変数に入れて、その変数を単語頻度のjanomeに投げるやつ。 #変数はsとする #makefile2は任意に入力したtextデータタイトルをテキストデータとしての文字列に変更したもの makefile = "パリ" makefile2 = "" + makefile + ".txt" f = open(makefile2) s = f.read() f.close() a = Analyzer(token_filters=[POSKeepFilter(['名詞']), TokenCountFilter()]) g_count = a.analyze(s) #リスト化させる。 l_count = list(a.analyze(s)) #print(type(g_count)) #print(type(l_count)) # <class 'generator'> #全て表記させる。 #for i in g_count: # print(i) """ print("sort前") print(l_count)
# ワードと品詞をタプルリストで返す def decompose_pos(sentence): result = [] for token in tokenizer.tokenize(sentence): result.append((token.surface, token.part_of_speech.split(",")[0])) return result # inserted_sentence_textを品詞分解してタプルリストに格納 inserted_sentence_tuple_list = decompose_pos(inserted_sentence_text) # 名詞のみを抽出させるフィルター filter_extract_noun = Analyzer(token_filters=[POSKeepFilter(['名詞'])]) # 名詞のみ抽出されたリストの個数 inserted_sentence_noun_num = len( list(filter_extract_noun.analyze(inserted_sentence_text))) # extracted_only_noun_textの名詞を抽出し, リストに格納 analyzed_extracted_only_noun_noun = list( filter_extract_noun.analyze(extracted_only_noun_text)) # analyzed_extracted_only_noun_nounの情報をワードと品詞のみにする extracted_only_noun_noun_list = [] for t in analyzed_extracted_only_noun_noun: