def test_json_parse(file_r_name, path_w): parsed = [] with open(file_r_name, 'r') as file_r, \ open(path_w + 'json_parse.json', 'w') as file_w: for line in file_r: line_parse = lem.json_parse(line) parsed.append(line_parse) pretty_json(parsed, file_w) print('Done test_json_parse')
# Тут есть только 2 опции: # bastard - добавлять ли леммы, в распознании которых Mystem не уверен? # non_cyrillic - добавлять ли леммы с не кириллическими символами? bastard = True non_cyrillic = True # Чтобы наглядно посмотреть, какие леммы будут отобраны для каждой строки можем # прогнать каждую строку сначала через парсер, а потом через фильтр. # В итоге получится текстовый файл с леммами. file_lems_name = path_w + 'lems.txt' with open(file_json_name, 'r') as file_json, \ open(file_lems_name, 'w') as file_lems: for line in file_json: # парсим строку из json-файла line_parse = lem.json_parse(line) # фильтруем с учетом наших параметров words = lem.lem_filter(line_parse, include_bastard=bastard, include_non_cyrillic=non_cyrillic) # lem_filter возвращает всю информацию о слове, # но нам нужна только лемма lems = [word['lex'] for word in words] # сохраняем в файл print(' '.join(lems), file=file_lems) print('Done check lems') # Теперь мы можем переходить к подсчёту узлов и рёбер и к созданию файлов для # построения графа в Gephi. ### Часть 2.1.