def test_lem(mystem, path_w): # default with open('data/input.txt', 'r') as file_r, \ open(path_w + 'lems.txt', 'w') as file_w: lem.lem(file_r, file_w) # different options path_w += 'options/' if not os.path.exists(path_w): os.makedirs(path_w) params_list = ( ['-cl'], ['-clde', 'utf-8'], ['-cldige', 'utf-8', '--format', 'json'], ['-cldige', 'utf-8', '--format', 'xml'] ) for params in params_list: if 'json' in params: ext = 'json' elif 'xml' in params: ext = 'xml' else: ext = 'txt' with open('data/input.txt', 'r') as file_r, \ open(path_w + 'lems (%s).%s' % (params, ext), 'w') as file_w: lem.lem(file_r, file_w, mystem=mystem, params=params) print('Done test_lem')
print('Done Part0') ### Часть 1. # Создаём json-файл с леммами. Для этого передаём функции lem файл с запросами, # файл для записи json-вывода, путь до программы и параметры запуска. path_w = 'output/' if not os.path.exists(path_w): os.makedirs(path_w) file_json_name = path_w + 'lems.json' mystem = '/Applications/mystem' params = ['-cldige', 'utf-8', '--format', 'json'] with open(file_query_name, 'r') as file_query, \ open(file_json_name, 'w') as file_json: lem.lem(file_query, file_json, mystem=mystem, params=params) print('Done Part1') # Теперь у нас есть json-файл с леммами. # Все дальнейшие операции мы будем делать с ним. ### Часть 2. # Далее нам необходимо выбрать параметры, по которым мы будем отбирать леммы. # Тут есть только 2 опции: # bastard - добавлять ли леммы, в распознании которых Mystem не уверен? # non_cyrillic - добавлять ли леммы с не кириллическими символами? bastard = True non_cyrillic = True # Чтобы наглядно посмотреть, какие леммы будут отобраны для каждой строки можем