Пример #1
0
def test_lem(mystem, path_w):
    # default
    with open('data/input.txt', 'r') as file_r, \
            open(path_w + 'lems.txt', 'w') as file_w:
        lem.lem(file_r, file_w)

    # different options
    path_w += 'options/'
    if not os.path.exists(path_w):
        os.makedirs(path_w)
    params_list = (
        ['-cl'],
        ['-clde', 'utf-8'],
        ['-cldige', 'utf-8', '--format', 'json'],
        ['-cldige', 'utf-8', '--format', 'xml']
    )
    for params in params_list:
        if 'json' in params:
            ext = 'json'
        elif 'xml' in params:
            ext = 'xml'
        else:
            ext = 'txt'

        with open('data/input.txt', 'r') as file_r, \
                open(path_w + 'lems (%s).%s' % (params, ext), 'w') as file_w:
            lem.lem(file_r, file_w, mystem=mystem, params=params)
    print('Done test_lem')
Пример #2
0
print('Done Part0')

### Часть 1.
# Создаём json-файл с леммами. Для этого передаём функции lem файл с запросами,
# файл для записи json-вывода, путь до программы и параметры запуска.
path_w = 'output/'
if not os.path.exists(path_w):
    os.makedirs(path_w)
file_json_name = path_w + 'lems.json'
mystem = '/Applications/mystem'
params = ['-cldige', 'utf-8', '--format', 'json']

with open(file_query_name, 'r') as file_query, \
        open(file_json_name, 'w') as file_json:
    lem.lem(file_query, file_json, mystem=mystem, params=params)

print('Done Part1')

# Теперь у нас есть json-файл с леммами.
# Все дальнейшие операции мы будем делать с ним.

### Часть 2.
# Далее нам необходимо выбрать параметры, по которым мы будем отбирать леммы.
# Тут есть только 2 опции:
# bastard - добавлять ли леммы, в распознании которых Mystem не уверен?
# non_cyrillic - добавлять ли леммы с не кириллическими символами?
bastard = True
non_cyrillic = True

# Чтобы наглядно посмотреть, какие леммы будут отобраны для каждой строки можем