示例#1
0
文件: test.py 项目: ya-pr/ya_lib
def test_json_parse(file_r_name, path_w):
    parsed = []
    with open(file_r_name, 'r') as file_r, \
            open(path_w + 'json_parse.json', 'w') as file_w:
        for line in file_r:
            line_parse = lem.json_parse(line)
            parsed.append(line_parse)
        pretty_json(parsed, file_w)
    print('Done test_json_parse')
示例#2
0
文件: main.py 项目: ya-pr/ya_lib
# Тут есть только 2 опции:
# bastard - добавлять ли леммы, в распознании которых Mystem не уверен?
# non_cyrillic - добавлять ли леммы с не кириллическими символами?
bastard = True
non_cyrillic = True

# Чтобы наглядно посмотреть, какие леммы будут отобраны для каждой строки можем
# прогнать каждую строку сначала через парсер, а потом через фильтр.
# В итоге получится текстовый файл с леммами.
file_lems_name = path_w + 'lems.txt'

with open(file_json_name, 'r') as file_json, \
        open(file_lems_name, 'w') as file_lems:
    for line in file_json:
        # парсим строку из json-файла
        line_parse = lem.json_parse(line)
        # фильтруем с учетом наших параметров
        words = lem.lem_filter(line_parse, include_bastard=bastard,
                               include_non_cyrillic=non_cyrillic)
        # lem_filter возвращает всю информацию о слове,
        # но нам нужна только лемма
        lems = [word['lex'] for word in words]
        # сохраняем в файл
        print(' '.join(lems), file=file_lems)

print('Done check lems')

# Теперь мы можем переходить к подсчёту узлов и рёбер и к созданию файлов для
# построения графа в Gephi.

### Часть 2.1.