コード例 #1
0
def run(article_title,
        article_text,
        article_url,
        article_doi,
        hero,
        institute,
        release_date,
        search_depth=2):
    searcher = Searcher(article_text,
                        hero,
                        institute,
                        search_depth=search_depth)
    dwld = Downloader()
    analyzer = Analyzer(article_title, article_text, article_url, article_doi,
                        hero, institute)
    result_count = 10
    i = 0
    for url in searcher.gen():
        if url == '' or url == None:
            continue
        if i == result_count:
            break
        i += 1
        print('Обнаружена новая ссылка:\n{}\nОбработка...'.format(url))
        if 'pdf' in url:
            print(
                'Обработка PDF-документов не поддерживается. Документ будет добавлен для проверки'
            )
            page = None
        else:
            page = dwld.download(url, default_agent=True, timeout=15)
        print('Оценка близости текста - {:.2}/10'.format(
            analyzer.analyze(url, page)))
    results = sorted(analyzer.get_results(), key=lambda x: x[2], reverse=True)
    line_fmt = '{score:2.2f},{title:},{url:}\n'
    lines = []
    i = 0
    for url, title, score in results:
        line = line_fmt.format(title=title, url=url, score=score)
        lines.append(line)
        i += 1
    return lines