Python TopicParser示例

编程语言: Python

命名空间/包名称: HabraClassifier.code

类/类型: TopicParser

hotexamples.com的示例: 4

Python TopicParser - 已找到4个示例。这些是从开源项目中提取的最受好评的HabraClassifier.code.TopicParser现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

TopicParser(1)

extract_hubs(1)

extract_tags(1)

extract_text(1)

示例#1

显示文件

文件： topic_parser_tests.py 项目： AlexFridman/TopicPreprocessor

    def test_hubs_extraction(self):
        html = request('GET', 'http://habrahabr.ru/post/269921/').text
        soup = BeautifulSoup(html)

        self.assertSequenceEqual(['криптография',
                                  'информационная безопасность',
                                  'вирусы и антивирусы'],
                                 TopicParser.extract_hubs(soup))

示例#2

显示文件

文件： topic_parser_tests.py 项目： AlexFridman/TopicPreprocessor

    def test_text_extraction(self):
        html = request('GET', 'http://habrahabr.ru/post/269921/').text
        soup = BeautifulSoup(html)

        self.assertIn('В наше время развелось огромное множество «именитых»'
                      ' специалистов в области информационной безопасности, люди,'
                      ' считающие что знаний по настройке FireWall уже достаточно'
                      ' чтобы причислить себя к «хакерам» или спецам в области ИБ.',
                      TopicParser.extract_text(soup))

示例#3

显示文件

文件： topic_parser_tests.py 项目： AlexFridman/TopicPreprocessor

    def test_tags_extraction(self):
        html = request('GET', 'http://habrahabr.ru/post/269921/').text
        soup = BeautifulSoup(html)

        self.assertSequenceEqual(['кардинг',
                                  'информационная безопасность',
                                  'деанонимизация',
                                  'кредитные карты',
                                  'даркнет'],
                                 TopicParser.extract_tags(soup))

示例#4

显示文件

# -*- coding: utf-8 -*-
__author__ = 'AlexF'
from urllib import parse
import json
import os

from requests import request

from HabraClassifier.code import TopicDownloader, TopicParser, TopicCleaner, NotFoundError

parser = TopicParser()
cleaner = TopicCleaner()


def get_raw_point(topic_id: int) -> (list, list):
    topic_html = TopicDownloader.download_topic(topic_id)
    raw_topic = parser.parse(topic_html)
    labels = raw_topic.hubs + raw_topic.tags
    raw_text = raw_topic.text

    return raw_text, labels


def send_classify_request(uri: str, text: str, label_n: int):
    encode = str.encode(text)
    params = {'text': encode, 'label_n': label_n}
    data = parse.urlencode(params)
    return request('POST', uri, data=data)


while True: