Python get_site_name 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: toolkit

메소드/함수: get_site_name

hotexamples.com에서의 예제들: 3

Python get_site_name - 3개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 toolkit.get_site_name에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

예제 #1

파일 보기

 def _exclude_selectors(self):
     """
     :return: list of css selectors
     """
     site_name = toolkit.get_site_name(self._url)
     site_exclude = self._rules[site_name]['exclude']
     return site_exclude + self._always_exlude

예제 #2

파일 보기

파일: main.py 프로젝트: shigarus/NewsParser

def main():
    # parse args
    parser = argparse.ArgumentParser()

    parser.add_argument('-u', '--url', help='Target page url')
    parser.add_argument('-t', '--target', help='Css selector to process text.')
    parser.add_argument('-e',
                        '--exclude',
                        help='Css selector to exclude text.')
    parser.add_argument('-c', '--config', help='Path to config file')
    parser.add_argument('-d', '--debug', action='store_true')

    parser.set_defaults(debug=False, config='config.json', exclude=None)
    args = parser.parse_args()
    # /parse args

    if args.debug:
        logging.basicConfig(level=logging.DEBUG)

    # getting config
    if os.path.exists(args.config):
        with codecs.open(args.config, 'r', encoding='utf-8') as fh:
            config = json.load(fh)
    else:
        config = dict(urls=[], rules={})

    # getting rules and urls for processing
    if args.url:
        url = args.url
        site_name = toolkit.get_site_name(url)
        if args.target:
            exclude = args.exclude
            rule = dict(include=[
                args.target,
            ],
                        exclude=[
                            exclude,
                        ] if exclude else [])
            rules = {site_name: rule}
        else:
            rules = config['rules']
        urls = [
            url,
        ]
    else:
        rules = config['rules']
        urls = config['urls']

    # process urls
    text_extractor = htmltoreadable.HtmlTextExtractor(rules)
    for url in urls:
        text = text_extractor.get_text(url)
        write_to_file(url, text)

예제 #3

파일 보기

 def _include_selectors(self):
     """
     :return: list of css selectors
     """
     site_name = toolkit.get_site_name(self._url)
     return self._rules[site_name]['include']