Python improve_patterns 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: urlclustering.reimprover

메소드/함수: improve_patterns

hotexamples.com에서의 예제들: 3

Python improve_patterns - 3개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 urlclustering.reimprover.improve_patterns에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

예제 #1

파일 보기

파일: sitemap.py 프로젝트: daremon/urlclustering.com

def cluster(url):
    """
    Read URLs from sitemaps and return clusters
    url is either a website (and we detect sitemaps) or a sitemap
    """
    data = {}
    if url[:4] != "http":
        url = "http://" + url

    if re.search(r"https?://[^/?#]+[/?#].+", url):
        sitemaps = [url]  # sitemap URL given
    else:
        robots = url.strip("/") + "/robots.txt"
        sitemaps = sitemaps_from_robots(robots)
        if not sitemaps:
            # assume sitemap.xml
            sitemaps = [url.strip("/") + "/sitemap.xml"]

    if sitemaps:
        try:
            urls = read_sitemaps(sitemaps)
            if not urls:
                data["error"] = "No URLs found in sitemap"
            else:
                data["count"] = len(urls)
                urls = [x.strip() for x in urls]
                # cluster URLs
                c = urlclustering.cluster(urls)
                tmp = deepcopy(c["clusters"])
                try:
                    improve_patterns(c["clusters"])
                except:
                    c["clusters"] = tmp
                    pass
                # prepare HTML
                html = "<pre>CLUSTERS:"
                keys = sorted(c["clusters"], key=lambda k: len(c["clusters"][k]), reverse=True)
                for key in keys:
                    urls = c["clusters"][key]
                    html += "\n" + key[1] + " [%s URLs]<br/>" % len(urls)
                    html += "\t" + "\n\t".join(urls[:5])
                    html += "\n\t...%s more" % (len(urls) - 5)
                html += "\n\nUNCLUSTERED:\n"
                html += "\t" + "\n\t".join(c["unclustered"])
                html += "</pre>"
                data["html"] = html
        except:
            logging.debug(traceback.format_exc())
            data["error"] = "An error happened while fetching sitemaps"
    else:
        data["error"] = "No sitemaps found"

    return json.dumps(data)

예제 #2

파일 보기

파일: test_urlclustering.py 프로젝트: tattou87/urlclustering

 def test_other(self):
     x_urls = ['http://s.com/blah/%d' % x for x in range(1, 20)]
     y_urls = ['http://s.com/a/b/aa%dbb' % x for x in range(1, 20)]
     z_urls = ['http://b.com/ab/aa%dbb' % x for x in range(1, 50)]
     c = cluster_urls(x_urls + y_urls + z_urls, 10)
     improve_patterns(c['clusters'])
     self.assertEqual(c['unclustered'], [])
     self.assertEqual(
         sorted(c['clusters'].keys()),
         sorted([
             ('http://b.com/ab/aa([^/]+)bb', 'http://b.com/ab/aa[...]bb'),
             ('http://s.com/blah/(\\d+)', 'http://s.com/blah/[NUMBER]'),
             ('http://s.com/a/b/aa([^/]+)bb', 'http://s.com/a/b/aa[...]bb')
         ]))

예제 #3

파일 보기

파일: test_urlclustering.py 프로젝트: daremon/urlclustering

 def test_other(self):
     x_urls = ['http://s.com/blah/%d' % x for x in range(1, 20)]
     y_urls = ['http://s.com/a/b/aa%dbb' % x for x in range(1, 20)]
     z_urls = ['http://b.com/ab/aa%dbb' % x for x in range(1, 50)]
     c = cluster_urls(x_urls + y_urls + z_urls, 10)
     improve_patterns(c['clusters'])
     self.assertEqual(c['unclustered'], [])
     self.assertEqual(
         sorted(c['clusters'].keys()),
         sorted([('http://b.com/ab/aa([^/]+)bb',
                  'http://b.com/ab/aa[...]bb'),
                 ('http://s.com/blah/(\\d+)',
                  'http://s.com/blah/[NUMBER]'),
                 ('http://s.com/a/b/aa([^/]+)bb',
                  'http://s.com/a/b/aa[...]bb')]))