Esempi in Python per Analyzer.analyzeAll

Linguaggio di programmazione: Python

Spazio dei nomi/nome del pacchetto: Analyzer

Classe/tipologia: Analyzer

Metodo/funzione: analyzeAll

Esempi su hotexamples.com: 1

Analyzer.analyzeAll in Python: 1 esempio trovato. Questo è il miglior esempio reale in Python per Analyzer.Analyzer.analyzeAll, estratto da progetti open source. Lo puoi valutare, per aiutarci a migliorare la qualità dei nostri esempi.

Metodi utilizzati di frequente

Mostra Nascondi

Analyzer(30)

analyze(9)

__init__(4)

derive_same_len(3)

Fever(3)

Hypertension(3)

Hypotension(3)

Oxygen_Supply(3)

Shock_Alert(3)

Signal_Loss(3)

get_loan_list(3)

getLinearRegressionData(2)

check_poem_list_last_page(2)

get_loan_detail(2)

computeMetrics(2)

get_poems_from_list_page(2)

genCall(1)

exportToImage(1)

genNot(1)

genNegf(1)

filterByTerm(1)

genNeg(1)

genLabel(1)

genBranchFalse(1)

get(1)

find_all_words(1)

finishProcOrFuncAR(1)

functionMatches(1)

genBranch(1)

genBoolean(1)

genAssign(1)

genArithmetic(1)

get_bond_list(1)

getFFTs(1)

get_page_count(1)

run(1)

rmItem(1)

process_file(1)

initialize_log_file(1)

get_user_info(1)

get_poem_types(1)

get_poem_detail(1)

get_my_loan_list(1)

getItemCount(1)

get_my_loan_huankuan_detail(1)

get_load_avg_linux(1)

get_info_detail(1)

get_file_system(1)

evaluate_training_set(1)

get_author_detail(1)

Esempio n. 1

Mostra file

File: LynCrawler.py Progetto: Lynxiayel/LynCrawler

class LynCrawler:

    def __init__(self):
        self.ToCrawl = set([])
        self.Crawled = set([])
        self.Crawling = ""
        self.PageAnalyzer = Analyzer()  # used to extract useful info
        self.PageSniffer = Analyzer()  # used to find new pages to crawl
        self.initBrowser()

    def initBrowser(self):
        self.browser = mechanize.Browser()
        # important to bypass the website anti-robot defence
        self.browser.set_handle_robots(False)
        self.browser.addheaders = [("User-Agent",
                                    "Mozilla/5.0 (X11; Linux i686) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11")]

    def addPageSniffItem(self, name, reStr):
        self.PageSniffer.addItem(name, reStr)

    def rmPageSniffItem(self, name):
        self.PageSniffer.rmItem(name)

    def addPageAnalyzeItem(self, name, reStr):
        self.PageAnalyzer.addItem(name, reStr)

    def rmPageAnalyzeItem(self, name):
        self.PageAnalyzer.rmItem(name)

    def sniffNewPage(self, pageContent):
        if self.PageSniffer.getItemCount() == 0:
            print "No sniff items yet. Please add new items use addPageSniffItem()."
        else:
            result = []
            for i in self.PageSniffer.analyzeAll(pageContent).values():
                if i:
                    for p in i:
                        if p:
                            newPage = self.generateNewPageURL(p)
                        result.append(newPage)
            for p in result:
                if p not in self.Crawled:
                    self.ToCrawl.add(p)

    def analyzePage(self, pageContent):
        if self.PageAnalyzer.getItemCount() == 0:
            print "No data items for analyzing yet. Please add new items use addPageAnalyzeItem()."
        else:
            return self.PageAnalyzer.analyzeAll(pageContent)

    def start(self, initPage):
        self.ToCrawl.add(initPage)
        while self.ToCrawl:
            self.crawl(self.ToCrawl.pop())
        else:
            print "All done."
            return True

    def crawl(self, page):
        try:
            response = self.browser.open(page)
            pageContent = response.read()
            self.store(self.analyzePage(pageContent))
            self.Crawled.add(page)
            print 'page crawled:', page
            self.sniffNewPage(pageContent)
        except Exception as e:
            print e.message
            print "something went wrong when crawling ", page

    def store(self, data):
        with open('data.txt', 'a+') as f:
            f.write(str(data))
            f.write("\n")

    def generateNewPageURL(self, tmpURL, parentPath=""):
        """Sometimes the new url sniffed from the page content are relative path, you can modify it here."""
        if not parentPath:
            parPath = r"http://www.gsmarena.com/"
        if "http://" in tmpURL:
            return tmpURL
        else:
            return parPath + tmpURL