Python FileIO.deleteFileContents 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: fileIO

클래스/타입: FileIO

메소드/함수: deleteFileContents

hotexamples.com에서의 예제들: 4

Python FileIO.deleteFileContents - 4개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 fileIO.FileIO.deleteFileContents에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

FileIO(4)

deleteFileContents(4)

writeJsonFile(3)

fileToSet(3)

__init__(3)

readJsonFile(3)

createSiteIndexFile(2)

get_filename(2)

setToFile(2)

readAsString(1)

writeFile(1)

update_file(1)

read_csv(1)

read_as_vector(1)

overwrite(1)

readAsPosInt(1)

print_to_file(1)

pathJoin(1)

mkdir(1)

loadFile(1)

get_text_from(1)

fileRead(1)

create_file(1)

createSiteFileSetup(1)

writeToFile(1)

예제 #1

파일 보기

    def runParser(self):
        FileIO.deleteFileContents(self.indexFile)

        if not os.path.isfile(self.crawledFile):
            log('error', 'No crawled file.')
            return self

        self.links = FileIO.fileToSet(self.crawledFile)
        self.linksList = list(self.links)

        if not self.links:
            log('error', 'Crawled file is empty')
            return self

        threadPool = []
        for i in range(0, self.MAX_THREADS):
            newThread = Thread(name='parser_' + str(i),
                               target=self.parserWorker)
            threadPool.append(newThread)

        for i in range(0, self.MAX_THREADS):
            threadPool[i].start()

        for i in range(0, self.MAX_THREADS):
            threadPool[i].join()

        self.saveLinkGraphs()

예제 #2

파일 보기

파일: crawler.py 프로젝트: amahesh98/Chefmate

    def runSpider(self, iterations):
        startTime = time.time()
        for i in range(0, iterations):
            self.queue = FileIO.fileToSet(self.queueFile)
            self.crawled = FileIO.fileToSet(self.crawledFile)

            newLinks = set()
            newCrawledLinks = set()

            while (len(self.queue) != 0):
                nextLink = self.queue.pop()
                res = self.crawlPage(nextLink)
                newCrawledLinks.add(nextLink)
                newLinks = newLinks.union(res)

            FileIO.deleteFileContents(self.queueFile)
            FileIO.setToFile(newLinks, self.queueFile)
            FileIO.setToFile(newCrawledLinks, self.crawledFile)

        FileIO.writeJsonFile(self.outlinkGraph.nodes, self.outlinkGraphFile)
        FileIO.writeJsonFile(self.inlinkGraph.nodes, self.inlinkGraphFile)

        log(
            'time', "Crawler for " + self.siteName +
            " execution Finished. Runtime: " + str(time.time() - startTime) +
            "seconds. Total links crawled: " + str(self.numCrawled))

예제 #3

파일 보기

파일: crawler.py 프로젝트: amahesh98/Chefmate

    def runSitemapCrawler(self):
        startTime = time.time()
        headers = {
            'User-Agent':
            "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Mobile Safari/537.36"
        }
        xmlQueue = set()
        xmlQueue.add(self.sitemapURL)
        htmlQueue = set()
        log('sitemap', 'Crawling XML Sitemap for ' + self.siteName)

        while (len(xmlQueue) != 0):
            nextParse = requests.get(xmlQueue.pop(), headers=headers)
            newXMLLinks = self.findNewLinksXML(nextParse)
            for link in newXMLLinks:
                if '.xml' in link:
                    if 'archive' not in link:
                        xmlQueue.add(link)
                else:
                    htmlQueue.add(link)

        FileIO.deleteFileContents(self.crawledFile)
        FileIO.setToFile(htmlQueue, self.crawledFile)
        log(
            'time', 'Finished crawling XML sitemap for ' + self.siteName +
            ' in ' + str(time.time() - startTime) + ' seconds')

예제 #4

파일 보기

 def runParser(self):
     if not os.path.isfile(self.crawledFile):
         log('error', 'No crawled file.')
         return self
     self.links = FileIO.fileToSet(self.crawledFile)
     if not self.links:
         log('error', 'Crawled file is empty')
         return self
     data = FileIO.readJsonFile(self.indexFile)
     for link in self.links:
         if link not in data:
             obj = extractData(link)
             data[link] = {
                 'docId': DataParser.docId,
                 'title': obj['title'],
                 'body': obj['body']
             }
             DataParser.docId += 1
     FileIO.deleteFileContents(self.indexFile)
     FileIO.writeJsonFile(data, self.indexFile)