Python FileIO.deleteFileContents Examples

Programming Language: Python

Namespace/Package Name: fileIO

Class/Type: FileIO

Method/Function: deleteFileContents

Examples at hotexamples.com: 4

Python FileIO.deleteFileContents - 4 examples found. These are the top rated real world Python examples of fileIO.FileIO.deleteFileContents extracted from open source projects. You can rate examples to help us improve the quality of examples.

Frequently Used Methods

Show Hide

FileIO(4)

deleteFileContents(4)

writeJsonFile(3)

fileToSet(3)

__init__(3)

readJsonFile(3)

createSiteIndexFile(2)

get_filename(2)

setToFile(2)

readAsString(1)

writeFile(1)

update_file(1)

read_csv(1)

read_as_vector(1)

overwrite(1)

readAsPosInt(1)

print_to_file(1)

pathJoin(1)

mkdir(1)

loadFile(1)

get_text_from(1)

fileRead(1)

create_file(1)

createSiteFileSetup(1)

writeToFile(1)

Example #1

Show file

    def runParser(self):
        FileIO.deleteFileContents(self.indexFile)

        if not os.path.isfile(self.crawledFile):
            log('error', 'No crawled file.')
            return self

        self.links = FileIO.fileToSet(self.crawledFile)
        self.linksList = list(self.links)

        if not self.links:
            log('error', 'Crawled file is empty')
            return self

        threadPool = []
        for i in range(0, self.MAX_THREADS):
            newThread = Thread(name='parser_' + str(i),
                               target=self.parserWorker)
            threadPool.append(newThread)

        for i in range(0, self.MAX_THREADS):
            threadPool[i].start()

        for i in range(0, self.MAX_THREADS):
            threadPool[i].join()

        self.saveLinkGraphs()

Example #2

Show file

File: crawler.py Project: amahesh98/Chefmate

    def runSpider(self, iterations):
        startTime = time.time()
        for i in range(0, iterations):
            self.queue = FileIO.fileToSet(self.queueFile)
            self.crawled = FileIO.fileToSet(self.crawledFile)

            newLinks = set()
            newCrawledLinks = set()

            while (len(self.queue) != 0):
                nextLink = self.queue.pop()
                res = self.crawlPage(nextLink)
                newCrawledLinks.add(nextLink)
                newLinks = newLinks.union(res)

            FileIO.deleteFileContents(self.queueFile)
            FileIO.setToFile(newLinks, self.queueFile)
            FileIO.setToFile(newCrawledLinks, self.crawledFile)

        FileIO.writeJsonFile(self.outlinkGraph.nodes, self.outlinkGraphFile)
        FileIO.writeJsonFile(self.inlinkGraph.nodes, self.inlinkGraphFile)

        log(
            'time', "Crawler for " + self.siteName +
            " execution Finished. Runtime: " + str(time.time() - startTime) +
            "seconds. Total links crawled: " + str(self.numCrawled))

Example #3

Show file

File: crawler.py Project: amahesh98/Chefmate

    def runSitemapCrawler(self):
        startTime = time.time()
        headers = {
            'User-Agent':
            "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Mobile Safari/537.36"
        }
        xmlQueue = set()
        xmlQueue.add(self.sitemapURL)
        htmlQueue = set()
        log('sitemap', 'Crawling XML Sitemap for ' + self.siteName)

        while (len(xmlQueue) != 0):
            nextParse = requests.get(xmlQueue.pop(), headers=headers)
            newXMLLinks = self.findNewLinksXML(nextParse)
            for link in newXMLLinks:
                if '.xml' in link:
                    if 'archive' not in link:
                        xmlQueue.add(link)
                else:
                    htmlQueue.add(link)

        FileIO.deleteFileContents(self.crawledFile)
        FileIO.setToFile(htmlQueue, self.crawledFile)
        log(
            'time', 'Finished crawling XML sitemap for ' + self.siteName +
            ' in ' + str(time.time() - startTime) + ' seconds')

Example #4

Show file

 def runParser(self):
     if not os.path.isfile(self.crawledFile):
         log('error', 'No crawled file.')
         return self
     self.links = FileIO.fileToSet(self.crawledFile)
     if not self.links:
         log('error', 'Crawled file is empty')
         return self
     data = FileIO.readJsonFile(self.indexFile)
     for link in self.links:
         if link not in data:
             obj = extractData(link)
             data[link] = {
                 'docId': DataParser.docId,
                 'title': obj['title'],
                 'body': obj['body']
             }
             DataParser.docId += 1
     FileIO.deleteFileContents(self.indexFile)
     FileIO.writeJsonFile(data, self.indexFile)