Python InvertedIndex 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: datastructures.inverted_index

클래스/타입: InvertedIndex

hotexamples.com에서의 예제들: 2

Python InvertedIndex - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 datastructures.inverted_index.InvertedIndex에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

add(1)

clear(1)

get(1)

search(1)

예제 #1

파일 보기

파일: document_repository.py 프로젝트: ruiaf/sumnews

 def __init__(self):
     self.documents = []
     self.index = InvertedIndex()
     self.clustering = ClusterMaker(self.index)
     self.lock = threading.Lock()

예제 #2

파일 보기

파일: document_repository.py 프로젝트: ruiaf/sumnews

class DocumentRepository(object):
    """
    Store for news documents
    """

    def __init__(self):
        self.documents = []
        self.index = InvertedIndex()
        self.clustering = ClusterMaker(self.index)
        self.lock = threading.Lock()

    def add(self, document_list):
        """
        Add a list of documents to the repository
        """
        self.lock.acquire()
        for doc in document_list:
            heapq.heappush(self.documents, doc)
            self.index.add(doc)
            self.clustering.add(doc)
        self.lock.release()

    def recent_documents(self, count=10):
        """
        Retrieve the count most recent documents
        """
        recent_docs = heapq.nlargest(count, self.documents)
        return recent_docs

    def recent_clusters(self, count=30):
        """
        Retrieve the count most recent documents
        """
        recent_docs = heapq.nlargest(count*10, self.documents)
        clusters = {}
        for doc in recent_docs:
            if doc.exemplar:
                representative = doc.exemplar
            else:
                representative = doc
            cluster = clusters.get(representative, [])
            cluster.append(doc)
            clusters[representative] = cluster

        clusters = [(len(value), value) for value in clusters.values()]
        clusters.sort(reverse=True)
        clusters = clusters[:count]
        summaries = []
        for cluster in clusters:
            summaries.append(summarization.summarize(cluster[1], self.index))
        return summaries

    def search(self, query, count=10):
        """
        Retrieve count documents matching the query
        """
        keywords = list(re.findall(r"[\w']+", query))
        results = self.index.search(keywords, count)
        return results

    def search_clusters(self, query, count=10):
        """
        Retrieve count clusters matching the query
        """
        keywords = list(re.findall(r"[\w']+", query))
        retrieved_docs = self.index.search(keywords, count)
        clusters = {}
        for doc in retrieved_docs:
            if doc.exemplar:
                representative = doc.exemplar
            else:
                representative = doc
            cluster = clusters.get(representative, [])
            cluster.append(doc)
            clusters[representative] = cluster

        clusters = [(len(value), value) for value in clusters.values()]
        clusters.sort(reverse=True)
        clusters = clusters[:count]
        return [value for (x, value) in clusters]

    def search_guid(self, guid):
        """
        Retrieve count clusters matching the query
        """

        return self.index.get(guid)

    def rebuild(self):
        logging.info("Rebuilding index")
        self.index.clear()
        self.clustering.clear()
        for doc in self.documents:
            doc.exemplar = doc
            doc.children = []
            self.index.add(doc)
            self.clustering.add(doc)

    def stats(self):
        stats = {
            "Number of indexed documents": self.index.n_documents,
            "Number of indexed words": self.index.n_words,
            "Number of clustered documents": len(self.clustering.objects)
        }

        return stats