Python ElasticRetriever.search示例

编程语言: Python

命名空间/包名称: retrieval.elastic_retriever

类/类型: ElasticRetriever

方法/功能: search

hotexamples.com的示例: 3

Python ElasticRetriever.search - 已找到3个示例。这些是从开源项目中提取的最受好评的retrieval.elastic_retriever.ElasticRetriever.search现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

ElasticRetriever(6)

build_index(4)

delete(4)

search(3)

get_object(1)

示例#1

显示文件

文件： test_elastic.py 项目： stevenyesz/Cosmos

def run(delete, load, search):
    ret = ElasticRetriever()
    if load:
        ret.build_index('contracts.parquet')
    if delete:
        ret.delete(dataset_id='contracts')
    if search != '':
        ret.search(search)

示例#2

显示文件

文件： test_elastic.py 项目： ilmcconnell/Cosmos

def run(delete, load, search, entity_search, cls, host):
    ret = ElasticRetriever(hosts=[host])
    if load:
        ret.build_index('contracts.parquet')
    if delete:
        ret.delete(dataset_id='contracts')
    if search != '':
        result = ret.search(search,
                            entity_search=entity_search,
                            cls=cls,
                            ndocs=1)
        print(result)

示例#3

显示文件

文件： elastic_reranking_retriever.py 项目： ilmcconnell/Cosmos

class ElasticRerankingRetriever(Retriever):
    def __init__(self, client, hosts=[os.environ["ELASTIC_ADDRESS"]]):
        self.elastic_retriever = ElasticRetriever(hosts)
        self.reranker = BertRerankingRetriever(client)


    def search(self,
               query,
               ndocs=10,
               page=0,
               cls=None,
               detect_min=None,
               postprocess_min=None,
               return_all=False,
               get_count=False):
        logger.error('Starting search.')
        contexts = self.elastic_retriever.search(query,
                                                 ndocs=ndocs,
                                                 page=page,
                                                 cls=cls,
                                                 detect_min=detect_min,
                                                 postprocess_min=postprocess_min)
        if get_count:
            pdf_count = set()
            for c in contexts:
                pdf_count.add(c['pdf_name'])
            return len(pdf_count)
        logger.info('Starting reranking')
        results = self.rerank(query, contexts)
        logger.info('Finished reranking')
        if return_all:
            return results
        doc_set = set()
        final_results = []
        for result in results:
            if result['docname'] in doc_set:
                continue
            doc_set.add(result['docname'])
            final_results.append(result)
        final_results = [r['id'] for r in final_results]
        final_results = [self.elastic_retriever.get_object(i) for i in final_results]
        final_results = [
            {
                'header': {},
                'pdf_name': obj.pdf_name,
                'children': [{
                    'id': obj.meta.id,
                    'bytes': obj.img_pth,
                    'cls': obj.cls,
                    'postprocessing_confidence': obj.postprocess_score,
                    'base_confidence': obj.detect_score,
                    'content': obj.content,
                    'header_content': obj.header_content,
                }],
                'context_keywords': '',
                'context_summary': '',
                'context_content': '',
                'context_id': obj.meta.id
            } for obj in final_results
        ]
        return final_results


    def rerank(self, query, contexts):
        return self.reranker.rerank(query, contexts)

    def build_index(self, document_parquet, entities_parquet, section_parquet, tables_parquet, figures_parquet, equations_parquet):
        self.elastic_retriever.build_index(document_parquet, entities_parquet, section_parquet, tables_parquet, figures_parquet, equations_parquet)

    def delete(self, dataset_id):
        self.elastic_retriever.delete(dataset_id)