Exemplos de IndexReader.get_term_counts em Python

Linguagem de programação: Python

Espaço para nome / nome do pacote: pyserini.index

Classe / Tipo: IndexReader

Método / Função: get_term_counts

Exemplos em hotexamples.com: 2

IndexReader.get_term_counts em Python - 2 exemplos encontrados. Esses são os exemplos do mundo real mais bem avaliados de pyserini.index.IndexReader.get_term_counts em Python extraídos de projetos de código aberto. Você pode avaliar os exemplos para nos ajudar a melhorar a qualidade deles.

Métodos Frequentes

Exibir Ocultar

IndexReader(16)

stats(6)

analyze(4)

doc(3)

compute_bm25_term_weight(2)

get_document_vector(2)

get_term_counts(2)

compute_query_document_score(1)

doc_raw(1)

terms(1)

Métodos Frequentes

IndexReader (16)

stats (6)

analyze (4)

doc (3)

compute_bm25_term_weight (2)

get_document_vector (2)

get_term_counts (2)

compute_query_document_score (1)

doc_raw (1)

terms (1)

Exemplo n.º 1

0

Exibir arquivo

Arquivo: generate_libsvm.py Projeto: pilmus/ir-project

def compute_idf(query_terms: List[str], index_reader: IndexReader) -> np.ndarray: """log ( (|C| - df(term) + 0.5) / (df(term) + 0.5)""" C = index_reader.stats()['documents'] query_idf = np.zeros(len(query_terms)) for i, term in enumerate(query_terms): term_df = index_reader.get_term_counts(term, analyzer=None)[0] query_idf[i] = np.log(np.divide(C - term_df + 0.5, term_df + 0.5)) return query_idf

Exemplo n.º 2

0

Exibir arquivo

from pyserini.index import IndexReader import math, numpy index_reader = IndexReader('marcoindex') number_of_docs = 8841823 number_of_all_terms=491404850 def IDF(term) df, cf = index_reader.get_term_counts(term) return math.log10(number_of_docsdf) def ictf(term) df, cf = index_reader.get_term_counts(term) return math.log10(number_of_all_terms cf ) def SCS(query) q_terms=query.split() avgictf=[] for t in q_terms avgictf.append(ictf(index_reader,t)) part_A= math.log10 ( 1 len(q_terms)) part_B = numpy.mean(avgictf) return ( part_A + part_B ) def SCQ(term) df, cf = index_reader.get_term_counts(term) part_A= 1 + math.log10(cf) part_B=IDF(index_reader,term) return (part_A part_B)