Python Helper.corpus_frequencyの例

プログラミング言語: Python

名前空間/パッケージ名: Helper

クラス/型: Helper

メソッド/関数: corpus_frequency

hotexamples.comのコード掲載数: 1

Python Helper.corpus_frequency - 1件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのHelper.Helper.corpus_frequencyの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

Helper(30)

getCategoryKey(8)

_get_faller_cells(7)

close(6)

GetUnixMilliseconds(6)

downloadString(6)

delFolder(5)

GetJson(5)

copy(4)

_get_matched_cells(3)

cleanWord(3)

getRandomSubset(3)

cleanTextAndTokenize(3)

createBarplot(3)

create_folder(3)

calculate_f1(2)

getBandwidth(2)

create_tfidf(2)

check_game_over(2)

cleanWordForInitialAdd(2)

convertPrefixToAddress(2)

convertToAsn32(2)

angle_between_two_points(2)

getRepresentativeRows(2)

getUserKey(2)

createDictionary(2)

decoding(2)

makeDateObject(2)

_empty_under_cell(2)

parseGenderBlogDatasetWithLabels(2)

debug(2)

GetUploadSize(2)

deductscore(1)

displayData(1)

determine_current_time(1)

decimaltohex(1)

daysAsPrettyLength(1)

dataHandler(1)

determine_right_left(1)

GenerateFileKeys(1)

display_menu(1)

display_points(1)

display_population(1)

display_rects(1)

distance_between(1)

formatDateStringIntoCleanedString(1)

getItemKey(1)

getSaveName(1)

hash_string(1)

listToGrid(1)

コード例 #1

ファイルを表示

ファイル: JM_Retreiver.py プロジェクト: theptoey/Information-Retrieval-Project

class JM_Retreiver:
    def __init__(self):
        self.helper = Helper()
        self.unigram_inverted_index = self.helper.unigram_inverted_index
        self.corpus_term_count = self.helper.corpus_frequency(
            self.unigram_inverted_index)
        self.CONSTANT = 0.35
        self.number_of_ranked_docs = 100

    def run(self, query, query_id):
        #query = self.helper.parse_query(query)
        terms = query.split()
        print "query is", query
        print "terms are", terms
        doc_scores = defaultdict(float)
        doc_list = []
        for term in terms:
            if term in self.unigram_inverted_index.keys():
                inverted_list = self.unigram_inverted_index[term]
                for doc_id in inverted_list.keys():
                    if doc_id not in doc_list:
                        doc_list.append(doc_id)
            else:
                print term
                print "term ignored not in corpus"

        for term in terms:
            if term in self.unigram_inverted_index.keys():
                for doc_id in doc_list:
                    score = self.calculate_document_score(doc_id, term)
                    doc_scores[doc_id] += score

            self.sort_scores(query, query_id, doc_scores)

    def sort_scores(self, query, query_id, doc_scores):
        sorted_scores = sorted(doc_scores.items(),
                               key=operator.itemgetter(1),
                               reverse=True)
        self.save_to_file(query, query_id, sorted_scores)

    def save_to_file(self, query, query_id, tf_dict):
        count = 1
        file_name = 'JM_Output_Stemming/' + str(query_id) + '.txt'

        with open(file_name, 'w') as f:
            for word in tf_dict:
                if count <= self.number_of_ranked_docs:
                    f.write(str(query_id))
                    f.write(" ")
                    f.write("Q0")
                    f.write(" ")
                    f.write(word[0])
                    f.write(" ")
                    f.write(str(count))
                    f.write(" ")
                    f.write(str(word[1]))
                    f.write(" ")
                    f.write("LM_JM_Stemming_Unigram")
                    f.write("\n")
                    count += 1
                else:
                    break

    def calculate_document_score(self, doc_id, term):
        first_term = (1 - self.CONSTANT) * (
            self.get_number_of_occurence_in_document(term, doc_id) /
            self.get_total_number_of_terms_in_document(doc_id))
        second_term = self.CONSTANT * (
            self.number_of_occurence_in_corpus(term) /
            self.get_total_number_of_terms_in_corpus())
        score = math.log((first_term + second_term))
        return score

    # Cqi
    def number_of_occurence_in_corpus(self, term):
        return self.corpus_term_count[term] * 1.0

    # |C|
    def get_total_number_of_terms_in_corpus(self):
        return self.helper.total_number_of_terms_corpus * 1.0

    # |D|
    def get_total_number_of_terms_in_document(self, doc_id):
        return self.helper.number_of_terms_doc[doc_id] * 1.0

    # fqi, D
    def get_number_of_occurence_in_document(self, term, doc_id):
        documents_dict = self.unigram_inverted_index[term]
        if doc_id in documents_dict.keys():
            return documents_dict[doc_id] * 1.0
        return 0

    def JM_test(self):
        queries = self.helper.get_stemmed_queries()
        for key in queries.keys():
            self.run(queries[key], key)