Python Preprocessor.preprocessor_tokenizerの例

プログラミング言語: Python

クラス/型: Preprocessor

メソッド/関数: preprocessor_tokenizer

hotexamples.comのコード掲載数: 3

Python Preprocessor.preprocessor_tokenizer - 3件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのPreprocessor.preprocessor_tokenizer パッケージから tsaiの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

Fetch_Data(3)

GetBlocksByWeekday(3)

GetLengths_By_Classes(3)

GetNumberOfDays(3)

GetStartTimes_By_Classes(3)

Get_n_blocks(3)

InsertFreeSpace(3)

preprocessor_tokenizer(3)

GetLengths(2)

GetStartTimes_decimal(2)

AspectAwarePreprocessor(1)

Get_Block_By_Index(1)

Get_Index_By_Date(1)

MeanPreprocessor(1)

remove_white_spaces_comments(1)

コード例 #1

ファイルを表示

ファイル: InvertedList.py プロジェクト: gabriel-almeida/SearchEngine

 def generate_inverted_list(self, docs_dict):
     inv_list = dict()
     for (doc_id, doc) in docs_dict.items():
         term_list = Preprocessor.preprocessor_tokenizer(doc)
         for term in term_list:
             if term not in inv_list:
                 inv_list[term] = []
             inv_list[term].append(doc_id)
     return inv_list

コード例 #2

ファイルを表示

ファイル: QueryProcessor.py プロジェクト: gabriel-almeida/SearchEngine

    def _process_xml_query(self, xml_node):
        query_id = xml_node.getElementsByTagName("QueryNumber")[0].firstChild.nodeValue
        query = xml_node.getElementsByTagName("QueryText")[0].firstChild.nodeValue

        processed_query = " ".join(Preprocessor.preprocessor_tokenizer(query))
        self.query_dict[query_id] = processed_query

        records = xml_node.getElementsByTagName("Records")[0]
        relevant_documents_list = list()
        for item in records.getElementsByTagName("Item"):
            doc_id = item.firstChild.nodeValue

            scores = item.getAttribute("score")
            votes = 0
            for i in range(len(scores)):
                if scores[i]!='0':
                    votes += 1

            relevant_documents_list.append((doc_id, votes))
        self.expected_docs_by_query[query_id] = relevant_documents_list

コード例 #3

ファイルを表示

ファイル: Indexer.py プロジェクト: gabriel-almeida/SearchEngine

    def query_vector(self, query):
        terms = Preprocessor.preprocessor_tokenizer(query)

        counter = collections.Counter(terms)
        query_vector = dict()
        query_vector_magnitude = 0
        for term in terms:
            if term not in self.document_frequency:
                continue

            max_tf = counter.most_common(1)[0][1] # it returns an list of item + frequency
            tf = counter[term]
            df = self.document_frequency[term]
            val = (0.5 + 0.5*tf/max_tf)*math.log10(self.n_terms/df)
            query_vector[term] = val

            query_vector_magnitude += val*val

        # normalizing step
        query_vector_magnitude = math.sqrt(query_vector_magnitude)
        for term in query_vector:
            query_vector[term] /= query_vector_magnitude

        return query_vector