Python AvailableInputTypes.valuesの例

プログラミング言語: Python

名前空間/パッケージ名: DocumentFeatureSelection.models

メソッド/関数: values

hotexamples.comのコード掲載数: 2

Python AvailableInputTypes.values - 2件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのDocumentFeatureSelection.models.AvailableInputTypes.valuesの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

items(3)

keys(1)

values(1)

よく使われるメソッド

items (3)

keys (1)

values (1)

コード例 #1

ファイルを表示

ファイル: labeledMultiDocs2labeledDocsSet.py プロジェクト: Python3pkg/DocumentFeatureSelection

def multiDocs2DocFreqInfo(labeled_documents:AvailableInputTypes,
                          n_jobs:int=1,
                          path_working_dir:str=tempfile.mkdtemp(),
                          is_use_cache: bool = True)->SetDocumentInformation:
    """This function generates information for constructing document-frequency matrix.
    """
    assert isinstance(labeled_documents, (SqliteDict, dict))
    type_flag = set([judge_feature_type(docs) for docs in list(labeled_documents.values())])
    assert len(type_flag)==1

    counted_frequency = joblib.Parallel(n_jobs=n_jobs)(
        joblib.delayed(generate_document_dict)(key, docs)
        for key, docs in sorted(list(labeled_documents.items()), key=lambda key_value_tuple: key_value_tuple[0]))

    ### construct [{}] structure for input of DictVectorizer() ###
    seq_feature_documents = (dict(label_freqCounter_tuple[1]) for label_freqCounter_tuple in counted_frequency)

    ### Save index-string dictionary
    if is_use_cache:
        dict_matrix_index = init_cache_object('matrix_element_object', path_working_dir)
    else:
        dict_matrix_index = {}

    # use sklearn feature-extraction
    vec = DictVectorizer()
    dict_matrix_index['matrix_object'] = vec.fit_transform(seq_feature_documents).tocsr()
    dict_matrix_index['feature2id'] = {feat:feat_id for feat_id, feat in enumerate(vec.get_feature_names())}
    dict_matrix_index['label2id'] = {label_freqCounter_tuple[0]:label_id for label_id, label_freqCounter_tuple in enumerate(counted_frequency)}

    return SetDocumentInformation(dict_matrix_index)

コード例 #2

ファイルを表示

ファイル: labeledMultiDocs2labeledDocsSet.py プロジェクト: Kensuke-Mitsuzawa/DocumentFeatureSelection

def multiDocs2DocFreqInfo(labeled_documents:AvailableInputTypes,
                          n_jobs:int=1)->SetDocumentInformation:
    """This function generates information for constructing document-frequency matrix.
    """
    assert isinstance(labeled_documents, (SqliteDict, dict))
    type_flag = set([judge_feature_type(docs) for docs in labeled_documents.values()])
    assert len(type_flag)==1

    counted_frequency = joblib.Parallel(n_jobs=n_jobs)(
        joblib.delayed(generate_document_dict)(key, docs)
        for key, docs in sorted(labeled_documents.items(), key=lambda key_value_tuple: key_value_tuple[0]))
    feature_documents = [dict(label_freqCounter_tuple[1]) for label_freqCounter_tuple in counted_frequency]

    # use sklearn feature-extraction
    vec = DictVectorizer()
    matrix_object = vec.fit_transform(feature_documents).tocsr()
    feature2id = {feat:feat_id for feat_id, feat in enumerate(vec.get_feature_names())}
    label2id = {label_freqCounter_tuple[0]:label_id for label_id, label_freqCounter_tuple in  enumerate(counted_frequency)}

    return SetDocumentInformation(matrix_object, label2id, feature2id)