Python TFIDF_reader.read_idx示例

编程语言: Python

命名空间/包名称: tfidfStorage

类/类型: TFIDF_reader

方法/功能: read_idx

hotexamples.com的示例: 2

Python TFIDF_reader.read_idx - 已找到2个示例。这些是从开源项目中提取的最受好评的tfidfStorage.TFIDF_reader.read_idx现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

read_idx(2)

常用方法

read_idx (2)

示例#1

显示文件

文件： kmeans.py 项目： fraucent/clustering_project

#centroids_idx = [0]
# Distance of each point to the closest cluster
#mindist = np.array([tfidfdct.cosdist(tfidf_list[0]) for tfidfdct in tfidf_list])
#for i in range(1, ncluster) :
#	max_idx = np.argmax(mindist)
#	centroids_idx.append(max_idx)
#	dist = np.array([tfidfdct.cosdist(tfidf_list[max_idx]) for tfidfdct in tfidf_list])
#	mindist = np.amin(np.vstack((mindist, dist)), 0)

#clusters = [Cluster(tfidf_list[c_idx]) for c_idx in centroids_idx]

# Inititalize centroids by hierarchical clustering on a sample
#nsample = math.ceil(0.05*npoint)
nsample = 5*ncluster
idxsample = rnd.sample(range(npoint), nsample)
docIdsample = [reader.read_idx(i)[0] for i in idxsample]
clusters_s = [Cluster(docIdsample[i], reader) for i in range(nsample)]
distmat = np.zeros((nsample, nsample))

print('Calculating initial clustroids')

for i in range(nsample) :
	distmat[i,i] = None
	for j in range(i+1,nsample) :
		dist = cosdist(clusters_s[i].clustroid, clusters_s[j].clustroid)
		distmat[i,j] = dist
		distmat[j,i] = dist

nmerged = nsample
while nmerged != ncluster :
	flatidx = np.nanargmin(distmat)

示例#2

显示文件

文件： grgpf.py 项目： fraucent/clustering_project

if __name__ == "__main__":
    reader = TFIDF_reader("test.vectors")
    grgpf = GRGPF(
        tfidf_cosine_distance,
        reader.read_docId,
        limit_subnodes=10,
        limit_clusters_per_leaf=10,
        limit_total_clusters=1000,
        limit_total_nodes=200,
        k=10,
        sample_size=30,
        get_next_threshold=threshold_cosine(0.8, 0.99, 10),
    )
    for i in range(0, reader.doc_nb):
        print(i)
        if i != 0 and i % 100 == 0:  # recalcul des samples tout les 100 points
            print("Recomputing samples")
            grgpf.recompute(True)
            print("Recomputing done")
        if i != 0 and i % 5000 == 0:  # recalcul complet des representations tout les 5000 points
            print("Recomputing representations")
            grgpf.recompute(False)
            print("Recomputing done")
        if i > 1000:  # limite sur le nombre de document qu'on ajoute
            break
        grgpf.add_point(reader.read_idx(i))
    print(grgpf.create_cluster_list())
    print(grgpf.create_stdtree())
    print("something")