Python tokenize示例

编程语言: Python

命名空间/包名称: token__

方法/功能: tokenize

hotexamples.com的示例: 2

Python tokenize - 已找到2个示例。这些是从开源项目中提取的最受好评的token__.tokenize现实Python示例。您可以评价示例，以帮助我们提高示例质量。

示例#1

显示文件

文件： tf_idf.py 项目： gopinutakki/Cluster_and_Classification

def tfidf_optimal(news):
    c = idf_optimal(news)
    wordlist = c.keys()
    tok = token__.tokenize(news)
    label = tok.keys()
    matrix = {}

    for t in label:
        matrix[t] = []
        for word in range(len(c)):
            matrix[t].append(0)

    for t in label:
        for i in tok[t]:
            if i in wordlist:
                matrix[t][wordlist.index(i)] = tok[t].count(i) * c[i]

    #normalization
    for i in matrix:
        normalize(matrix[i])
    with open('./tf.txt', 'w') as f:
        for i in matrix:
            f.write(str(matrix[i]) + '\n')
    f.close()
    return matrix

示例#2

显示文件

文件： tf_idf.py 项目： gopinutakki/Cluster_and_Classification

def idf(news):
    tok = token__.tokenize(news)
    text = []
    for i in tok:
        text += list(set(tok[i]))

    idf = {}
    for word in text:
        idf[word] = math.log(float(len(text)) / float(text.count(word))) / math.log(2)
    with open('./idf.txt', 'w') as f:
        f.writelines(str(idf))
    f.close()
    return idf