Python ConditionalFreqDist.keys示例

编程语言: Python

命名空间/包名称: nltk

方法/功能: keys

hotexamples.com的示例: 2

Python ConditionalFreqDist.keys - 已找到2个示例。这些是从开源项目中提取的最受好评的nltk.ConditionalFreqDist.keys现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

ConditionalFreqDist(30)

conditions(16)

tabulate(16)

plot(6)

items(4)

keys(2)

sent(1)

__getitem__(1)

get(1)

tablate(1)

示例#1

显示文件

    def buildTransitionMatrix(self, tagged_corpus: list, train_size):
        train = tagged_corpus[:int(train_size * len(tagged_corpus))]
        random.shuffle(train)
        #construction of the transition matrix
        transition = ConditionalFreqDist()
        for (tag1, tag2) in train:

            if tag1 not in transition:
                transition[tag1] = FreqDist()
            if tag2 not in transition[tag1]:
                transition[tag1][tag2] = 0.0

            transition[tag1][tag2] += 1

        for tag in transition.keys():
            somme = 0.0
            for value in transition[tag].values():
                somme += value
            for successor in transition[tag].keys():
                transition[tag][successor] = round(
                    float("{0:.6f}".format(transition[tag][successor] /
                                           somme)), 6)

        self.TRANSITION_MATRIX = transition
        return transition

示例#2

显示文件

文件： BNC_cooccur_matrix_builder.py 项目： drussellmrichie/Volumetric-Latent-Semantic-Analysis-master

#pickle.dump( docfreqs, open( 'docfreqs.p','w' ) ) #apparently this doesn't work because docfreqs is honkin' big


def idf(w):
    return (log(len(bnc.fileids()) + 1) - log(docfreqs[w].B())
            )  # docfreqs[w].B() is how many docs word occurs in


def tf_idf(w):
    return docfreqs[w].N() * idf(
        w)  #docfreqs[w].N() is how often word occurs throughout entire BNC


wordlist = [
    w for w in sorted(
        docfreqs.keys(), key=lambda x: docfreqs[x].N(), reverse=True)
    if w not in stopset  # comment this out if want to include stops
    if docfreqs[w].N() > 2
]
r2i = dict((w, i) for (i, w) in enumerate(wordlist[:ROWS]))
c2i = dict((w, i) for (i, w) in enumerate(wordlist[50:COLS + 50])
           )  # leave out the 50 most frequent words from the context columns
#pickle.dump( r2i, open( 'r2iWithoutStops.p','w' ) )
#pickle.dump( c2i, open( 'c2iWithoutstops.p','w' ) )
#pickle.dump( r2i, open( 'r2iWithStops.p','w' ) )
#pickle.dump( c2i, open( 'c2iWithStops.p','w' ) )
#pickle.dump( r2i, open( 'r2iWithStopsNotLemmatized.p','w' ) )
#pickle.dump( c2i, open( 'c2iWithStopsNotLemmatized.p','w' ) )
#pickle.dump( r2i, open( 'r2iWithoutStopsNotLemmatized.p','w' ) )
#pickle.dump( c2i, open( 'c2iWithoutStopsNotLemmatized.p','w' ) )
pickle.dump(r2i, open('r2iWithoutStopsLemmatized.p', 'w'))