Python Document.getWordsの例

プログラミング言語: Python

名前空間/パッケージ名: document

クラス/型: Document

メソッド/関数: getWords

hotexamples.comのコード掲載数: 3

Python Document.getWords - 3件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのdocument.Document.getWordsの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

Document(30)

__init__(9)

new_shape(5)

content(4)

apply_op(4)

snapshot(4)

delete(3)

classification(3)

getWords(3)

concatenate(3)

add_header(2)

preprocess_text(2)

getName(2)

calc_hash(2)

getNumDifferentWords(2)

getNumParagraphs(2)

add_predictions(2)

getNumTotalWords(2)

add_tag(2)

getWordCount(2)

getNumSentences(2)

copy(2)

create_or_update(2)

addCut(2)

add(2)

result_file(2)

create(2)

date(2)

render(2)

getPostingsList(1)

download(1)

empty(1)

getUrls(1)

getTopWords(1)

getMostFrequentWord(1)

end_user_action(1)

files(1)

genre(1)

getClause(1)

getClausesList(1)

getImage(1)

getMostFrequentWords(1)

ChangePage(1)

get_selection(1)

getWordsAboveFrequency(1)

remove(1)

tokenize(1)

subscribe_user(1)

statistics(1)

setTextPath(1)

コード例 #1

ファイルを表示

ファイル: evaluate.py プロジェクト: JoeAcanfora/ProjFocusedCrawler

 def buildVSMClassifier(self,posFile,vsmClassifierFileName,th,topK):
     
     try:
         classifierFile = open(vsmClassifierFileName,"rb")
         self.classifier = pickle.load(classifierFile)
         classifierFile.close()
     except:
         docs = []
         f = open(posFile,'r')
         for url in f:
             url = url.strip()
             d = Document(url)
             if d and d.text:
                 docs.append(d)
         f.close()
         '''
         docsTF = []
         for d in docs:
             wordsFreq = getFreq(d.getWords())
             docsTF.append(wordsFreq)
         self.classifier = VSMClassifier(docsTF,th)
         '''
         docsTF = []
         vocabTFDic = {}
         for d in docs:
             wordsFreq = getFreq(d.getWords())
             #docsTF.append(wordsFreq)
             for w in wordsFreq:
                 if w in vocabTFDic:
                     vocabTFDic[w] += wordsFreq[w]
                 else:
                     vocabTFDic[w] = wordsFreq[w]
         
         vocabSorted = getSorted(vocabTFDic.items(), 1)
         topVocabDic = dict(vocabSorted[:topK])
         #topVocabDic = vocabTFDic
         
         ndocsTF = []
         '''
         for d in docsTF:
             ndocTF = {}
             for k in topVocabDic:
                 if k in d:
                     ndocTF[k] = d[k]
                 else: 
                     ndocTF[k] = 1/math.e
             ndocsTF.append(ndocTF)
          '''   
         
         self.classifier = VSMClassifier(topVocabDic,ndocsTF,th)
         classifierFile = open(vsmClassifierFileName,"wb")
         pickle.dump(self.classifier,classifierFile)
         classifierFile.close()

コード例 #2

ファイルを表示

ファイル: evaluate.py プロジェクト: pan3688/ProjFocusedCrawler

 def buildVSMClassifier_OneTargetTopicVector(self,posFile,vsmClassifierFileName,th,topK):
     
     try:
         classifierFile = open(vsmClassifierFileName,"rb")
         self.classifier = pickle.load(classifierFile)
         classifierFile.close()
     except:
         docs = []
         f = open(posFile,'r')
         for url in f:
             url = url.strip()
             d = Document(url)
             if d and d.text:
                 docs.append(d)
         f.close()
         '''
         docsTF = []
         for d in docs:
             wordsFreq = getFreq(d.getWords())
             docsTF.append(wordsFreq)
         self.classifier = VSMClassifier(docsTF,th)
         '''
         docsTF = []
         vocabTFDic = {}
         n = len(docs)
         for d in docs:
             wordsFreq = getFreq(d.getWords())
             #docsTF.append(wordsFreq)
             for w in wordsFreq:
                 if w in vocabTFDic:
                     #vocabTFDic[w] += wordsFreq[w]
                     vocabTFDic[w].append( wordsFreq[w])
                 else:
                     vocabTFDic[w] = [wordsFreq[w]]
         #vocTF_IDF = [(w,sum(vocabTFDic[w])*math.log(n*1.0/len(vocabTFDic[w]))) for w in vocabTFDic]
         idf = 1.0
         vocTF_IDF = [(w,sum([1+math.log(vtf) for vtf in vocabTFDic[w]])*idf) for w in vocabTFDic]
          
         #vocabSorted = getSorted(vocabTFDic.items(), 1)
         vocabSorted = getSorted(vocTF_IDF, 1)
         print vocabSorted[:topK]
         topVocabDic = dict(vocabSorted[:topK])
         #topVocabDic = vocabTFDic
          
         
         self.classifier = VSMClassifier(topVocabDic,th)
         classifierFile = open(vsmClassifierFileName,"wb")
         pickle.dump(self.classifier,classifierFile)
         classifierFile.close()

コード例 #3

ファイルを表示

ファイル: evaluate.py プロジェクト: pan3688/ProjFocusedCrawler

 def buildVSMClassifier(self,posFile,vsmClassifierFileName,th,leastK):
     
     try:
         classifierFile = open(vsmClassifierFileName,"rb")
         self.classifier = pickle.load(classifierFile)
         classifierFile.close()
     except:
         docs = []
         
         f = open(posFile,'r')
         for url in f:
             url = url.strip()
             d = Document(url)
             if d and d.text:
                 docs.append(d)
         f.close()
        
         #docsBOW = []
         vocabTFDic = defaultdict([])
         #n = len(docs)
         for d in docs:
             wordsFreq = getFreq(d.getWords())
             #docsBOW.append(wordsFreq)
             for w in wordsFreq:
                 vocabTFDic[w].append( wordsFreq[w])
         
         #idf = 1.0
         #vocTF_IDF = [(w,sum([1+math.log(vtf) for vtf in vocabTFDic[w]])*idf) for w in vocabTFDic]
         voc_CollFreq = [(w,sum(vocabTFDic[w])) for w in vocabTFDic]
         vocab_filtered = [(w,f) for w in voc_CollFreq if f>= leastK] 
         vocab_filtered_dict = dict(vocab_filtered)
         #vocabSorted = getSorted(voc_CollFreq, 1)
         '''
         print vocabSorted[:topK]
         topVocabDic = dict(vocabSorted[:topK])
         '''
         
         self.classifier = VSMClassifier(vocab_filtered_dict,th)
         classifierFile = open(vsmClassifierFileName,"wb")
         pickle.dump(self.classifier,classifierFile)
         classifierFile.close()