Python extractWords示例

编程语言: Python

命名空间/包名称: process

方法/功能: extractWords

hotexamples.com的示例: 2

Python extractWords - 已找到2个示例。这些是从开源项目中提取的最受好评的process.extractWords现实Python示例。您可以评价示例，以帮助我们提高示例质量。

示例#1

显示文件

文件： detecting.py 项目： blanu/blocking-test

def runBow(options):
  import csv
  from process import extractWords
  from detectors.bow.detectLSI import LsiDetector

  lsi=LsiDetector()

  if not os.path.exists('traces'):
    return
  with pushd('traces'):
    for tracedir in os.listdir('.'):
      if not os.path.isdir(tracedir):
        continue
      with pushd(tracedir):
        if not os.path.exists('tagged'):
          continue
        with pushd('tagged'):
          f=open('../../../detectors/bow/output.csv', 'wb')
          writer=csv.writer(f)
          writer.writerow(['file','decision','truth','correct'])

          for tag in os.listdir('.'):
            with pushd(tag):
              for streamfile in glob.glob('*.pcap'):
                words=extractWords(streamfile, [])
                newtag=lsi.classify(words)
                print(tag+' ?= '+newtag)
                writer.writerow([streamfile, newtag, tag, int(newtag==tag)])

          f.close()

示例#2

显示文件

文件： processing.py 项目： blanu/blocking-test

def trainBow(options):
  from process import extractWords, saveWords, extractCorpus, saveCorpus
  from util import changeExt
  from gensim import corpora, models, similarities
  from gensim.corpora.dictionary import Dictionary

  if not os.path.exists('detectors/bow/similarity.index'):
    if os.path.exists('detectors/bow/words.dict'):
      dict=corpora.dictionary.Dictionary('detectors/bow/words.dict')
    else:
      words=[]

      if not os.path.exists('traces'):
        return
      with pushd('traces'):
        for tracedir in os.listdir('.'):
          if not os.path.isdir(tracedir):
            continue
          with pushd(tracedir):
            if not os.path.exists('tagged'):
              continue
            with pushd('tagged'):
              for tag in os.listdir('.'):
                with pushd(tag):
                  for streamfile in glob.glob('*.pcap'):
                    print(streamfile)
                    words=extractWords(streamfile, words)

      saveWords(words, 'detectors/bow/words.dict')

    if os.path.exists('detectors/bow/corpus.mm'):
      corpus=corpora.MmCorpus('detectors/bow/corpus.mm')
    else:
      corpus=[]
      tags=[]
    with pushd('traces'):
      for tracedir in os.listdir('.'):
        if not os.path.isdir(tracedir):
          continue
        with pushd(tracedir):
          if not os.path.exists('tagged'):
            continue
          with pushd('tagged'):
            for tag in os.listdir('.'):
              with pushd(tag):
                if tag in tags:
                  i=tags.index(tag)
                else:
                  i=len(tags)
                  tags.append(tag)
                  corpus.append([])
                doc=[]
                for streamfile in glob.glob('*.pcap'):
                  print(streamfile)
                  doc=extractWords(streamfile, doc)
                corpus[i]=corpus[i]+doc

    for i in range(len(corpus)):
      corpus[i]=dict.doc2bow(corpus[i])

    saveCorpus(corpus, 'detectors/bow/corpus.mm')

    f=open('detectors/bow/tags.json', 'w')
    f.write(json.dumps(tags))
    f.close()

    lsi=models.LsiModel(corpus, num_topics=2)
    index=similarities.MatrixSimilarity(lsi[corpus])
    index.save('detectors/bow/similarity.index')