コード例 #1
0
ファイル: cmd.py プロジェクト: Shunsuke0201/baum
def cmd(args,options={}):
  dirpath = options.inputs
  list = os.listdir(dirpath)
  result = {}
  phrases = []

  # すべてのファイルに対して集計処理を行う
  for filename in list:
    # 本文の抽出
    content = extract.extract(os.path.join(dirpath,filename))
    # フレーズの抽出と集計
    for sentence in content['body']:
      phrases += map((lambda x: " ".join(x)),extract.make_phrase(sentence,5))

  result = freq.freq_tally(phrases).items()

  # 集計結果を出力する
  return result
コード例 #2
0
ファイル: flat.py プロジェクト: tsunekawa/baum
def flat(directryname,n,t):
  result = {}
  dirpath=directryname
  list=os.listdir(dirpath)
  phrases = []

  # すべてのファイルに対して集計処理を行う
  for filename in list:
    # 本文の抽出
    content = extract.extract(os.path.join(dirpath,filename))
    # フレーズの抽出と集計
    for sentence in content['body']:
      phrases += map((lambda x: " ".join(x)),extract.make_phrase(sentence,n))

  result = freq.freq_tally(phrases).items()

  re={}

  for item in result:
    if item[1]>=t:
      re[item[0]]={"count":item[1]}
  return re