示例#1
0
    def sort_hit(self,p1,p2):
        '''
        hit 排序
        '''
        hit_sort=Sort_hits(p1)

        for i in range(20):
            hit_sort.sort_wid(p2,i)
            hit_sort.save(p2,i)
示例#2
0
from index.indexer import Sort_hits

hit_sort=Sort_hits('store/hits/hit_size.txt')


print '-'*50
print 'begin to sort by hits'

for i in range(20):

    hit_sort.sort_wid('store/hits/',i)
    hit_sort.save('store/hits/',i)



示例#3
0
from index.indexer import Indexer,Sort_hits
from query.path import path

p = path(0)
'''
index=Indexer(0)

index.run()
'''


hit_sort = Sort_hits(p.g_hit_size())

for i in range(20):
    hit_sort.sort_wid(p.g_hits()+'/',i)

    hit_sort.save(p.g_hits()+'/',i)
示例#4
0
from index.indexer import Sort_hits

hit_sort = Sort_hits('store/hits/hit_size.txt')

print '-' * 50
print 'begin to sort by hits'

for i in range(20):

    hit_sort.sort_wid('store/hits/', i)
    hit_sort.save('store/hits/', i)
示例#5
0
    def run(self,site_id):
        '''
        运行主程序
        '''
        p = path(site_id)
        #初始化目录
        #清空wordsplit
        p.clean_dir(p.g_wordsplit())
        #清空hits
        p.clean_dir(p.g_hits())
        #初始化数据库
        p.cp_chun()

        ###################################################################
        #   解析  parser
        #
        ###################################################################
        parser = Parser(site_id)
        
        ###################################################################
        #   url处理 url_sort
        #
        ###################################################################
        url_trans = UrlTransID(p.g_urltest())
        #将url进行排序
        url_trans.sort()
        #存储为 sorted_url.txt
        url_trans.save(p.g_sorted_url())

        ###################################################################
        #   parser 进行分词
        #
        ###################################################################
        parser.splitWord()
        
        ###################################################################
        #  根据 docID 修改文件名
        #
        ###################################################################
        url_trans_dir = UrlTransDir(p.g_sorted_url())
        #对document进行重命名
        url_trans_dir.renameDoc( p.g_document() )
        #对wrdsplit进行重命名
        url_trans_dir.renameDoc( p.g_wordsplit() )
        
        ###################################################################
        #   parser 产生词库 wordbar
        #
        ###################################################################
        parser.transWbar()
        
        ###################################################################
        #   title_处理
        #
        ###################################################################
        title_des_sqlite = Title_des_sqlite(site_id)
        #对原始数据进行刷新
        title_des_sqlite.clear()
        title_des_sqlite.run()
        title_des_sqlite.add_url()
        title_des_sqlite.intro_split_des_title()
        title_des_sqlite.cx.commit()

        ###################################################################
        #   index 索引操作
        #
        ###################################################################
        index = Indexer(site_id)
        index.run()

        ###################################################################
        #   index 对hits进行排序
        #
        ###################################################################
        hit_sort = Sort_hits(p.g_hit_size())
        for i in range(20):
            hit_sort.sort_wid(p.g_hits()+'/',i)
            hit_sort.save(p.g_hits()+'/',i)