Python strQ2B示例

编程语言: Python

命名空间/包名称: utils.text_tools

方法/功能: strQ2B

hotexamples.com的示例: 3

Python strQ2B - 已找到3个示例。这些是从开源项目中提取的最受好评的utils.text_tools.strQ2B现实Python示例。您可以评价示例，以帮助我们提高示例质量。

示例#1

显示文件

def cut_td_idf(sources_path, target_path):
    """
    结巴切词，汉语
    :param path: 
    :return: 
    """
    print("cut_td_idf start! ")
    corpus = txtRead(sources_path)
    governments = []
    for corpus_one in corpus:
        corpus_one_clear = corpus_one.replace(' ', '').strip()
        ques_q2b = strQ2B(corpus_one_clear.strip())
        ques_q2b_syboml = get_syboml(ques_q2b)
        governments.append(ques_q2b_syboml.strip())

    government_ques = list(map(lambda x: ' '.join(jieba.lcut(x)), governments))

    topic_ques_all = []
    for topic_ques_one in government_ques:
        top_ques_aqlq = topic_ques_one.replace('   ', ' ').replace(
            '  ', ' ').strip() + '\n'
        topic_ques_all.append(top_ques_aqlq)

    txtWrite(topic_ques_all, target_path)
    print("cut_td_idf ok! " + sources_path)

示例#2

显示文件

文件： distance_text_or_vec.py 项目： dllzg2012/Co-Senti-BERTCNN

def clear_sentence(sentence):
    """
      数据清晰，全角转半角
    :param sentence: str, input sentence
    :return: str, clearned sentences
    """
    corpus_one_clear = str(sentence).replace(' ', '').strip()
    ques_q2b = strQ2B(corpus_one_clear.strip())
    ques_q2b_syboml = get_syboml(ques_q2b)
    return ques_q2b_syboml

示例#3

显示文件

def cut_td_idf_pinyin(sources_path, target_path):  # 获取拼音
    """
       汉语转拼音
    :param path: 
    :return: 
    """
    pin = xpinyin.Pinyin()
    corpus = txtRead(sources_path)
    topic_ques_all = []
    corpus_count = 0
    for corpus_one in corpus:
        corpus_count += 1
        # time1 = time.time()
        corpus_one_clear = corpus_one.replace(' ', '').strip()
        ques_q2b = strQ2B(corpus_one_clear.strip())
        ques_q2b_syboml = get_syboml(ques_q2b)
        ques_q2b_syboml_pinying = pin.get_pinyin(
            ques_q2b_syboml.replace('   ', '').replace('  ', '').strip(), ' ')
        topic_ques_all.append(ques_q2b_syboml_pinying + '\n')
        # time2 = time.time()
        # print(str(corpus_count) + 'time:' + str(time2 - time1))
    txtWrite(topic_ques_all, target_path)
    print("cut_td_idf_pinyin ok! " + sources_path)