Python processMatches示例

编程语言: Python

命名空间/包名称: mpiRK_chunkCorpus

方法/功能: processMatches

hotexamples.com的示例: 3

Python processMatches - 已找到3个示例。这些是从开源项目中提取的最受好评的mpiRK_chunkCorpus.processMatches现实Python示例。您可以评价示例，以帮助我们提高示例质量。

示例#1

显示文件

文件： MasterSlave_chunkMultCorpus.py 项目： wwkam/cs205final

def checkTxt(pHashed, pProcessed, txt, lineNum, m, rank):
  '''Check for matches between pHashed (hashed pattern) and txt (one chunk of hashed corpus text)'''

  matches = []

  # for each m-tuple in corpus
  for k,txtMtuple in enumerate(izip(*[iter(txt[i:]) for i in xrange(m)])):

    # for m-tuples in pattern -- might just use izip here
    for i in range(len(pHashed)-m+1): # first word in seqs

      seq = pHashed[i:i+m]

      broken = m # not broken
      for j,hashedWord in enumerate(seq):

        if hashedWord != txtMtuple[j]:
          broken = j
          break


      if broken == m: # was not redefined
          matches.append((k,' '.join(pProcessed[i:i+m])))


  if len(matches) > 0:
    processMatches(matches,m) # print out matches

示例#2

显示文件

文件： prehashedSerialRK.py 项目： pombredanne/cs205final

def full_search(hashedData, pat, m=20):
    """Take prehashed corpus text and hash the pattern text. Compare each line of 20 words in pattern with each line of 20 words in the corpus. Print line number and text for matches."""

    # Hash words in pattern
    pHashed = []
    pProcessed = []
    matches = []

    for word in pat.split():
        new = word.translate(string.maketrans("", ""), string.punctuation).upper()
        pProcessed.append(new)
        pHashed.append(letsHash(new))

    # for each m-tuple in corpus
    for k, txtMtuple in enumerate(izip(*[iter(hashedData[i:]) for i in xrange(m)])):

        # for m-tuples in pattern -- might just use izip here
        for i in range(len(pHashed) - m + 1):  # first word in seqs

            seq = pHashed[i : i + m]

            broken = m  # not broken
            for j, hashedWord in enumerate(seq):

                if hashedWord != txtMtuple[j]:
                    broken = j
                    break

            if broken == m:  # was not redefined
                matches.append((k, " ".join(pProcessed[i : i + m])))

    if len(matches) > 0:
        processMatches(matches, m)  # print out matches

示例#3

显示文件

def full_search(hashedData, pat, m=20):
    '''Take prehashed corpus text and hash the pattern text. Compare each line of 20 words in pattern with each line of 20 words in the corpus. Print line number and text for matches.'''

    # Hash words in pattern
    pHashed = []
    pProcessed = []
    matches = []

    for word in (pat.split()):
        new = word.translate(string.maketrans("", ""),
                             string.punctuation).upper()
        pProcessed.append(new)
        pHashed.append(letsHash(new))

    # for each m-tuple in corpus
    for k, txtMtuple in enumerate(
            izip(*[iter(hashedData[i:]) for i in xrange(m)])):

        # for m-tuples in pattern -- might just use izip here
        for i in range(len(pHashed) - m + 1):  # first word in seqs

            seq = pHashed[i:i + m]

            broken = m  # not broken
            for j, hashedWord in enumerate(seq):

                if hashedWord != txtMtuple[j]:
                    broken = j
                    break

            if broken == m:  # was not redefined
                matches.append((k, ' '.join(pProcessed[i:i + m])))

    if len(matches) > 0:
        processMatches(matches, m)  # print out matches