Python remove_html_tags示例，tools.remove_html_tags Python示例

示例#1

0

显示文件

文件： imdb.py 项目： iamsix/moviemeta2

    def Persons(self):
        personlist = []
        if self.imdbpage.find(text=re.compile("Directors?:")):
            directors = self.imdbpage.find(text=re.compile("Directors?:")).parent.parent
            directors = directors.findAll("a")
            for person in directors:
                if person.text.find("more credit") == -1:
                    personlist.append({"Name": person.text, "Type": "Director", "Role": ""})

        if self.imdbpage.find("table", "cast_list"):
            cast = self.imdbpage.find("table", "cast_list")
            cast = cast.findAll("tr")
            for person in cast:
                name = tools.decode_htmlentities(
                    tools.remove_html_tags(str(person.find("td", "name"))).strip()
                ).replace("\n", " ")
                role = tools.decode_htmlentities(
                    tools.remove_html_tags(str(person.find("td", "character"))).strip()
                ).replace("\n", " ")
                name = re.sub("\s+", " ", name)
                role = re.sub("\s+", " ", role)
                if name != "None":
                    if role == "None":
                        role = ""
                    personlist.append({"Name": name, "Type": "Actor", "Role": role})

        return personlist

示例#2

0

显示文件

    def Persons(self):
        personlist = []
        if self.imdbpage.find(text=re.compile("Directors?:")):
            directors = self.imdbpage.find(
                text=re.compile("Directors?:")).parent.parent
            directors = directors.findAll("a")
            for person in directors:
                if person.text.find('more credit') == -1:
                    personlist.append({
                        "Name": person.text,
                        "Type": "Director",
                        "Role": ""
                    })

        if self.imdbpage.find("table", "cast_list"):
            cast = self.imdbpage.find("table", "cast_list")
            cast = cast.findAll('tr')
            for person in cast:
                name = tools.decode_htmlentities(
                    tools.remove_html_tags(str(person.find(
                        'td', 'name'))).strip()).replace("\n", " ")
                role = tools.decode_htmlentities(
                    tools.remove_html_tags(str(person.find(
                        'td', 'character'))).strip()).replace("\n", " ")
                name = re.sub('\s+', ' ', name)
                role = re.sub('\s+', ' ', role)
                if name != "None":
                    if role == "None": role = ""
                    personlist.append({
                        "Name": name,
                        "Type": "Actor",
                        "Role": role
                    })

        return personlist

示例#3

0

显示文件

文件： imdb.py 项目： iamsix/moviemeta2

    def Description(self):
        page = self.imdbpage.find(id="overview-top")
        if len(page.findAll("p")) == 2:

            summary = str(page.findAll("p")[1])

            removelink = re.compile(r"\<a.*\/a\>")
            summary = removelink.sub("", summary)
            summary = tools.remove_html_tags(summary)
            summary = summary.replace("&raquo;", "")
            summary = tools.decode_htmlentities(summary.decode("utf-8", "ignore"))
            summary = summary.replace("\n", " ")
            return summary

示例#4

0

显示文件

    def Description(self):
        page = self.imdbpage.find(id="overview-top")
        if len(page.findAll('p')) == 2:

            summary = str(page.findAll('p')[1])

            removelink = re.compile(r'\<a.*\/a\>')
            summary = removelink.sub('', summary)
            summary = tools.remove_html_tags(summary)
            summary = summary.replace('&raquo;', "")
            summary = tools.decode_htmlentities(
                summary.decode("utf-8", 'ignore'))
            summary = summary.replace("\n", " ")
            return summary

示例#5

0

显示文件

 def ProductionYear(self):
     movietitle = tools.decode_htmlentities(
         tools.remove_html_tags(str(self.imdbpage.find('title'))).replace(
             " - IMDb", ""))
     movietitle = re.search("\(.*\)", movietitle).group(0).strip()
     return re.search("[1-2][0-9]{3}", movietitle).group(0).strip()

示例#6

0

显示文件

 def LocalTitle(self):
     movietitle = tools.decode_htmlentities(
         tools.remove_html_tags(str(self.imdbpage.find('title'))).replace(
             " - IMDb", ""))
     movietitle = re.sub("\(.*\)", "", movietitle).strip()
     return movietitle

示例#7

0

显示文件

 def IMDBrating(self):
     return tools.remove_html_tags(
         str(self.imdbpage.find(id="star-bar-user-rate").b))

示例#8

0

显示文件

def extract_clipping_content(raw):
    m = re.search(r'<en-note>(.*)<\/en-note>', raw)
    if m:
        content = m.groups()[0]
        if content:
            return tools.remove_html_tags(content)

示例#9

0

显示文件

文件： flow_evernote.py 项目： akatsoulas/flow-dashboard

def extract_clipping_content(raw):
    m = re.search(r'<en-note>(.*)<\/en-note>', raw)
    if m:
        content = m.groups()[0]
        if content:
            return tools.remove_html_tags(content)

示例#10

0

显示文件

文件： imdb.py 项目： iamsix/moviemeta2

 def ProductionYear(self):
     movietitle = tools.decode_htmlentities(
         tools.remove_html_tags(str(self.imdbpage.find("title"))).replace(" - IMDb", "")
     )
     movietitle = re.search("\(.*\)", movietitle).group(0).strip()
     return re.search("[1-2][0-9]{3}", movietitle).group(0).strip()

示例#11

0

显示文件

文件： imdb.py 项目： iamsix/moviemeta2

 def LocalTitle(self):
     movietitle = tools.decode_htmlentities(
         tools.remove_html_tags(str(self.imdbpage.find("title"))).replace(" - IMDb", "")
     )
     movietitle = re.sub("\(.*\)", "", movietitle).strip()
     return movietitle

示例#12

0

显示文件

文件： imdb.py 项目： iamsix/moviemeta2

 def IMDBrating(self):
     return tools.remove_html_tags(str(self.imdbpage.find(id="star-bar-user-rate").b))