[compat] compat_etree_fromstring: also decode the text attribute

[youtube-dl] / youtube_dl / extractor / generic.py
diff --git a/youtube_dl/extractor/generic.py b/youtube_dl/extractor/generic.py

index 8881a8a237bfe809f5fe924afcc70109166f66af..1de96b268c959490b17c966b7b334b8ab22b7fae 100644 (file)
--- a/youtube_dl/extractor/generic.py
+++ b/youtube_dl/extractor/generic.py
@@ -9,6 +9,7 @@ import sys
  from .common import InfoExtractor
  from .youtube import YoutubeIE
  from ..compat import (
+    compat_etree_fromstring,
      compat_urllib_parse_unquote,
      compat_urllib_request,
      compat_urlparse,
@@ -21,7 +22,6 @@ from ..utils import (
      HEADRequest,
      is_html,
      orderedSet,
-    parse_xml,
      smuggle_url,
      unescapeHTML,
      unified_strdate,
@@ -50,6 +50,7 @@ from .dailymotion import DailymotionCloudIE
  from .onionstudios import OnionStudiosIE
  from .snagfilms import SnagFilmsEmbedIE
  from .screenwavemedia import ScreenwaveMediaIE
+from .mtv import MTVServicesEmbeddedIE
  
  
  class GenericIE(InfoExtractor):
@@ -1236,7 +1237,7 @@ class GenericIE(InfoExtractor):
  
          # Is it an RSS feed, a SMIL file or a XSPF playlist?
          try:
-            doc = parse_xml(webpage)
+            doc = compat_etree_fromstring(webpage.encode('utf-8'))
              if doc.tag == 'rss':
                  return self._extract_rss(url, video_id, doc)
              elif re.match(r'^(?:{[^}]+})?smil$', doc.tag):
@@ -1611,12 +1612,9 @@ class GenericIE(InfoExtractor):
              return self.url_result(url, ie='Vulture')
  
          # Look for embedded mtvservices player
-        mobj = re.search(
-            r'<iframe src="(?P<url>https?://media\.mtvnservices\.com/embed/[^"]+)"',
-            webpage)
-        if mobj is not None:
-            url = unescapeHTML(mobj.group('url'))
-            return self.url_result(url, ie='MTVServicesEmbedded')
+        mtvservices_url = MTVServicesEmbeddedIE._extract_url(webpage)
+        if mtvservices_url:
+            return self.url_result(mtvservices_url, ie='MTVServicesEmbedded')
  
          # Look for embedded yahoo player
          mobj = re.search(
@@ -1655,7 +1653,7 @@ class GenericIE(InfoExtractor):
              return self.url_result(mobj.group('url'), 'MLB')
  
          mobj = re.search(
-            r'<iframe[^>]+?src=(["\'])(?P<url>%s)\1' % CondeNastIE.EMBED_URL,
+            r'<(?:iframe|script)[^>]+?src=(["\'])(?P<url>%s)\1' % CondeNastIE.EMBED_URL,
              webpage)
          if mobj is not None:
              return self.url_result(self._proto_relative_url(mobj.group('url'), scheme='http:'), 'CondeNast')