[vgtrk] Rename vesti extractor

[youtube-dl] / youtube_dl / extractor / generic.py
diff --git a/youtube_dl/extractor/generic.py b/youtube_dl/extractor/generic.py

index 595ba268fe5c223108ede65f520c78a77d58008c..7666cf2078177db0682aae81b01b4253362efdfd 100644 (file)
--- a/youtube_dl/extractor/generic.py
+++ b/youtube_dl/extractor/generic.py
@@ -4,7 +4,6 @@ from __future__ import unicode_literals
  
  import os
  import re
-import xml.etree.ElementTree
  
  from .common import InfoExtractor
  from .youtube import YoutubeIE
@@ -17,6 +16,7 @@ from ..utils import (
  
      ExtractorError,
      HEADRequest,
+    parse_xml,
      smuggle_url,
      unescapeHTML,
      unified_strdate,
@@ -116,7 +116,24 @@ class GenericIE(InfoExtractor):
              'params': {
                  'skip_download': False,
              }
-        }
+        },
+        # embed.ly video
+        {
+            'url': 'http://www.tested.com/science/weird/460206-tested-grinding-coffee-2000-frames-second/',
+            'info_dict': {
+                'id': '9ODmcdjQcHQ',
+                'ext': 'mp4',
+                'title': 'Tested: Grinding Coffee at 2000 Frames Per Second',
+                'upload_date': '20140225',
+                'description': 'md5:06a40fbf30b220468f1e0957c0f558ff',
+                'uploader': 'Tested',
+                'uploader_id': 'testedcom',
+            },
+            # No need to test YoutubeIE here
+            'params': {
+                'skip_download': True,
+            },
+        },
      ]
  
      def report_download_webpage(self, video_id):
@@ -211,7 +228,7 @@ class GenericIE(InfoExtractor):
              else:
                  assert ':' in default_search
                  return self.url_result(default_search + url)
-        video_id = os.path.splitext(url.split('/')[-1])[0]
+        video_id = os.path.splitext(url.rstrip('/').split('/')[-1])[0]
  
          self.to_screen('%s: Requesting header' % video_id)
  
@@ -257,7 +274,7 @@ class GenericIE(InfoExtractor):
  
          # Is it an RSS feed?
          try:
-            doc = xml.etree.ElementTree.fromstring(webpage.encode('utf-8'))
+            doc = parse_xml(webpage)
              if doc.tag == 'rss':
                  return self._extract_rss(url, video_id, doc)
          except compat_xml_parse_error:
@@ -396,12 +413,25 @@ class GenericIE(InfoExtractor):
          if mobj is not None:
              return self.url_result(mobj.group('url'), 'Facebook')
  
+        # Look for embedded VK player
+        mobj = re.search(r'<iframe[^>]+?src=(["\'])(?P<url>https?://vk\.com/video_ext\.php.+?)\1', webpage)
+        if mobj is not None:
+            return self.url_result(mobj.group('url'), 'VK')
+
          # Look for embedded Huffington Post player
          mobj = re.search(
              r'<iframe[^>]+?src=(["\'])(?P<url>https?://embed\.live\.huffingtonpost\.com/.+?)\1', webpage)
          if mobj is not None:
              return self.url_result(mobj.group('url'), 'HuffPost')
  
+        # Look for embed.ly
+        mobj = re.search(r'class=["\']embedly-card["\'][^>]href=["\'](?P<url>[^"\']+)', webpage)
+        if mobj is not None:
+            return self.url_result(mobj.group('url'))
+        mobj = re.search(r'class=["\']embedly-embed["\'][^>]src=["\'][^"\']*url=(?P<url>[^&]+)', webpage)
+        if mobj is not None:
+            return self.url_result(compat_urllib_parse.unquote(mobj.group('url')))
+
          # Start with something easy: JW Player in SWFObject
          mobj = re.search(r'flashvars: [\'"](?:.*&)?file=(http[^\'"&]*)', webpage)
          if mobj is None: