Improve some regexes for embedded players

[youtube-dl] / youtube_dl / extractor / generic.py
diff --git a/youtube_dl/extractor/generic.py b/youtube_dl/extractor/generic.py

index 3e96cb15fb79e2be42a2417535689b8daadd7cc8..e0d51996ded5f1604bebe5d0c03c1dbc815f31ce 100644 (file)
--- a/youtube_dl/extractor/generic.py
+++ b/youtube_dl/extractor/generic.py
@@ -78,6 +78,18 @@ class GenericIE(InfoExtractor):
                  'skip_download': True,
              },
          },
+        {
+            # https://github.com/rg3/youtube-dl/issues/2253
+            'url': 'http://bcove.me/i6nfkrc3',
+            'file': '3101154703001.mp4',
+            'md5': '0ba9446db037002366bab3b3eb30c88c',
+            'info_dict': {
+                'title': 'Still no power',
+                'uploader': 'thestar.com',
+                'description': 'Mississauga resident David Farmer is still out of power as a result of the ice storm a month ago. To keep the house warm, Farmer cuts wood from his property for a wood burning stove downstairs.',
+            },
+            'add_ie': ['Brightcove'],
+        },
          # Direct link to a video
          {
              'url': 'http://media.w3.org/2010/05/sintel/trailer.mp4',
@@ -162,8 +174,19 @@ class GenericIE(InfoExtractor):
      def _real_extract(self, url):
          parsed_url = compat_urlparse.urlparse(url)
          if not parsed_url.scheme:
-            self._downloader.report_warning('The url doesn\'t specify the protocol, trying with http')
-            return self.url_result('http://' + url)
+            default_search = self._downloader.params.get('default_search')
+            if default_search is None:
+                default_search = 'auto'
+
+            if default_search == 'auto':
+                if '/' in url:
+                    self._downloader.report_warning('The url doesn\'t specify the protocol, trying with http')
+                    return self.url_result('http://' + url)
+                else:
+                    return self.url_result('ytsearch:' + url)
+            else:
+                assert ':' in default_search
+                return self.url_result(default_search + url)
          video_id = os.path.splitext(url.split('/')[-1])[0]
  
          self.to_screen('%s: Requesting header' % video_id)
@@ -231,7 +254,7 @@ class GenericIE(InfoExtractor):
  
          # Look for embedded (iframe) Vimeo player
          mobj = re.search(
-            r'<iframe[^>]+?src="((?:https?:)?//player.vimeo.com/video/.+?)"', webpage)
+            r'<iframe[^>]+?src="((?:https?:)?//player\.vimeo\.com/video/.+?)"', webpage)
          if mobj:
              player_url = unescapeHTML(mobj.group(1))
              surl = smuggle_url(player_url, {'Referer': url})
@@ -239,7 +262,7 @@ class GenericIE(InfoExtractor):
  
          # Look for embedded (swf embed) Vimeo player
          mobj = re.search(
-            r'<embed[^>]+?src="(https?://(?:www\.)?vimeo.com/moogaloop.swf.+?)"', webpage)
+            r'<embed[^>]+?src="(https?://(?:www\.)?vimeo\.com/moogaloop\.swf.+?)"', webpage)
          if mobj:
              return self.url_result(mobj.group(1), 'Vimeo')
  
@@ -309,7 +332,7 @@ class GenericIE(InfoExtractor):
              return self.url_result(mobj.group(1), 'Aparat')
  
          # Look for MPORA videos
-        mobj = re.search(r'<iframe .*?src="(http://mpora\.com/videos/[^"]+)"', webpage)
+        mobj = re.search(r'<iframe .*?src="(http://mpora\.(?:com|de)/videos/[^"]+)"', webpage)
          if mobj is not None:
              return self.url_result(mobj.group(1), 'Mpora')
  
@@ -319,6 +342,18 @@ class GenericIE(InfoExtractor):
          if mobj is not None:
              return self.url_result(mobj.group('url'), 'Novamov')
  
+        # Look for embedded Facebook player
+        mobj = re.search(
+            r'<iframe[^>]+?src=(["\'])(?P<url>https://www\.facebook\.com/video/embed.+?)\1', webpage)
+        if mobj is not None:
+            return self.url_result(mobj.group('url'), 'Facebook')
+
+        # Look for embedded Huffington Post player
+        mobj = re.search(
+            r'<iframe[^>]+?src=(["\'])(?P<url>https?://embed\.live\.huffingtonpost\.com/.+?)\1', webpage)
+        if mobj is not None:
+            return self.url_result(mobj.group('url'), 'HuffPost')
+
          # Start with something easy: JW Player in SWFObject
          mobj = re.search(r'flashvars: [\'"](?:.*&)?file=(http[^\'"&]*)', webpage)
          if mobj is None: