[sohu] Skip test

[youtube-dl] / youtube_dl / extractor / facebook.py
diff --git a/youtube_dl/extractor/facebook.py b/youtube_dl/extractor/facebook.py

index 62881da31e2a3c3f3d56342c32d6695de94ad543..8f9154c0e6864d04ef6c4e0f441ef4a68e6d30d2 100644 (file)
--- a/youtube_dl/extractor/facebook.py
+++ b/youtube_dl/extractor/facebook.py
@@ -1,5 +1,4 @@
  import json
-import netrc
  import re
  import socket
  
@@ -18,7 +17,12 @@ from ..utils import (
  class FacebookIE(InfoExtractor):
      """Information Extractor for Facebook"""
  
-    _VALID_URL = r'^(?:https?://)?(?:\w+\.)?facebook\.com/(?:video/video|photo)\.php\?(?:.*?)v=(?P<ID>\d+)(?:.*)'
+    _VALID_URL = r'''(?x)
+        (?:https?://)?(?:\w+\.)?facebook\.com/
+        (?:[^#?]*\#!/)?
+        (?:video/video\.php|photo\.php|video/embed)\?(?:.*?)
+        (?:v|video_id)=(?P<id>[0-9]+)
+        (?:.*)'''
      _LOGIN_URL = 'https://www.facebook.com/login.php?next=http%3A%2F%2Ffacebook.com%2Fhome.php&login_attempt=1'
      _CHECKPOINT_URL = 'https://www.facebook.com/checkpoint/?next=http%3A%2F%2Ffacebook.com%2Fhome.php&_fb_noscript=1'
      _NETRC_MACHINE = 'facebook'
@@ -28,7 +32,7 @@ class FacebookIE(InfoExtractor):
          u'file': u'120708114770723.mp4',
          u'md5': u'48975a41ccc4b7a581abd68651c1a5a8',
          u'info_dict': {
-            u"duration": 279, 
+            u"duration": 279,
              u"title": u"PEOPLE ARE AWESOME 2013"
          }
      }
@@ -91,7 +95,7 @@ class FacebookIE(InfoExtractor):
          mobj = re.match(self._VALID_URL, url)
          if mobj is None:
              raise ExtractorError(u'Invalid URL: %s' % url)
-        video_id = mobj.group('ID')
+        video_id = mobj.group('id')
  
          url = 'https://www.facebook.com/video/video.php?v=%s' % video_id
          webpage = self._download_webpage(url, video_id)
@@ -100,7 +104,13 @@ class FacebookIE(InfoExtractor):
          AFTER = '.forEach(function(variable) {swf.addVariable(variable[0], variable[1]);});'
          m = re.search(re.escape(BEFORE) + '(.*?)' + re.escape(AFTER), webpage)
          if not m:
-            raise ExtractorError(u'Cannot parse data')
+            m_msg = re.search(r'class="[^"]*uiInterstitialContent[^"]*"><div>(.*?)</div>', webpage)
+            if m_msg is not None:
+                raise ExtractorError(
+                    u'The video is not available, Facebook said: "%s"' % m_msg.group(1),
+                    expected=True)
+            else:
+                raise ExtractorError(u'Cannot parse data')
          data = dict(json.loads(m.group(1)))
          params_raw = compat_urllib_parse.unquote(data['params'])
          params = json.loads(params_raw)