[vimeo:likes] Support large like lists (Fixes #3847)

[youtube-dl] / youtube_dl / extractor / vimeo.py
diff --git a/youtube_dl/extractor/vimeo.py b/youtube_dl/extractor/vimeo.py

index 11c7d7e817f1f0839604311534dd918b5b5e4fee..403d0bb28ebb4e3d3f1d93af46452485dfe44bb6 100644 (file)
--- a/youtube_dl/extractor/vimeo.py
+++ b/youtube_dl/extractor/vimeo.py
@@ -8,17 +8,19 @@ import itertools
  from .common import InfoExtractor
  from .subtitles import SubtitlesInfoExtractor
  from ..utils import (
+    clean_html,
      compat_HTTPError,
      compat_urllib_parse,
      compat_urllib_request,
-    clean_html,
-    get_element_by_attribute,
+    compat_urlparse,
      ExtractorError,
+    get_element_by_attribute,
+    InAdvancePagedList,
+    int_or_none,
      RegexNotFoundError,
      std_headers,
      unsmuggle_url,
      urlencode_postdata,
-    int_or_none,
  )
  
  
@@ -57,6 +59,7 @@ class VimeoIE(VimeoBaseInfoExtractor, SubtitlesInfoExtractor):
          (?P<proto>(?:https?:)?//)?
          (?:(?:www|(?P<player>player))\.)?
          vimeo(?P<pro>pro)?\.com/
+        (?!channels/[^/?#]+/?(?:$|[?#])|album/)
          (?:.*?/)?
          (?:(?:play_redirect_hls|moogaloop\.swf)\?clip_id=)?
          (?:videos?/)?
@@ -153,15 +156,6 @@ class VimeoIE(VimeoBaseInfoExtractor, SubtitlesInfoExtractor):
          },
      ]
  
-    @classmethod
-    def suitable(cls, url):
-        if VimeoChannelIE.suitable(url):
-            # Otherwise channel urls like http://vimeo.com/channels/31259 would
-            # match
-            return False
-        else:
-            return super(VimeoIE, cls).suitable(url)
-
      def _verify_video_password(self, url, video_id, webpage):
          password = self._downloader.params.get('videopassword', None)
          if password is None:
@@ -205,6 +199,8 @@ class VimeoIE(VimeoBaseInfoExtractor, SubtitlesInfoExtractor):
          if data is not None:
              headers = headers.copy()
              headers.update(data)
+        if 'Referer' not in headers:
+            headers['Referer'] = url
  
          # Extract ID from URL
          mobj = re.match(self._VALID_URL, url)
@@ -378,9 +374,16 @@ class VimeoIE(VimeoBaseInfoExtractor, SubtitlesInfoExtractor):
  
  class VimeoChannelIE(InfoExtractor):
      IE_NAME = 'vimeo:channel'
-    _VALID_URL = r'(?:https?://)?vimeo\.com/channels/(?P<id>[^/]+)/?(\?.*)?$'
+    _VALID_URL = r'https?://vimeo\.com/channels/(?P<id>[^/?#]+)/?(?:$|[?#])'
      _MORE_PAGES_INDICATOR = r'<a.+?rel="next"'
      _TITLE_RE = r'<link rel="alternate"[^>]+?title="(.*?)"'
+    _TESTS = [{
+        'url': 'http://vimeo.com/channels/tributes',
+        'info_dict': {
+            'title': 'Vimeo Tributes',
+        },
+        'playlist_mincount': 25,
+    }]
  
      def _page_url(self, base_url, pagenum):
          return '%s/videos/page:%d/' % (base_url, pagenum)
@@ -414,14 +417,15 @@ class VimeoChannelIE(InfoExtractor):
  
  class VimeoUserIE(VimeoChannelIE):
      IE_NAME = 'vimeo:user'
-    _VALID_URL = r'(?:https?://)?vimeo\.com/(?P<name>[^/]+)(?:/videos|[#?]|$)'
+    _VALID_URL = r'https?://vimeo\.com/(?![0-9]+(?:$|[?#/]))(?P<name>[^/]+)(?:/videos|[#?]|$)'
      _TITLE_RE = r'<a[^>]+?class="user">([^<>]+?)</a>'
-
-    @classmethod
-    def suitable(cls, url):
-        if VimeoChannelIE.suitable(url) or VimeoIE.suitable(url) or VimeoAlbumIE.suitable(url) or VimeoGroupsIE.suitable(url):
-            return False
-        return super(VimeoUserIE, cls).suitable(url)
+    _TESTS = [{
+        'url': 'http://vimeo.com/nkistudio/videos',
+        'info_dict': {
+            'title': 'Nki',
+        },
+        'playlist_mincount': 66,
+    }]
  
      def _real_extract(self, url):
          mobj = re.match(self._VALID_URL, url)
@@ -431,8 +435,15 @@ class VimeoUserIE(VimeoChannelIE):
  
  class VimeoAlbumIE(VimeoChannelIE):
      IE_NAME = 'vimeo:album'
-    _VALID_URL = r'(?:https?://)?vimeo\.com/album/(?P<id>\d+)'
+    _VALID_URL = r'https?://vimeo\.com/album/(?P<id>\d+)'
      _TITLE_RE = r'<header id="page_header">\n\s*<h1>(.*?)</h1>'
+    _TESTS = [{
+        'url': 'http://vimeo.com/album/2632481',
+        'info_dict': {
+            'title': 'Staff Favorites: November 2013',
+        },
+        'playlist_mincount': 13,
+    }]
  
      def _page_url(self, base_url, pagenum):
          return '%s/page:%d/' % (base_url, pagenum)
@@ -446,6 +457,13 @@ class VimeoAlbumIE(VimeoChannelIE):
  class VimeoGroupsIE(VimeoAlbumIE):
      IE_NAME = 'vimeo:group'
      _VALID_URL = r'(?:https?://)?vimeo\.com/groups/(?P<name>[^/]+)'
+    _TESTS = [{
+        'url': 'http://vimeo.com/groups/rolexawards',
+        'info_dict': {
+            'title': 'Rolex Awards for Enterprise',
+        },
+        'playlist_mincount': 73,
+    }]
  
      def _extract_list_title(self, webpage):
          return self._og_search_title(webpage)
@@ -459,8 +477,8 @@ class VimeoGroupsIE(VimeoAlbumIE):
  class VimeoReviewIE(InfoExtractor):
      IE_NAME = 'vimeo:review'
      IE_DESC = 'Review pages on vimeo'
-    _VALID_URL = r'(?:https?://)?vimeo\.com/[^/]+/review/(?P<id>[^/]+)'
-    _TEST = {
+    _VALID_URL = r'https?://vimeo\.com/[^/]+/review/(?P<id>[^/]+)'
+    _TESTS = [{
          'url': 'https://vimeo.com/user21297594/review/75524534/3c257a1b5d',
          'file': '75524534.mp4',
          'md5': 'c507a72f780cacc12b2248bb4006d253',
@@ -468,7 +486,19 @@ class VimeoReviewIE(InfoExtractor):
              'title': "DICK HARDWICK 'Comedian'",
              'uploader': 'Richard Hardwick',
          }
-    }
+    }, {
+        'note': 'video player needs Referer',
+        'url': 'http://vimeo.com/user22258446/review/91613211/13f927e053',
+        'md5': '6295fdab8f4bf6a002d058b2c6dce276',
+        'info_dict': {
+            'id': '91613211',
+            'ext': 'mp4',
+            'title': 'Death by dogma versus assembling agile - Sander Hoogendoorn',
+            'uploader': 'DevWeek Events',
+            'duration': 2773,
+            'thumbnail': 're:^https?://.*\.jpg$',
+        }
+    }]
  
      def _real_extract(self, url):
          mobj = re.match(self._VALID_URL, url)
@@ -483,6 +513,10 @@ class VimeoWatchLaterIE(VimeoBaseInfoExtractor, VimeoChannelIE):
      _VALID_URL = r'https?://vimeo\.com/home/watchlater|:vimeowatchlater'
      _LOGIN_REQUIRED = True
      _TITLE_RE = r'href="/home/watchlater".*?>(.*?)<'
+    _TESTS = [{
+        'url': 'http://vimeo.com/home/watchlater',
+        'only_matching': True,
+    }]
  
      def _real_initialize(self):
          self._login()
@@ -497,3 +531,58 @@ class VimeoWatchLaterIE(VimeoBaseInfoExtractor, VimeoChannelIE):
  
      def _real_extract(self, url):
          return self._extract_videos('watchlater', 'https://vimeo.com/home/watchlater')
+
+
+class VimeoLikesIE(InfoExtractor):
+    _VALID_URL = r'https?://(?:www\.)?vimeo\.com/user(?P<id>[0-9]+)/likes/?(?:$|[?#]|sort:)'
+    IE_NAME = 'vimeo:likes'
+    IE_DESC = 'Vimeo user likes'
+    _TEST = {
+        'url': 'https://vimeo.com/user755559/likes/',
+        'playlist_mincount': 293,
+        "info_dict": {
+            "description": "See all the videos urza likes",
+            "title": 'Videos urza likes',
+        },
+    }
+
+    def _real_extract(self, url):
+        user_id = self._match_id(url)
+        webpage = self._download_webpage(url, user_id)
+        page_count = self._int(
+            self._search_regex(
+                r'''(?x)<li><a\s+href="[^"]+"\s+data-page="([0-9]+)">
+                    .*?</a></li>\s*<li\s+class="pagination_next">
+                ''', webpage, 'page count'),
+            'page count', fatal=True)
+        PAGE_SIZE = 12
+        title = self._html_search_regex(
+            r'(?s)<h1>(.+?)</h1>', webpage, 'title', fatal=False)
+        description = self._html_search_meta('description', webpage)
+
+        def _get_page(idx):
+            page_url = '%s//vimeo.com/user%s/likes/page:%d/sort:date' % (
+                self.http_scheme(), user_id, idx + 1)
+            webpage = self._download_webpage(
+                page_url, user_id,
+                note='Downloading page %d/%d' % (idx + 1, page_count))
+            video_list = self._search_regex(
+                r'(?s)<ol class="js-browse_list[^"]+"[^>]*>(.*?)</ol>',
+                webpage, 'video content')
+            paths = re.findall(
+                r'<li[^>]*>\s*<a\s+href="([^"]+)"', video_list)
+            for path in paths:
+                yield {
+                    '_type': 'url',
+                    'url': compat_urlparse.urljoin(page_url, path),
+                }
+
+        pl = InAdvancePagedList(_get_page, page_count, PAGE_SIZE)
+
+        return {
+            '_type': 'playlist',
+            'id': 'user%s_likes' % user_id,
+            'title': title,
+            'description': description,
+            'entries': pl,
+        }