[pornhub] Fix view count extraction (#26621) (refs #26614)

[youtube-dl] / youtube_dl / extractor / pornhub.py
diff --git a/youtube_dl/extractor/pornhub.py b/youtube_dl/extractor/pornhub.py

index 75ed69cde3db4c4116be3089f77f8f43f3205271..c64c870dc8edbf33121b592d7e424399132503eb 100644 (file)
--- a/youtube_dl/extractor/pornhub.py
+++ b/youtube_dl/extractor/pornhub.py
@@ -17,6 +17,7 @@ from ..utils import (
      determine_ext,
      ExtractorError,
      int_or_none,
+    NO_DEFAULT,
      orderedSet,
      remove_quotes,
      str_to_int,
@@ -51,7 +52,7 @@ class PornHubIE(PornHubBaseIE):
      _VALID_URL = r'''(?x)
                      https?://
                          (?:
-                            (?:[^/]+\.)?(?P<host>pornhub\.(?:com|net))/(?:(?:view_video\.php|video/show)\?viewkey=|embed/)|
+                            (?:[^/]+\.)?(?P<host>pornhub(?:premium)?\.(?:com|net))/(?:(?:view_video\.php|video/show)\?viewkey=|embed/)|
                              (?:www\.)?thumbzilla\.com/video/
                          )
                          (?P<id>[\da-z]+)
@@ -148,6 +149,9 @@ class PornHubIE(PornHubBaseIE):
      }, {
          'url': 'https://www.pornhub.net/view_video.php?viewkey=203640933',
          'only_matching': True,
+    }, {
+        'url': 'https://www.pornhubpremium.com/view_video.php?viewkey=ph5e4acdae54a82',
+        'only_matching': True,
      }]
  
      @staticmethod
@@ -165,6 +169,13 @@ class PornHubIE(PornHubBaseIE):
          host = mobj.group('host') or 'pornhub.com'
          video_id = mobj.group('id')
  
+        if 'premium' in host:
+            if not self._downloader.params.get('cookiefile'):
+                raise ExtractorError(
+                    'PornHub Premium requires authentication.'
+                    ' You may want to use --cookies.',
+                    expected=True)
+
          self._set_cookie(host, 'age_verified', '1')
  
          def dl_webpage(platform):
@@ -188,10 +199,10 @@ class PornHubIE(PornHubBaseIE):
          # http://www.pornhub.com/view_video.php?viewkey=1331683002), not relying
          # on that anymore.
          title = self._html_search_meta(
-            'twitter:title', webpage, default=None) or self._search_regex(
-            (r'<h1[^>]+class=["\']title["\'][^>]*>(?P<title>[^<]+)',
-             r'<div[^>]+data-video-title=(["\'])(?P<title>.+?)\1',
-             r'shareTitle\s*=\s*(["\'])(?P<title>.+?)\1'),
+            'twitter:title', webpage, default=None) or self._html_search_regex(
+            (r'(?s)<h1[^>]+class=["\']title["\'][^>]*>(?P<title>.+?)</h1>',
+             r'<div[^>]+data-video-title=(["\'])(?P<title>(?:(?!\1).)+)\1',
+             r'shareTitle["\']\s*[=:]\s*(["\'])(?P<title>(?:(?!\1).)+)\1'),
              webpage, 'title', group='title')
  
          video_urls = []
@@ -227,9 +238,9 @@ class PornHubIE(PornHubBaseIE):
          else:
              thumbnail, duration = [None] * 2
  
-        def extract_js_vars(webpage, pattern, fatal=True):
+        def extract_js_vars(webpage, pattern, default=NO_DEFAULT):
              assignments = self._search_regex(
-                pattern, webpage, 'encoded url', fatal=fatal)
+                pattern, webpage, 'encoded url', default=default)
              if not assignments:
                  return {}
  
@@ -270,11 +281,15 @@ class PornHubIE(PornHubBaseIE):
              FORMAT_PREFIXES = ('media', 'quality')
              js_vars = extract_js_vars(
                  webpage, r'(var\s+(?:%s)_.+)' % '|'.join(FORMAT_PREFIXES),
-                fatal=False)
+                default=None)
              if js_vars:
                  for key, format_url in js_vars.items():
                      if any(key.startswith(p) for p in FORMAT_PREFIXES):
                          add_video_url(format_url)
+            if not video_urls and re.search(
+                    r'<[^>]+\bid=["\']lockedPlayer', webpage):
+                raise ExtractorError(
+                    'Video %s is locked' % video_id, expected=True)
  
          if not video_urls:
              js_vars = extract_js_vars(
@@ -326,7 +341,7 @@ class PornHubIE(PornHubBaseIE):
              webpage, 'uploader', fatal=False)
  
          view_count = self._extract_count(
-            r'<span class="count">([\d,\.]+)</span> views', webpage, 'view')
+            r'<span class="count">([\d,\.]+)</span> [Vv]iews', webpage, 'view')
          like_count = self._extract_count(
              r'<span class="votesUp">([\d,\.]+)</span>', webpage, 'like')
          dislike_count = self._extract_count(
@@ -400,7 +415,7 @@ class PornHubPlaylistBaseIE(PornHubBaseIE):
  
  
  class PornHubUserIE(PornHubPlaylistBaseIE):
-    _VALID_URL = r'(?P<url>https?://(?:[^/]+\.)?pornhub\.(?:com|net)/(?:(?:user|channel)s|model|pornstar)/(?P<id>[^/?#&]+))(?:[?#&]|/(?!videos)|$)'
+    _VALID_URL = r'(?P<url>https?://(?:[^/]+\.)?(?P<host>pornhub(?:premium)?\.(?:com|net))/(?:(?:user|channel)s|model|pornstar)/(?P<id>[^/?#&]+))(?:[?#&]|/(?!videos)|$)'
      _TESTS = [{
          'url': 'https://www.pornhub.com/model/zoe_ph',
          'playlist_mincount': 118,
@@ -468,7 +483,7 @@ class PornHubPagedPlaylistBaseIE(PornHubPlaylistBaseIE):
  
  
  class PornHubPagedVideoListIE(PornHubPagedPlaylistBaseIE):
-    _VALID_URL = r'https?://(?:[^/]+\.)?(?P<host>pornhub\.(?:com|net))/(?P<id>(?:[^/]+/)*[^/?#&]+)'
+    _VALID_URL = r'https?://(?:[^/]+\.)?(?P<host>pornhub(?:premium)?\.(?:com|net))/(?P<id>(?:[^/]+/)*[^/?#&]+)'
      _TESTS = [{
          'url': 'https://www.pornhub.com/model/zoe_ph/videos',
          'only_matching': True,
@@ -583,7 +598,7 @@ class PornHubPagedVideoListIE(PornHubPagedPlaylistBaseIE):
  
  
  class PornHubUserVideosUploadIE(PornHubPagedPlaylistBaseIE):
-    _VALID_URL = r'(?P<url>https?://(?:[^/]+\.)?(?P<host>pornhub\.(?:com|net))/(?:(?:user|channel)s|model|pornstar)/(?P<id>[^/]+)/videos/upload)'
+    _VALID_URL = r'(?P<url>https?://(?:[^/]+\.)?(?P<host>pornhub(?:premium)?\.(?:com|net))/(?:(?:user|channel)s|model|pornstar)/(?P<id>[^/]+)/videos/upload)'
      _TESTS = [{
          'url': 'https://www.pornhub.com/pornstar/jenny-blighe/videos/upload',
          'info_dict': {