[youtube] Fix categories and improve tags extraction

[youtube-dl] / youtube_dl / extractor / youtube.py
diff --git a/youtube_dl/extractor/youtube.py b/youtube_dl/extractor/youtube.py

index 1ab429162e4c23dc72ea200e660805db55ab6bc9..53dccdf0bf793568d78f4291029092d6b216b7b9 100644 (file)
--- a/youtube_dl/extractor/youtube.py
+++ b/youtube_dl/extractor/youtube.py
@@ -1898,6 +1898,9 @@ class YoutubeIE(YoutubeBaseInfoExtractor):
          video_details = try_get(
              player_response, lambda x: x['videoDetails'], dict) or {}
  
+        microformat = try_get(
+            player_response, lambda x: x['microformat']['playerMicroformatRenderer'], dict) or {}
+
          video_title = video_info.get('title', [None])[0] or video_details.get('title')
          if not video_title:
              self._downloader.report_warning('Unable to extract video title')
@@ -1975,6 +1978,8 @@ class YoutubeIE(YoutubeBaseInfoExtractor):
              view_count = extract_view_count(video_info)
          if view_count is None and video_details:
              view_count = int_or_none(video_details.get('viewCount'))
+        if view_count is None and microformat:
+            view_count = int_or_none(microformat.get('viewCount'))
  
          if is_live is None:
              is_live = bool_or_none(video_details.get('isLive'))
@@ -2225,6 +2230,13 @@ class YoutubeIE(YoutubeBaseInfoExtractor):
          if mobj is not None:
              video_uploader_id = mobj.group('uploader_id')
              video_uploader_url = mobj.group('uploader_url')
+        else:
+            owner_profile_url = url_or_none(microformat.get('ownerProfileUrl'))
+            if owner_profile_url:
+                video_uploader_id = self._search_regex(
+                    r'(?:user|channel)/([^/]+)', owner_profile_url, 'uploader id',
+                    default=None)
+                video_uploader_url = owner_profile_url
  
          channel_id = (
              str_or_none(video_details.get('channelId'))
@@ -2271,6 +2283,8 @@ class YoutubeIE(YoutubeBaseInfoExtractor):
                  [r'(?s)id="eow-date.*?>(.*?)</span>',
                   r'(?:id="watch-uploader-info".*?>.*?|["\']simpleText["\']\s*:\s*["\'])(?:Published|Uploaded|Streamed live|Started) on (.+?)[<"\']'],
                  video_webpage, 'upload date', default=None)
+        if not upload_date:
+            upload_date = microformat.get('publishDate') or microformat.get('uploadDate')
          upload_date = unified_strdate(upload_date)
  
          video_license = self._html_search_regex(
@@ -2342,17 +2356,21 @@ class YoutubeIE(YoutubeBaseInfoExtractor):
          m_cat_container = self._search_regex(
              r'(?s)<h4[^>]*>\s*Category\s*</h4>\s*<ul[^>]*>(.*?)</ul>',
              video_webpage, 'categories', default=None)
+        category = None
          if m_cat_container:
              category = self._html_search_regex(
                  r'(?s)<a[^<]+>(.*?)</a>', m_cat_container, 'category',
                  default=None)
-            video_categories = None if category is None else [category]
-        else:
-            video_categories = None
+        if not category:
+            category = try_get(
+                microformat, lambda x: x['category'], compat_str)
+        video_categories = None if category is None else [category]
  
          video_tags = [
              unescapeHTML(m.group('content'))
              for m in re.finditer(self._meta_regex('og:video:tag'), video_webpage)]
+        if not video_tags:
+            video_tags = try_get(video_details, lambda x: x['keywords'], list)
  
          def _extract_count(count_name):
              return str_to_int(self._search_regex(