[extractor/common] Relax JSON-LD context check (closes #16006)

[youtube-dl] / youtube_dl / extractor / common.py
diff --git a/youtube_dl/extractor/common.py b/youtube_dl/extractor/common.py

index 2e2a02948d1ad66753cb23729ce7fcf74d983556..59b9d373951331ef5c02bb6ed80d0f28bfaf4c8f 100644 (file)
--- a/youtube_dl/extractor/common.py
+++ b/youtube_dl/extractor/common.py
@@ -1025,7 +1025,7 @@ class InfoExtractor(object):
              })
  
          for e in json_ld:
-            if e.get('@context') == 'http://schema.org':
+            if isinstance(e.get('@context'), compat_str) and re.match(r'^https?://schema.org/?$', e.get('@context')):
                  item_type = e.get('@type')
                  if expected_type is not None and expected_type != item_type:
                      return info
@@ -2150,8 +2150,8 @@ class InfoExtractor(object):
          return formats
  
      def _parse_html5_media_entries(self, base_url, webpage, video_id, m3u8_id=None, m3u8_entry_protocol='m3u8', mpd_id=None, preference=None):
-        def absolute_url(video_url):
-            return compat_urlparse.urljoin(base_url, video_url)
+        def absolute_url(item_url):
+            return urljoin(base_url, item_url)
  
          def parse_content_type(content_type):
              if not content_type:
@@ -2208,7 +2208,7 @@ class InfoExtractor(object):
              if src:
                  _, formats = _media_formats(src, media_type)
                  media_info['formats'].extend(formats)
-            media_info['thumbnail'] = media_attributes.get('poster')
+            media_info['thumbnail'] = absolute_url(media_attributes.get('poster'))
              if media_content:
                  for source_tag in re.findall(r'<source[^>]+>', media_content):
                      source_attributes = extract_attributes(source_tag)