[youtube] Extract chapters from JSON (closes #24819)

[youtube-dl] / youtube_dl / extractor / facebook.py
diff --git a/youtube_dl/extractor/facebook.py b/youtube_dl/extractor/facebook.py

index a56f85c216177810e2ea217dd4309aee6a453b00..ce64e26831fdafceb97b6d8ae919c00a78f0f90f 100644 (file)
--- a/youtube_dl/extractor/facebook.py
+++ b/youtube_dl/extractor/facebook.py
@@ -334,7 +334,7 @@ class FacebookIE(InfoExtractor):
          if not video_data:
              server_js_data = self._parse_json(
                  self._search_regex(
-                    r'bigPipe\.onPageletArrive\(({.+?})\)\s*;\s*}\s*\)\s*,\s*["\']onPageletArrive\s+(?:stream_pagelet|pagelet_group_mall|permalink_video_pagelet)',
+                    r'bigPipe\.onPageletArrive\(({.+?})\)\s*;\s*}\s*\)\s*,\s*["\']onPageletArrive\s+(?:pagelet_group_mall|permalink_video_pagelet|hyperfeed_story_id_\d+)',
                      webpage, 'js data', default='{}'),
                  video_id, transform_source=js_to_json, fatal=False)
              video_data = extract_from_jsmods_instances(server_js_data)
@@ -379,6 +379,7 @@ class FacebookIE(InfoExtractor):
          if not video_data:
              raise ExtractorError('Cannot parse data')
  
+        subtitles = {}
          formats = []
          for f in video_data:
              format_id = f['stream_type']
@@ -402,6 +403,9 @@ class FacebookIE(InfoExtractor):
              if dash_manifest:
                  formats.extend(self._parse_mpd_formats(
                      compat_etree_fromstring(compat_urllib_parse_unquote_plus(dash_manifest))))
+            subtitles_src = f[0].get('subtitles_src')
+            if subtitles_src:
+                subtitles.setdefault('en', []).append({'url': subtitles_src})
          if not formats:
              raise ExtractorError('Cannot find video formats')
  
@@ -447,6 +451,7 @@ class FacebookIE(InfoExtractor):
              'timestamp': timestamp,
              'thumbnail': thumbnail,
              'view_count': view_count,
+            'subtitles': subtitles,
          }
  
          return webpage, info_dict