[youtube] Fix extraction.
[youtube-dl] / youtube_dl / extractor / fivetv.py
index e47383b39ed16be8ded3299b0486d6da9c2728ad..c4c0f1b3d1451a6779c53e53071e701d225f9bac 100644 (file)
@@ -1,67 +1,91 @@
 # coding: utf-8
 from __future__ import unicode_literals
 
+import re
+
 from .common import InfoExtractor
-from ..utils import (
-    int_or_none,
-)
+from ..utils import int_or_none
 
 
 class FiveTVIE(InfoExtractor):
-    _VALID_URL = r'http://(?:www\.)?5-tv\.ru/[^/]*/(?P<id>\d+)'
-    _TESTS = [
-        {
-            'url': 'http://5-tv.ru/news/96814/',
-            'md5': 'bbff554ad415ecf5416a2f48c22d9283',
-            'info_dict': {
-                'id': '96814',
-                'ext': 'mp4',
-                'title': 'Россияне выбрали имя для общенациональной платежной системы',
-                'description': 'md5:a8aa13e2b7ad36789e9f77a74b6de660',
-                'thumbnail': 're:^https?://.*\.jpg$',
-                'width': 480,
-                'height': 360,
-                'duration': 180,
-            },
+    _VALID_URL = r'''(?x)
+                    https?://
+                        (?:www\.)?5-tv\.ru/
+                        (?:
+                            (?:[^/]+/)+(?P<id>\d+)|
+                            (?P<path>[^/?#]+)(?:[/?#])?
+                        )
+                    '''
+
+    _TESTS = [{
+        'url': 'http://5-tv.ru/news/96814/',
+        'md5': 'bbff554ad415ecf5416a2f48c22d9283',
+        'info_dict': {
+            'id': '96814',
+            'ext': 'mp4',
+            'title': 'Россияне выбрали имя для общенациональной платежной системы',
+            'description': 'md5:a8aa13e2b7ad36789e9f77a74b6de660',
+            'thumbnail': r're:^https?://.*\.jpg$',
+            'duration': 180,
         },
-        {
-            'url': 'http://5-tv.ru/video/1021729/',
-            'md5': '299c8b72960efc9990acd2c784dc2296',
-            'info_dict': {
-                'id': '1021729',
-                'ext': 'mp4',
-                'title': '3D принтер',
-                'description': 'md5:d76c736d29ef7ec5c0cf7d7c65ffcb41',
-                'thumbnail': 're:^https?://.*\.jpg$',
-                'width': 480,
-                'height': 360,
-                'duration': 180,
-            },
+    }, {
+        'url': 'http://5-tv.ru/video/1021729/',
+        'info_dict': {
+            'id': '1021729',
+            'ext': 'mp4',
+            'title': '3D принтер',
+            'description': 'md5:d76c736d29ef7ec5c0cf7d7c65ffcb41',
+            'thumbnail': r're:^https?://.*\.jpg$',
+            'duration': 180,
         },
-    ]
+    }, {
+        # redirect to https://www.5-tv.ru/projects/1000095/izvestia-glavnoe/
+        'url': 'http://www.5-tv.ru/glavnoe/#itemDetails',
+        'info_dict': {
+            'id': 'glavnoe',
+            'ext': 'mp4',
+            'title': r're:^Итоги недели с \d+ по \d+ \w+ \d{4} года$',
+            'thumbnail': r're:^https?://.*\.jpg$',
+        },
+        'skip': 'redirect to «Известия. Главное» project page',
+    }, {
+        'url': 'http://www.5-tv.ru/glavnoe/broadcasts/508645/',
+        'only_matching': True,
+    }, {
+        'url': 'http://5-tv.ru/films/1507502/',
+        'only_matching': True,
+    }, {
+        'url': 'http://5-tv.ru/programs/broadcast/508713/',
+        'only_matching': True,
+    }, {
+        'url': 'http://5-tv.ru/angel/',
+        'only_matching': True,
+    }, {
+        'url': 'http://www.5-tv.ru/schedule/?iframe=true&width=900&height=450',
+        'only_matching': True,
+    }]
 
     def _real_extract(self, url):
-        video_id = self._match_id(url)
+        mobj = re.match(self._VALID_URL, url)
+        video_id = mobj.group('id') or mobj.group('path')
 
         webpage = self._download_webpage(url, video_id)
 
-        video_link = self._search_regex(
-            r'(<a.*?class="videoplayer">)', webpage, 'video link')
+        video_url = self._search_regex(
+            [r'<div[^>]+?class="(?:flow)?player[^>]+?data-href="([^"]+)"',
+             r'<a[^>]+?href="([^"]+)"[^>]+?class="videoplayer"'],
+            webpage, 'video url')
 
-        url = self._search_regex(r'href="([^"]+)"', video_link, 'video url')
-        width = int_or_none(self._search_regex(
-            r'width:(\d+)px', video_link, 'width', default=None, fatal=False))
-        height = int_or_none(self._search_regex(
-            r'height:(\d+)px', video_link, 'height', default=None, fatal=False))
+        title = self._og_search_title(webpage, default=None) or self._search_regex(
+            r'<title>([^<]+)</title>', webpage, 'title')
         duration = int_or_none(self._og_search_property(
-            'video:duration', webpage, 'duration'))
+            'video:duration', webpage, 'duration', default=None))
+
         return {
             'id': video_id,
-            'url': url,
-            'width': width,
-            'height': height,
-            'title': self._og_search_title(webpage),
-            'description': self._og_search_description(webpage),
-            'thumbnail': self._og_search_thumbnail(webpage),
+            'url': video_url,
+            'title': title,
+            'description': self._og_search_description(webpage, default=None),
+            'thumbnail': self._og_search_thumbnail(webpage, default=None),
             'duration': duration,
         }