[dailymotion] Add an extractor for Dailymotion playlists

author Jaime Marquínez Ferrándiz <jaime.marquinez.ferrandiz@gmail.com>

Mon, 29 Jul 2013 10:07:38 +0000 (12:07 +0200)

committer Jaime Marquínez Ferrándiz <jaime.marquinez.ferrandiz@gmail.com>

Mon, 29 Jul 2013 10:07:38 +0000 (12:07 +0200)
author Jaime Marquínez Ferrándiz <jaime.marquinez.ferrandiz@gmail.com>
Mon, 29 Jul 2013 10:07:38 +0000 (12:07 +0200)
committer Jaime Marquínez Ferrándiz <jaime.marquinez.ferrandiz@gmail.com>
Mon, 29 Jul 2013 10:07:38 +0000 (12:07 +0200)
diff --git a/test/test_playlists.py b/test/test_playlists.py

new file mode 100644 (file)

index 0000000..f8cc75a
--- /dev/null
+++ b/test/test_playlists.py
@@ -0,0 +1,30 @@
+#!/usr/bin/env python
+
+import sys
+import unittest
+import json
+
+# Allow direct execution
+import os
+sys.path.append(os.path.dirname(os.path.dirname(os.path.abspath(__file__))))
+
+from youtube_dl.extractor import DailymotionPlaylistIE
+from youtube_dl.utils import *
+
+from helper import FakeYDL
+
+class TestPlaylists(unittest.TestCase):
+    def assertIsPlaylist(self, info):
+        """Make sure the info has '_type' set to 'playlist'"""
+        self.assertEqual(info['_type'], 'playlist')
+
+    def test_dailymotion_playlist(self):
+        dl = FakeYDL()
+        ie = DailymotionPlaylistIE(dl)
+        result = ie.extract('http://www.dailymotion.com/playlist/xv4bw_nqtv_sport/1#video=xl8v3q')
+        self.assertIsPlaylist(result)
+        self.assertEqual(result['title'], u'SPORT')
+        self.assertTrue(len(result['entries']) > 20)
+
+if __name__ == '__main__':
+    unittest.main()
diff --git a/youtube_dl/extractor/__init__.py b/youtube_dl/extractor/__init__.py

index 7cfb292d96199516a5f88f02e111601f5b1896af..063a3d0658fa66536fe43ff3e872567c0e9a6031 100644 (file)
--- a/youtube_dl/extractor/__init__.py
+++ b/youtube_dl/extractor/__init__.py
@@ -12,7 +12,7 @@ from .comedycentral import ComedyCentralIE
  from .condenast import CondeNastIE
  from .criterion import CriterionIE
  from .cspan import CSpanIE
  from .condenast import CondeNastIE
  from .criterion import CriterionIE
  from .cspan import CSpanIE
-from .dailymotion import DailymotionIE
+from .dailymotion import DailymotionIE, DailymotionPlaylistIE
  from .depositfiles import DepositFilesIE
  from .dotsub import DotsubIE
  from .dreisat import DreiSatIE
  from .depositfiles import DepositFilesIE
  from .dotsub import DotsubIE
  from .dreisat import DreiSatIE
diff --git a/youtube_dl/extractor/dailymotion.py b/youtube_dl/extractor/dailymotion.py

index 9bf7a28ca83248ac61d3cc64d98058568b98dde6..fa8c630d053168bf30d835952debd67536555c0c 100644 (file)
--- a/youtube_dl/extractor/dailymotion.py
+++ b/youtube_dl/extractor/dailymotion.py
@@ -1,9 +1,12 @@
  import re
  import json
  import re
  import json
+import itertools
  
  from .common import InfoExtractor
  from ..utils import (
      compat_urllib_request,
  
  from .common import InfoExtractor
  from ..utils import (
      compat_urllib_request,
+    get_element_by_attribute,
+    get_element_by_id,
  
      ExtractorError,
  )
  
      ExtractorError,
  )
@@ -77,3 +80,31 @@ class DailymotionIE(InfoExtractor):
              'ext':      video_extension,
              'thumbnail': info['thumbnail_url']
          }]
              'ext':      video_extension,
              'thumbnail': info['thumbnail_url']
          }]
+
+
+class DailymotionPlaylistIE(InfoExtractor):
+    _VALID_URL = r'(?:https?://)?(?:www\.)?dailymotion\.[a-z]{2,3}/playlist/(?P<id>.+?)/'
+    _MORE_PAGES_INDICATOR = r'<div class="next">.*?<a.*?href="/playlist/.+?".*?>.*?</a>.*?</div>'
+
+    def _real_extract(self, url):
+        mobj = re.match(self._VALID_URL, url)
+        playlist_id =  mobj.group('id')
+        video_ids = []
+
+        for pagenum in itertools.count(1):
+            webpage = self._download_webpage('https://www.dailymotion.com/playlist/%s/%s' % (playlist_id, pagenum),
+                                             playlist_id, u'Downloading page %s' % pagenum)
+
+            playlist_el = get_element_by_attribute(u'class', u'video_list', webpage)
+            video_ids.extend(re.findall(r'data-id="(.+?)" data-ext-id', playlist_el))
+
+            if re.search(self._MORE_PAGES_INDICATOR, webpage, re.DOTALL) is None:
+                break
+
+        entries = [self.url_result('http://www.dailymotion.com/video/%s' % video_id, 'Dailymotion')
+                   for video_id in video_ids]
+        return {'_type': 'playlist',
+                'id': playlist_id,
+                'title': get_element_by_id(u'playlist_name', webpage),
+                'entries': entries,
+                }
author	Jaime Marquínez Ferrándiz <jaime.marquinez.ferrandiz@gmail.com>
	Mon, 29 Jul 2013 10:07:38 +0000 (12:07 +0200)
committer	Jaime Marquínez Ferrándiz <jaime.marquinez.ferrandiz@gmail.com>
	Mon, 29 Jul 2013 10:07:38 +0000 (12:07 +0200)
test/test_playlists.py	[new file with mode: 0644]	patch \| blob
youtube_dl/extractor/__init__.py		patch \| blob \| history
youtube_dl/extractor/dailymotion.py		patch \| blob \| history