Merge branch 'shahid' of https://github.com/remitamine/youtube-dl into remitamine...

[youtube-dl] / youtube_dl / extractor / soundcloud.py
diff --git a/youtube_dl/extractor/soundcloud.py b/youtube_dl/extractor/soundcloud.py

index 54256e1a29f02ad75dfdf828e7b4819455294a14..6ce86cbcda9aeb2c8ebe0a8d2ce3063e67d9123c 100644 (file)
--- a/youtube_dl/extractor/soundcloud.py
+++ b/youtube_dl/extractor/soundcloud.py
@@ -5,11 +5,12 @@ import re
  import itertools
  
  from .common import InfoExtractor
-from ..utils import (
+from ..compat import (
      compat_str,
      compat_urlparse,
      compat_urllib_parse,
-
+)
+from ..utils import (
      ExtractorError,
      int_or_none,
      unified_strdate,
@@ -28,11 +29,11 @@ class SoundcloudIE(InfoExtractor):
      _VALID_URL = r'''(?x)^(?:https?://)?
                      (?:(?:(?:www\.|m\.)?soundcloud\.com/
                              (?P<uploader>[\w\d-]+)/
-                            (?!sets/|likes/?(?:$|[?#]))
+                            (?!(?:tracks|sets(?:/[^/?#]+)?|reposts|likes|spotlight)/?(?:$|[?#]))
                              (?P<title>[\w\d-]+)/?
                              (?P<token>[^?]+?)?(?:[?].*)?$)
                         |(?:api\.soundcloud\.com/tracks/(?P<track_id>\d+)
-                          (?:/?\?secret_token=(?P<secret_token>[^&]+?))?$)
+                          (?:/?\?secret_token=(?P<secret_token>[^&]+))?)
                         |(?P<player>(?:w|player|p.)\.soundcloud\.com/player/?.*?url=.*)
                      )
                      '''
@@ -159,7 +160,7 @@ class SoundcloudIE(InfoExtractor):
  
          # We have to retrieve the url
          streams_url = ('http://api.soundcloud.com/i1/tracks/{0}/streams?'
-            'client_id={1}&secret_token={2}'.format(track_id, self._IPHONE_CLIENT_ID, secret_token))
+                       'client_id={1}&secret_token={2}'.format(track_id, self._IPHONE_CLIENT_ID, secret_token))
          format_dict = self._download_json(
              streams_url,
              track_id, 'Downloading track url')
@@ -179,7 +180,7 @@ class SoundcloudIE(InfoExtractor):
                      'format_id': key,
                      'url': url,
                      'play_path': 'mp3:' + path,
-                    'ext': ext,
+                    'ext': 'flv',
                      'vcodec': 'none',
                  })
  
@@ -199,8 +200,9 @@ class SoundcloudIE(InfoExtractor):
                  if f['format_id'].startswith('rtmp'):
                      f['protocol'] = 'rtmp'
  
-            self._sort_formats(formats)
-            result['formats'] = formats
+        self._check_formats(formats, track_id)
+        self._sort_formats(formats)
+        result['formats'] = formats
  
          return result
  
@@ -219,19 +221,24 @@ class SoundcloudIE(InfoExtractor):
                  info_json_url += "&secret_token=" + token
          elif mobj.group('player'):
              query = compat_urlparse.parse_qs(compat_urlparse.urlparse(url).query)
-            return self.url_result(query['url'][0])
+            real_url = query['url'][0]
+            # If the token is in the query of the original url we have to
+            # manually add it
+            if 'secret_token' in query:
+                real_url += '?secret_token=' + query['secret_token'][0]
+            return self.url_result(real_url)
          else:
              # extract uploader (which is in the url)
              uploader = mobj.group('uploader')
              # extract simple title (uploader + slug of song title)
-            slug_title =  mobj.group('title')
+            slug_title = mobj.group('title')
              token = mobj.group('token')
              full_title = resolve_title = '%s/%s' % (uploader, slug_title)
              if token:
                  resolve_title += '/%s' % token
-    
+
              self.report_resolve(full_title)
-    
+
              url = 'http://soundcloud.com/%s' % resolve_title
              info_json_url = self._resolv_url(url)
          info = self._download_json(info_json_url, full_title, 'Downloading info JSON')
@@ -240,11 +247,12 @@ class SoundcloudIE(InfoExtractor):
  
  
  class SoundcloudSetIE(SoundcloudIE):
-    _VALID_URL = r'https?://(?:www\.)?soundcloud\.com/(?P<uploader>[\w\d-]+)/sets/(?P<slug_title>[\w\d-]+)(?:/(?P<token>[^?/]+))?'
+    _VALID_URL = r'https?://(?:(?:www|m)\.)?soundcloud\.com/(?P<uploader>[\w\d-]+)/sets/(?P<slug_title>[\w\d-]+)(?:/(?P<token>[^?/]+))?'
      IE_NAME = 'soundcloud:set'
      _TESTS = [{
          'url': 'https://soundcloud.com/the-concept-band/sets/the-royal-concept-ep',
          'info_dict': {
+            'id': '2284613',
              'title': 'The Royal Concept EP',
          },
          'playlist_mincount': 6,
@@ -271,70 +279,153 @@ class SoundcloudSetIE(SoundcloudIE):
          info = self._download_json(resolv_url, full_title)
  
          if 'errors' in info:
-            for err in info['errors']:
-                self._downloader.report_error('unable to download video webpage: %s' % compat_str(err['error_message']))
-            return
+            msgs = (compat_str(err['error_message']) for err in info['errors'])
+            raise ExtractorError('unable to download video webpage: %s' % ','.join(msgs))
+
+        entries = [self.url_result(track['permalink_url'], 'Soundcloud') for track in info['tracks']]
  
          return {
              '_type': 'playlist',
-            'entries': [self._extract_info_dict(track, secret_token=token) for track in info['tracks']],
-            'id': info['id'],
+            'entries': entries,
+            'id': '%s' % info['id'],
              'title': info['title'],
          }
  
  
  class SoundcloudUserIE(SoundcloudIE):
-    _VALID_URL = r'https?://(www\.)?soundcloud\.com/(?P<user>[^/]+)/?((?P<rsrc>tracks|likes)/?)?(\?.*)?$'
+    _VALID_URL = r'''(?x)
+                        https?://
+                            (?:(?:www|m)\.)?soundcloud\.com/
+                            (?P<user>[^/]+)
+                            (?:/
+                                (?P<rsrc>tracks|sets|reposts|likes|spotlight)
+                            )?
+                            /?(?:[?#].*)?$
+                    '''
      IE_NAME = 'soundcloud:user'
      _TESTS = [{
-        'url': 'https://soundcloud.com/the-concept-band',
+        'url': 'https://soundcloud.com/the-akashic-chronicler',
+        'info_dict': {
+            'id': '114582580',
+            'title': 'The Akashic Chronicler (All)',
+        },
+        'playlist_mincount': 112,
+    }, {
+        'url': 'https://soundcloud.com/the-akashic-chronicler/tracks',
+        'info_dict': {
+            'id': '114582580',
+            'title': 'The Akashic Chronicler (Tracks)',
+        },
+        'playlist_mincount': 50,
+    }, {
+        'url': 'https://soundcloud.com/the-akashic-chronicler/sets',
          'info_dict': {
-            'id': '9615865',
-            'title': 'The Royal Concept',
+            'id': '114582580',
+            'title': 'The Akashic Chronicler (Playlists)',
          },
-        'playlist_mincount': 12
+        'playlist_mincount': 3,
      }, {
-        'url': 'https://soundcloud.com/the-concept-band/likes',
+        'url': 'https://soundcloud.com/the-akashic-chronicler/reposts',
          'info_dict': {
-            'id': '9615865',
-            'title': 'The Royal Concept',
+            'id': '114582580',
+            'title': 'The Akashic Chronicler (Reposts)',
+        },
+        'playlist_mincount': 9,
+    }, {
+        'url': 'https://soundcloud.com/the-akashic-chronicler/likes',
+        'info_dict': {
+            'id': '114582580',
+            'title': 'The Akashic Chronicler (Likes)',
+        },
+        'playlist_mincount': 333,
+    }, {
+        'url': 'https://soundcloud.com/grynpyret/spotlight',
+        'info_dict': {
+            'id': '7098329',
+            'title': 'Grynpyret (Spotlight)',
          },
          'playlist_mincount': 1,
      }]
  
+    _API_BASE = 'https://api.soundcloud.com'
+    _API_V2_BASE = 'https://api-v2.soundcloud.com'
+
+    _BASE_URL_MAP = {
+        'all': '%s/profile/soundcloud:users:%%s' % _API_V2_BASE,
+        'tracks': '%s/users/%%s/tracks' % _API_BASE,
+        'sets': '%s/users/%%s/playlists' % _API_V2_BASE,
+        'reposts': '%s/profile/soundcloud:users:%%s/reposts' % _API_V2_BASE,
+        'likes': '%s/users/%%s/likes' % _API_V2_BASE,
+        'spotlight': '%s/users/%%s/spotlight' % _API_V2_BASE,
+    }
+
+    _TITLE_MAP = {
+        'all': 'All',
+        'tracks': 'Tracks',
+        'sets': 'Playlists',
+        'reposts': 'Reposts',
+        'likes': 'Likes',
+        'spotlight': 'Spotlight',
+    }
+
      def _real_extract(self, url):
          mobj = re.match(self._VALID_URL, url)
          uploader = mobj.group('user')
-        resource = mobj.group('rsrc')
-        if resource is None:
-            resource = 'tracks'
-        elif resource == 'likes':
-            resource = 'favorites'
  
          url = 'http://soundcloud.com/%s/' % uploader
          resolv_url = self._resolv_url(url)
          user = self._download_json(
              resolv_url, uploader, 'Downloading user info')
-        base_url = 'http://api.soundcloud.com/users/%s/%s.json?' % (uploader, resource)
+
+        resource = mobj.group('rsrc') or 'all'
+        base_url = self._BASE_URL_MAP[resource] % user['id']
+
+        next_href = None
  
          entries = []
          for i in itertools.count():
-            data = compat_urllib_parse.urlencode({
-                'offset': i * 50,
-                'limit': 50,
-                'client_id': self._CLIENT_ID,
-            })
-            new_entries = self._download_json(
-                base_url + data, uploader, 'Downloading track page %s' % (i + 1))
-            if len(new_entries) == 0:
+            if not next_href:
+                data = compat_urllib_parse.urlencode({
+                    'offset': i * 50,
+                    'limit': 50,
+                    'client_id': self._CLIENT_ID,
+                    'linked_partitioning': '1',
+                    'representation': 'speedy',
+                })
+                next_href = base_url + '?' + data
+
+            response = self._download_json(
+                next_href, uploader, 'Downloading track page %s' % (i + 1))
+
+            collection = response['collection']
+
+            if not collection:
                  self.to_screen('%s: End page received' % uploader)
                  break
-            entries.extend(self._extract_info_dict(e, quiet=True) for e in new_entries)
+
+            def resolve_permalink_url(candidates):
+                for cand in candidates:
+                    if isinstance(cand, dict):
+                        permalink_url = cand.get('permalink_url')
+                        if permalink_url and permalink_url.startswith('http'):
+                            return permalink_url
+
+            for e in collection:
+                permalink_url = resolve_permalink_url((e, e.get('track'), e.get('playlist')))
+                if permalink_url:
+                    entries.append(self.url_result(permalink_url))
+
+            if 'next_href' in response:
+                next_href = response['next_href']
+                if not next_href:
+                    break
+            else:
+                next_href = None
  
          return {
              '_type': 'playlist',
              'id': compat_str(user['id']),
-            'title': user['username'],
+            'title': '%s (%s)' % (user['username'], self._TITLE_MAP[resource]),
              'entries': entries,
          }
  
@@ -369,9 +460,7 @@ class SoundcloudPlaylistIE(SoundcloudIE):
          data = self._download_json(
              base_url + data, playlist_id, 'Downloading playlist')
  
-        entries = [
-            self._extract_info_dict(t, quiet=True, secret_token=token)
-                for t in data['tracks']]
+        entries = [self.url_result(track['permalink_url'], 'Soundcloud') for track in data['tracks']]
  
          return {
              '_type': 'playlist',