[cnn] Match more URLs

[youtube-dl] / youtube_dl / extractor / soundcloud.py
diff --git a/youtube_dl/extractor/soundcloud.py b/youtube_dl/extractor/soundcloud.py

index 129f587ecb81d8c5dee324ef3b307ed06f8b2f8e..9d45059723c3450a0774275ad708eed88b6e0fcb 100644 (file)
--- a/youtube_dl/extractor/soundcloud.py
+++ b/youtube_dl/extractor/soundcloud.py
@@ -5,11 +5,12 @@ import re
  import itertools
  
  from .common import InfoExtractor
-from ..utils import (
+from ..compat import (
      compat_str,
      compat_urlparse,
      compat_urllib_parse,
-
+)
+from ..utils import (
      ExtractorError,
      int_or_none,
      unified_strdate,
@@ -32,7 +33,7 @@ class SoundcloudIE(InfoExtractor):
                              (?P<title>[\w\d-]+)/?
                              (?P<token>[^?]+?)?(?:[?].*)?$)
                         |(?:api\.soundcloud\.com/tracks/(?P<track_id>\d+)
-                          (?:/?\?secret_token=(?P<secret_token>[^&]+?))?$)
+                          (?:/?\?secret_token=(?P<secret_token>[^&]+))?)
                         |(?P<player>(?:w|player|p.)\.soundcloud\.com/player/?.*?url=.*)
                      )
                      '''
@@ -40,14 +41,15 @@ class SoundcloudIE(InfoExtractor):
      _TESTS = [
          {
              'url': 'http://soundcloud.com/ethmusic/lostin-powers-she-so-heavy',
-            'file': '62986583.mp3',
              'md5': 'ebef0a451b909710ed1d7787dddbf0d7',
              'info_dict': {
-                "upload_date": "20121011",
-                "description": "No Downloads untill we record the finished version this weekend, i was too pumped n i had to post it , earl is prolly gonna b hella p.o'd",
-                "uploader": "E.T. ExTerrestrial Music",
-                "title": "Lostin Powers - She so Heavy (SneakPreview) Adrian Ackers Blueprint 1",
-                "duration": 143,
+                'id': '62986583',
+                'ext': 'mp3',
+                'upload_date': '20121011',
+                'description': 'No Downloads untill we record the finished version this weekend, i was too pumped n i had to post it , earl is prolly gonna b hella p.o\'d',
+                'uploader': 'E.T. ExTerrestrial Music',
+                'title': 'Lostin Powers - She so Heavy (SneakPreview) Adrian Ackers Blueprint 1',
+                'duration': 143,
              }
          },
          # not streamable song
@@ -103,7 +105,7 @@ class SoundcloudIE(InfoExtractor):
                  'id': '128590877',
                  'ext': 'mp3',
                  'title': 'Bus Brakes',
-                'description': 'md5:0170be75dd395c96025d210d261c784e',
+                'description': 'md5:0053ca6396e8d2fd7b7e1595ef12ab66',
                  'uploader': 'oddsamples',
                  'upload_date': '20140109',
                  'duration': 17,
@@ -140,6 +142,7 @@ class SoundcloudIE(InfoExtractor):
              'description': info['description'],
              'thumbnail': thumbnail,
              'duration': int_or_none(info.get('duration'), 1000),
+            'webpage_url': info.get('permalink_url'),
          }
          formats = []
          if info.get('downloadable', False):
@@ -157,7 +160,7 @@ class SoundcloudIE(InfoExtractor):
  
          # We have to retrieve the url
          streams_url = ('http://api.soundcloud.com/i1/tracks/{0}/streams?'
-            'client_id={1}&secret_token={2}'.format(track_id, self._IPHONE_CLIENT_ID, secret_token))
+                       'client_id={1}&secret_token={2}'.format(track_id, self._IPHONE_CLIENT_ID, secret_token))
          format_dict = self._download_json(
              streams_url,
              track_id, 'Downloading track url')
@@ -177,7 +180,7 @@ class SoundcloudIE(InfoExtractor):
                      'format_id': key,
                      'url': url,
                      'play_path': 'mp3:' + path,
-                    'ext': ext,
+                    'ext': 'flv',
                      'vcodec': 'none',
                  })
  
@@ -197,8 +200,9 @@ class SoundcloudIE(InfoExtractor):
                  if f['format_id'].startswith('rtmp'):
                      f['protocol'] = 'rtmp'
  
-            self._sort_formats(formats)
-            result['formats'] = formats
+        self._check_formats(formats, track_id)
+        self._sort_formats(formats)
+        result['formats'] = formats
  
          return result
  
@@ -222,14 +226,14 @@ class SoundcloudIE(InfoExtractor):
              # extract uploader (which is in the url)
              uploader = mobj.group('uploader')
              # extract simple title (uploader + slug of song title)
-            slug_title =  mobj.group('title')
+            slug_title = mobj.group('title')
              token = mobj.group('token')
              full_title = resolve_title = '%s/%s' % (uploader, slug_title)
              if token:
                  resolve_title += '/%s' % token
-    
+
              self.report_resolve(full_title)
-    
+
              url = 'http://soundcloud.com/%s' % resolve_title
              info_json_url = self._resolv_url(url)
          info = self._download_json(info_json_url, full_title, 'Downloading info JSON')
@@ -238,11 +242,12 @@ class SoundcloudIE(InfoExtractor):
  
  
  class SoundcloudSetIE(SoundcloudIE):
-    _VALID_URL = r'https?://(?:www\.)?soundcloud\.com/([\w\d-]+)/sets/([\w\d-]+)'
+    _VALID_URL = r'https?://(?:www\.)?soundcloud\.com/(?P<uploader>[\w\d-]+)/sets/(?P<slug_title>[\w\d-]+)(?:/(?P<token>[^?/]+))?'
      IE_NAME = 'soundcloud:set'
      _TESTS = [{
          'url': 'https://soundcloud.com/the-concept-band/sets/the-royal-concept-ep',
          'info_dict': {
+            'id': '2284613',
              'title': 'The Royal Concept EP',
          },
          'playlist_mincount': 6,
@@ -252,14 +257,19 @@ class SoundcloudSetIE(SoundcloudIE):
          mobj = re.match(self._VALID_URL, url)
  
          # extract uploader (which is in the url)
-        uploader = mobj.group(1)
+        uploader = mobj.group('uploader')
          # extract simple title (uploader + slug of song title)
-        slug_title = mobj.group(2)
+        slug_title = mobj.group('slug_title')
          full_title = '%s/sets/%s' % (uploader, slug_title)
+        url = 'http://soundcloud.com/%s/sets/%s' % (uploader, slug_title)
+
+        token = mobj.group('token')
+        if token:
+            full_title += '/' + token
+            url += '/' + token
  
          self.report_resolve(full_title)
  
-        url = 'http://soundcloud.com/%s/sets/%s' % (uploader, slug_title)
          resolv_url = self._resolv_url(url)
          info = self._download_json(resolv_url, full_title)
  
@@ -270,8 +280,8 @@ class SoundcloudSetIE(SoundcloudIE):
  
          return {
              '_type': 'playlist',
-            'entries': [self._extract_info_dict(track) for track in info['tracks']],
-            'id': info['id'],
+            'entries': [self._extract_info_dict(track, secret_token=token) for track in info['tracks']],
+            'id': '%s' % info['id'],
              'title': info['title'],
          }
  
@@ -333,34 +343,38 @@ class SoundcloudUserIE(SoundcloudIE):
  
  
  class SoundcloudPlaylistIE(SoundcloudIE):
-    _VALID_URL = r'https?://api\.soundcloud\.com/playlists/(?P<id>[0-9]+)'
+    _VALID_URL = r'https?://api\.soundcloud\.com/playlists/(?P<id>[0-9]+)(?:/?\?secret_token=(?P<token>[^&]+?))?$'
      IE_NAME = 'soundcloud:playlist'
-    _TESTS = [
-
-        {
-            'url': 'http://api.soundcloud.com/playlists/4110309',
-            'info_dict': {
-                'id': '4110309',
-                'title': 'TILT Brass - Bowery Poetry Club, August \'03 [Non-Site SCR 02]',
-                'description': 're:.*?TILT Brass - Bowery Poetry Club',
-            },
-            'playlist_count': 6,
-        }
-    ]
+    _TESTS = [{
+        'url': 'http://api.soundcloud.com/playlists/4110309',
+        'info_dict': {
+            'id': '4110309',
+            'title': 'TILT Brass - Bowery Poetry Club, August \'03 [Non-Site SCR 02]',
+            'description': 're:.*?TILT Brass - Bowery Poetry Club',
+        },
+        'playlist_count': 6,
+    }]
  
      def _real_extract(self, url):
          mobj = re.match(self._VALID_URL, url)
          playlist_id = mobj.group('id')
          base_url = '%s//api.soundcloud.com/playlists/%s.json?' % (self.http_scheme(), playlist_id)
  
-        data = compat_urllib_parse.urlencode({
+        data_dict = {
              'client_id': self._CLIENT_ID,
-        })
+        }
+        token = mobj.group('token')
+
+        if token:
+            data_dict['secret_token'] = token
+
+        data = compat_urllib_parse.urlencode(data_dict)
          data = self._download_json(
              base_url + data, playlist_id, 'Downloading playlist')
  
          entries = [
-            self._extract_info_dict(t, quiet=True) for t in data['tracks']]
+            self._extract_info_dict(t, quiet=True, secret_token=token)
+            for t in data['tracks']]
  
          return {
              '_type': 'playlist',