Issue webcompat#767: fixes normalize_url bug when url is missing slashes

daliacoss · daliacoss · commit 71ed381b7203 · 2016-03-05T13:09:57.000-07:00
diff --git a/tests/test_form.py b/tests/test_form.py
@@ -0,0 +1,36 @@
+#!/usr/bin/env python
+# -*- coding: utf-8 -*-
+
+'''Tests for form validation.'''
+
+import unittest
+from webcompat import form
+
+
+class TestForm(unittest.TestCase):
+
+    def test_normalize_url(self):
+
+        r = form.normalize_url('example.com')
+        self.assertEqual(r, 'http://example.com/')
+
+        r = form.normalize_url('http:/example.com')
+        self.assertEqual(r, 'http://example.com/')
+
+        r = form.normalize_url('https:/example.com')
+        self.assertEqual(r, 'https://example.com/')
+
+        r = form.normalize_url('http:example.com')
+        self.assertEqual(r, 'http://example.com/')
+
+        r = form.normalize_url('https:example.com')
+        self.assertEqual(r, 'https://example.com/')
+
+
+    def test_domain_name(self):
+        
+        r = form.domain_name("http://example.com")
+        self.assertEqual(r, "example.com")
+
+        r = form.domain_name("https://example.com")
+        self.assertEqual(r, "example.com")
diff --git a/webcompat/form.py b/webcompat/form.py
@@ -25,6 +25,7 @@
 AUTH_REPORT = 'github-auth-report'
 PROXY_REPORT = 'github-proxy-report'
 SCHEMES = ('http://', 'https://')
+BAD_SCHEMES = ('http:/', 'https:/', 'http:', 'https:')
 
 problem_choices = [
     (u'detection_bug', u'Desktop site instead of mobile site'),
@@ -118,9 +119,25 @@ def get_labels(browser_name):
 def normalize_url(url):
     '''normalize URL for consistency.'''
     url = url.strip()
-    if not url.startswith(SCHEMES):
+    parsed = urlparse.urlparse(url)
+
+    if url.startswith(BAD_SCHEMES):
+        # if url starts with a bad scheme, parsed.netloc will be empty,
+        # so we use parsed.path instead
+        path = parsed.path.lstrip('/')
+        url = '%s://%s' % (parsed.scheme, path)
+        if parsed.query:
+            url += '?' + parsed.query
+        if parsed.fragment:
+            url += '#' + parsed.fragment
+    elif not parsed.scheme:
         # We assume that http is missing not https
         url = 'http://%s' % (url)
+
+    # if url does not contain a path, ensure it has a trailing slash
+    if not urlparse.urlparse(url).path:
+        url += "/"
+
     return url