WEB安全第四课对web的分析之一切从URL开始

小执念 · 2016-5-22 16:37

最易辨识的Web标志就是URL(Uniform Resource Locator，统一资源定位器）了，它由一串很简单的文本字符组成。一条格式正确且符合规范的URL必然对应着远程服务器上某个独一无二的资源（在这个解析的过程中，还需要实现另外一些相关的功能）。URL语法规范是浏览器地址栏的基础，而地址栏中的信息正是每个浏览器用户界面中最重要的安全标识。

WEB安全第四课对web的分析之一切从URL开始 url_istock_nicozorn_thumb800.jpg

      除了内容检索时用到的真正的URL，还有几种语法与之相类似，但用于浏览器端功能的伪URL，这些功能包括内置的脚本引擎、几种特别的文档渲染模式及诸如此类的功能。所以毫无疑问，这些伪URL对应的动作对链接了它们的站点有重大安全影响。

      搞清楚浏览器对URL的解析机制以及它们带来的副作用，是我们和Web应用都需要面对的最基础且最常见的安全问题，同时URL机制自身也是错漏百出。URL的语法是由TimBemers-Lee制定的。在Web里的实际运用请参见RFC1738、2616以及若干相对次要的标准文档。这些文档都非常详细，这导致URL的解析模式相当复杂，但它们又未能足够精确地描述出在客户端软件里需要怎样实现URL机制才能做到既兼容又准确。此外，各家软件开发商出于各自的考虑，都会稍许偏离这些规范。让我们来仔细看一下貌似简单的URL在实际环境中是如何工作的。

      1.URL的结构

      下图显示的是一个符合规范的绝对（absolute)URL，它包括了访问某特定资源所需要的全部信息，绝对URL和访问时的状态完全无关。与之相对应的是省略了部分信息的相对（relative)URL，如../file.php?text=hello+world，它需要根据当前浏览所在上下文环境里的基准URL，才能确定完整的URL地址。

WEB安全第四课对web的分析之一切从URL开始 QQ截图20160522130403.png

      绝对URL的各个部分看起来都还算一目了然，但每个部分都有一些值得注意的问题，让我们来回顾一下吧。

      2.协议名称

      协议名称由一串不区分大小写的字符串组成，以单个冒号结束，表明获取该资源时需要使用的协议。官方认可的有效URL协议统一由IANA(Internet Assigned Numbers Authority，互联网数字分配机构）维护，该机构更广为人知的功能是管理IP地址空间。IANA当前的有效协议名包括http:、https:和ftp:等几十项，而实际上，常用浏览器和第三方应用往往还支持若干额外的协议，其中一些还会带来安全问题。（特别值得关注的是几种伪URL，如data:和javascript:，在后续内容里会有详细的讨论。）

      在浏览器和Web应用要做进一步解析之前，它们还得先区分要处理的是完整的绝对URL还是相对URU在URL地址的最前面是否包含有效的协议名称原本是最关键的区别，RFC1738里是这么定义的：绝对URL应遵守以下规定，在冒号“之前，只能出现字母数字和“+”、“和这几个符号。但在实际环境里，每种浏览器都稍许偏离了这个指引，它们全都会忽略前导换行符和空格。IE还会忽略所有的不可打印字符(ASCII代码表里0x01〜OxlF之间的字符）。在此基础之外，Chrome更是会忽略0x00和NUL空字符。大多数浏览器的具体实现还会忽略在协议名中出现的换行符和制表符，而Opera浏览器还接受在协议字符串出现高位字符。

      由于这些不兼容性，那些需要区分相对和绝对URL的Web应用就必须谨慎地拒绝任何异常的语法。但我们很快就会发现，即使这样做了也还是不够的。

      3.层级URL的标记符号

      根据RFC1738规定的语法，在授权信息之前，每个层级结构的绝对URL里都应该包括固定的字符串“//”。按这个规范的意思，如果没有这个字符串，就无法确定URL后续部分的格式和功能了，只能把它们看成一个含糊的与特定协议相关的值。

      注意：一个非层级结构的URL例子就是mailto:协议，它用于指定电子邮件地址，可能还包括主题信息（mailto:[email protected]?subject=Hello+world)。

      这样的URL会被传递到默认邮件客户端程序而无需经过其他解析。

      理论上，这种统一的层级URL语法的概念确实很优雅。因为应用可以无需关注某个协议的具体实现，就能够提取到只和地址有关的信息。例如，看到某种特定的名为wacky-widget:的协议，浏览器就能确定http://example.com/testl/和wacky-widget://example.com/test2/ 指向的是同一个受信任的远程主机。

      但相当遗憾的是，这个规范包含着一个有意思的缺陷：上面提到的那个RFC文档并没有指明，如果碰到一个非层级结构的URL又带有“//”前缀，当做何处理；反之亦然。在更早期的RFC1630协议里用作参考的URL解析器实现就无意中包含着这个漏洞，这导致后来与URL有关的处理都有问题。在若干年后发表的RFC3986里，作者出于兼容性的考虑，懦弱地接受了这些漏洞并允许解析这类URL。这样导致的后果就是，各家浏览器对以下这些例子的解析让人很摸不着头脑：#y450:

      ①http:example.com/当没有符合要求的基准URL环境时，在Firefox、Chrome和Safari里这个地址会被认为等同于http://example.com/ 如果有基准URL,则会认为这是一个指向目录example.com的相对路径。

      ②javascript://example.com/%OAalert(l)在所有常用浏览器里，会认为这个字符串是一个有效的非层级伪URL并以JavaScript方式来执行alert(l)这段代码，显示一个简单的对话框。

      ③mailto://[email protected] IE认为这是一个有效的指向电子邮件地址的非层级URL;“//”的部分会直接被忽略掉。而其他浏览器则不认可这个写法。

      4.访问资源的身份验证

      URL里身份验证的部分属于可选项。在向服务器端获取数据时，有可能需要在该位置指定一个用户名或密码。但这个抽象的URL语法本身，与具体的用户名密码等身份验证信息的交换并无实质性关系，身份验证信息的传输是和协议相关的。对那些不支持身份验证的协议，如果在URL里强行加入这部分信息该做何处理，协议并未做出规定。

      如果没有提供身份验证信息，浏览器默认以匿名的方式获取数据。在HTTP和其他几种协议里，这意味着没有传送任何身份验证信息；对FTP协议，这包含着一个名为ftp的账号和一个假的密码。

      除常规的URL分隔符之外，大多数浏览器对身份验证部分的数据几乎接受任何字符，但有两个例外：出于某些尚未明了的原因，Safari拒绝了许多字符，包括和“厂，而FireFox还拒绝换行符。

      5.服务器地址

      对完整的层级URL来说，服务器地址部分必须指定一个不区分大小写的域名（例如example.com)、一个IPv4地址（例如127.0.0.1)或在一对方括号里的IPv6地址([0:0:0:0:0:0:0:1])，用以标识请求资源所处的服务器位置。FireFox还接受写在一对方括号里的IPv4地址和主机名，而其他浏览器则会拒绝这种写法。

      尽管RFC里只允许符合规范的IP地址写法，但大多数应用所依赖的标准C类库却比较灵活，可以接受八进制、十进制和十六进制的写法，甚至可以接受把其中几个或全部8位元数据（Octet)拼在一起再转成单个整数的写法。所以以下的各种写法实际上是一样的：

      ①http://127.0_0.1/ 这是IPv4地址的正规写法。

      ②http://0x7f.l/ 同一个地址，但先以十六进制数字表示标准写法里的第一个8位元（Octet)，剩下的3个8位元数据先分别按十六进制的格式拼在一起，再整体地转化成一个十进制的整数。

      ③http://01770000000.1/ 同一个地址，以0为前缀，后面是把全部4个8位元数据的十六进制数值拼在一起，再统一转化成单个八进制整数。

      这种很随意的解析方式也相似地出现在域名里。理论上来说，域名里能用的字符集是很有限的（按照RFC1035的定义，应该只能出现字母和数字、“.”和“-”），但很多浏览器查询任何信息几乎都依赖于操作系统的解析器，而操作系统的处理通常不太严谨。各种客户端能接受以及传递给系统解析器的主机名（Hostname)字符集也都不尽相同。Safari最严谨，而IE宽容度最高。

      注意多数主流URL解析器都有一个令人诧异的行为，它们都会主动地把主机名里的全角句号“。”（在字面上表示结束，对应的Unicode代码是U+3002)直接替换为点号，但这种情况如果出现在URL的其他部分里则不会这样处理。据说这是因为某些中文键盘的映射使得这种环境的用户很可能是想输入那个7位ASCII值的点号而不是这个全角句号。

      6.服务器端口

      服务器端口部分是可选的，通常在服务器连接的网络端口并非标准端口时才会用到。基本上浏览器支持的所有协议以及第三方应用都会以TCP或UDP作为传输方式，而TCP和UDP都会依赖于一个16位端口号来区分运行在一台机器上的不同服务（这意味着端口号数不能大于2的16次方，即65536）。服务器上每种协议通常都会关联一个默认的服务端口（如HTTP为80、FTP为21，等等），但这个默认值可以在URL里另行改写。

      注意这个功能无意中造成了一个有趣的副作用，我们可以用浏览器向任意网络服务发送攻击者提供的数据，尽管浏览器并不支持这些服务的协议。例如，你可以把浏览器指向：

      http://mai1.example.com:25/ 而这里25端口实际上运行的是简单邮件传输协议（Simple Mail Transfer Protocol，SMTP)服务，并非HTTP协议。这个问题曾导致一系列的安全问题，浏览器也为此引入了一系列不太完美的解决方案。

      7.层级的文件路径

      URL的下一个组成部分叫层级文件路径，它非常形象地体现了从服务器获取特定资源的方式，例如/documents/2016/my_diary.txt。规范里也公开表明，这个格式是直接从UNIX目录语义借用过来的，所以也支持在路径里出现的“/../”和“/./’，而对非绝对路径形式的URL，也会根据这种目录格式，加上基准路径再对应到其相对位置上去。

      在20世纪90年代的时候，Web服务器只是用来存放一堆静态文件和少量可执行脚本的简单的工作网关，所以使用文件系统模型是很自然的选择。但在那之后，很多当前的Web应用框架已经和文件系统没什么关联了，它们都是直接和数据库对象或常驻程序的注册位置打交道了。虽然还是有可能把这些数据结构和运行良好的URL路径对应起来，但人们往往不会这么做或者不会特别严谨地这么做。所有这些问题都会导致内容的自动索取、索引和安全测试要比预想的来得更复杂。#y448:

      8.查询字符串

      查询字符串（Query String)也是个可选项，用于把一串非层级格式的任意参数传递给由前面路径所对应的资源。例如，以下例子就是一个把用户提供的信息传递给服务器端脚本，用于搜索的常见形式：

      http：//example.com/search.php?query=Hello+world

      大多数网站幵发者都很熟悉这种搜索字符串的特定格式；它是由浏览器在处理HTML文件里的表单时生成的，格式如下：

      namel=valuel&name2=value2…

      但让人意外的是，在URL的RFC文档里其实并没有硬性规定要使用这样的格式。实际上，规范里是把查询字符串当作一堆含混笼统的数据对待的，关键是接收者最后要怎么用它，所以有别于路径，它无需遵守特定的解析规则。

      关于我们上面提到的这种查询字符串的常见格式的说明，请参见信息量很庞大的RFC1630、与邮件协议相关的RFC2368以及HTML规范里与表单处理相关的内容。但这些规定全都不是强制性的，因此，如果某个Web应用真要完全不顾常规，把一堆乱七八糟的数据放在URL的查询字符串位置上，也并不能算错。

      9.片段ID

      片段ID(Fragment ID)的角色和查询字符串有点类似，但用法颇为晦涩，它是用于客户端而非服务器端（实际上，这个值根本就不应该传回给服务器端）的一种可选信息。在RFC里没有明确规定片段ID的格式或功能，但暗示性地提到可以用于在返回的文档里定位“子资源”或对文档渲染的方式提供一些帮助性的指导。

      在实际运用中，片段ID在浏览器里只有一个用途：指向HTML页面里的某个锚点名称，用于页面浏览定位。这套逻辑很简单。如果在URL里的锚点名称与HTML页面里设定的锚点标签匹配，文档就会滚动到该定位标签的位置上，方便阅读浏览；否则，就啥动作也没有。由于片断ID的信息是包含在URL里的，所以能用它直接分享一篇长文里的具体位置或加入书签以便于保存。

      由于片段ID只能用于在当前文档里定位，所以无需再从服务器端加载数据，只是根据用户的点击动作，稍许更新一下URL里的片段ID信息而已。

      这种有趣的属性现在有了新用法，可以用这个值来存放一些临时的数据：如存储客户端脚本需要的各种状态信息。例如，地图浏览的应用可以把地图的当前坐标置于这个标识里，这样就可以把链接加到书签里或发送出去与他人共享，地图应用就能再回到相同的位置。和改变查询字符串的效果不同，片段ID不会触发页面重载，也就不需要时间开销，这使得它成为数据存储上的杀手级特性。

      10.把所有的东西整合起来

      上述提到的各个URL部分都有一些特定的保留字符：如正斜杠、冒号、问号等。为了确保浏览器的正常工作，这些字符除了用于分隔URL的不同部分，在URL里不能有其他的用途。谨记这点，现在假设我们要设计一个示例算法，来模拟浏览器的解析方式，把绝对URL按各个功能项分割开来。一个较为合理的算法大致如下。

      步骤1:提取协议名称。
      扫描第一个“彳’字符。在该字符左边的URL部分就是协议名称。如果获得的协议名称中出现了不应有的字符，这可能就是个相对URL，获得的并不是协议名称。

      步骤2:去除层级URL标记符。
      字符串“//”应该跟在协议名称的后面。如果发现有该字符串，则跳过该标记符；如果未找到，就不用管了。

      注意：在某些运行环境的解析中，出于可用性的考虑URL标记符甚至可以完全不用斜杠、只用1个斜杠、用三个甚至三个以上的斜杠。因着同样的思路，可能是为了帮助那些不熟悉的使用者吧,IE浏览器从一开始就接受在URL任意位置使用反斜杠（\)替代正斜杠。除Firefox以外，所有的浏览器也逐渐遵从这一规律，会接受像这样的URLhttp:\\example.com\。

      步骤3::获取授权信息部分。
      依次扫描或“#”符号，哪个先出现以哪个为准进行截取，从URL里提取出来的部分就是授权部分信息。刚才也提过了，大多数浏览器还接受反斜杠“\”作为正斜杠形式分隔符的替换写法，也要考虑这种情况。除了IE和Safari浏览器之外，分号；也是授权信息部分可接受的分隔符；这么做的原因还未可知。

      步骤3A:定位登录信息，如果有的话。
      授权部分信息提取出来后，在截取出来的信息里再寻找@符号。如果找到了，那在它前面的部分就是登录信息，这部分登录信息还需要做进一步分解，在第一个冒号前面（如果有的话）是用户名，后面则是密码数据。

      步骤3B:提取目标地址。
      授权信息部分剩下的就是目标地址了。第一个冒号分隔开的就是主机名和端口号。用方括号括起来的是IPv6地址，这也是特例。

      步骤4:确定路径（如果的确存在）。
      如果授权部分的结尾跟着一个正斜杠——或者某些场景里，跟着一个反斜杠或分号，就像之前提到的，依次扫描下一个“?”、“#”或字符串结尾符，哪个先出现以哪个为准。截取出来的就是路径部分，当然最后应根据UNIX路径语义进行规范化整理。

      步骤5:提取查询字符串（如果的确存在）。       .
      如果在上一条解析里，后面跟的是一个问号，则继续扫描下一个“#”或到字符串结尾，哪个先出现以哪个为准。这中间的部分就是查询字符串。

      步骤6:提取片段ID(如果的确存在）。
      如果成功解析完上一条信息，它的最后跟着“#”符号，从这个符号到整个字符串的最后，就是片段ID。换而言之，整个任务完成啦！

      这个算法看起来很普通，但它揭示了一些甚至资深程序员也往往忽略掉的微妙细节。它也展示了对普通用户来说，要分辨一个URL会被怎么解析其实非常困难。让我们以这个相当简单的例子展开讨论吧：

      http://example.com&gibberish=1234@167772161/

      这个URL的目标地址——实际上就是那串经过编码的数字，解码翻译过来其实是10.0.0.1(十进制的167772161转成十六进制则为A000001，所以实际对应的是：0A.00.00.01，即10.0.0.1）——如果不是专家，实在不容易把它辨认出来，很多用户可能会认为他们是在访问example.com呢

      好吧，也许这个还算简单！让我们再看一个：

      http://example.com\@coredump.cx/
      在Firefox里，这个URL会把用户带往coredump.cx，因为example.com\会被认为是个合法的登录信息。而在其他的浏览器里，会被认为是个路径分隔符，所以用户最终会访问example.com

      IE里一个更令人抓狂的例子如下：

      http://example.com;.coredump.cx/

      微软浏览器允许在主机名称里出现“;”符号，并成功解析到了这个地址，当然这得需要coredump.cx提前做了这样的域名解析设置。大多数其他浏览器会自动把URL纠正成：

      http://example.com/;.coredump.cx 然后把用户带到example.com(Safari除外，它会认为这个写法有语法错误）。

      如果你觉得局面已经一片混乱了，请记住，我们这才刚刚幵始讲浏览器是怎么工作的！

下面的 3、4、5楼继续本课。

WEB安全第五课第一节：HTTP协议之一 HTTP基本语法

漏洞

帖子热度 1.9万 ℃

WEB安全第四课对web的分析之一切从URL开始

相关帖子

网警是怎么找到入侵者的?

拼多多解散漏洞攻击团队，但还保留20人继续挖漏洞

Google Chrome 又爆0day漏洞，建议升级

家用路由器被发现存在大量漏洞

英特尔处理器新漏洞 Load Value Injection

加密漏洞允许黑客克隆丰田现代起亚的汽车遥控钥匙

浏览过的版块

管理员

赞助会员

精华达人

主题破百

以坛为家

论坛元老

五周年纪念

WEB安全 第四课 对web的分析 之 一切从URL开始

相关帖子

网警是怎么找到入侵者的?

拼多多解散漏洞攻击团队，但还保留20人继续挖漏洞

Google Chrome 又爆0day漏洞，建议升级

家用路由器被发现存在大量漏洞

英特尔处理器新漏洞 Load Value Injection

加密漏洞允许黑客克隆丰田现代起亚的汽车遥控钥匙

浏览过的版块

管理员

赞助会员

精华达人

主题破百

以坛为家

论坛元老

五周年纪念

WEB安全第四课对web的分析之一切从URL开始