当前位置: 开发笔记 > 前端 > 正文

内核对比：麒麟操作系统有否抄袭？

作者：398851412_eedcee | 来源：互联网 | 2017-06-24 06:37

文章标题：内核对比：麒麟操作系统有否抄袭？。Linux是中国IT实验室的一个技术频道。包含桌面应用，Linux系统管理，内核研究，嵌入式系统和开源等一些基本分类

　　一、引言
　　
　　麒麟操作系统是由国防科技大学、中软公司、联想公司、浪潮公司和民族恒星公司五家单位合作研制的服务器操作系统。按照麒麟官方的说法：
　　
　　“Kylin服务器操作系统是国家863计划的重大研究成果，拥有完全自主版权的内核，与Linux在应用上二进制兼容，并支持64位，是中国独立研发成功的、具有完全自主知识产权的服务器操作系统。”

[1] —— 来自麒麟官方网站 http://www.kylin.org.cn/news.htm和 863计划官方网站
[2] http://www.863.org.cn/863_105/indust/indust_news/200409160008.html

　　
　　“银河麒麟操作系统是针对未来的主流网络服务和高性能计算服务的需求，参照国际主流标准，参考Darwin、 FreeBSD、Linux和其它商用操作系统，借鉴UNIX操作系统和微内核操作系统的设计思想，设计并实现具有自主版权的、可支持多种CPU芯片和多种计算机体系结构的、具有高性能、高可用性与高安全性的、并与Linux应用和设备驱动二进制兼容的中文服务器操作系统，” ——摘自麒麟操作系统2.0.21内自带的帮助文档
　　
　　近日，有不少人对麒麟操作系统宣称的“完全自主版权”和“中国独立研发成功”这两个核心问题产生了质疑。随着麒麟2.0.14和2.0.21系统可以通过麒麟的官方网站下载后（ http://www.kylin.org.cn/download.htm ），这种质疑的声音越来越大。麒麟除内核以外的应用大部分都来自自由组织GNU的代码，这些代码并不属于“中国独立研发”，而且他们的版权也不属于麒麟操作系统的开发者。更有甚者，有人开始通过反汇编麒麟操作系统内核发现和美国的FreeBSD开放源代码操作系统非常相似。随后又有人成功的用 FreeBSD的内核启动了麒麟操作系统。按照麒麟官方的介绍，麒麟具有Linux的二进制兼容的能力，可是丝毫没有提及与FreeBSD的兼容性，使得麒麟内核与FreeBSD的关系变得比较引人注目。在官方介绍中的简简单单的“参考”是无法解释这种相似程度的。
　　
　　在强烈的关注声中，麒麟开发人员在2006年2月16日，给出了一个说明，《关于银河麒麟操作系统的说明》[3]，发布在 http://www.kylin.org.cn/download.htm .其中提到了和FreeBSD的关系：
　　
　　“课题组通过评测和分析，认为当时正在研发中的FreeBSD 5.0 具有比Unix SVR4.2 更好的发展势头，特别是SMPng 项目的开展，为FreeBSD 5.0 支持SMP 对称多处理器系统奠定了良好的基础，因此银河麒麟操作系统的系统服务层从SVR4.2 升级到当时正在研发中的FreeBSD 5.0.”
　　
　　声明发出后一定程度上得到了大家谅解，可是虽然提及和FreeBSD的关系，却又十分隐晦，既没有明确的对官方网站新闻中的报道失实承认错误，没有明确阐述麒麟的操作系统是否具有“完全知识产权”以及是否是“中国独立研发”，甚至也没有对官方页面上的事实报道进行修正。而且，既然说明使用了FreeBSD 5.0的代码，却又说仅限于系统服务层，而丝毫未提及所占比例。这依旧让人们对这个获得863计划软件重大专项的资助的操作系统到底有多少创新产生一个大大的疑问。
　　
　　为了调查清楚麒麟操作系统内核自主创新的百分比，以及与其它操作系统之间的关系，我将麒麟操作系统内核与FreeBSD、NetBSD、OpenBSD、 Linux和Solaris的内核进行了可执行代码的相似度分析。
　　
　　在整个过程中，我将尽量保持客观的原则进行分析。由于麒麟操作系统属于封闭源代码系统，因此在无法获得内核源代码的情况下，我将只进行二进制可执行代码文件的相似度分析。由于可执行代码受编译环境、内存分布情况以及模块的变动的影响很大，因此，会产生即使采用同一套代码，却产生很低的相似度情况。但是，对操作系统内核这种大型软件系统来说，却不会因为不同的代码而产生很高的相似度的情况。因此，我们将这次对二进制可执行代码分析所得的相似度作为相似度的下限。换句话说，真实的相似度应该会高于此次分析结果，但是由于分析方法的局限性，无法取得上限。
　　
　　二、可执行文件的相似度比较
　　
　　二进制可执行文件的相似度分析一直是一个难题。大家都知道，即使是同一份源代码，使用同一个编译器，可用不同的编译参数进行编译后，代码也会产生极大的差异。当发生有人因为盗用别人的源代码而产生的侵权后，如果不能够将二者的源代码拿出进行比较的话，判断是否抄袭非常困难。因此，一直以来或多或少，总会有人无所顾忌的将开放源代码的软件拿来加入到自己的软件中，或者干脆就是在那些源代码的基础上稍加修改和更换了版权信息就宣称是自己研发的。因为他们知道，只要不把自己的源代码公诸于众，那么抄袭就很难判定。下面我就详细说一下我采用的分析方法。
　　
　　2.1 ELF可执行文件相似度分析方法
　　
　　这次分析起始，我就碰到了一些难题。如果对二进制可执行文件进行基于字节的相似性分析，即使匹配上某些字节，也很难说明两段代码的相似性，另外匹配也很容易受到各种噪音的干扰而产生很低的相似度，可是噪音却无法被去除。因此，使最小比较单元具有明确的语义和合理的过滤噪音是我首先要解决的问题。
　　
　　2.1.1 反汇编
　　
　　二进制文件的比较难以确定最小单元语义的根本问题在于二进制文件是以字节为单位，然而每个字节却没有特定的含义。你很难说89 e5和83 EC 89中的89相同说明什么，在这个例子中，前者的89 e5是i386的一条指令，而后者的89则是一个立即数，所以他们相同实际上什么都不说明。针对这次分析，由于都是可执行代码，而且都采用了ELF的文件格式。由于这个特点，我首先将所有操作系统的内核通过objdump反汇编成汇编代码。这样做有一个直接的好处，就是每一行都是一条汇编语句，而每一条汇编语句又是一个程序不可分的最小逻辑单元。这样，接下来的分析就可以基于行来进行相似性的分析，因为每出现一行相同就说明有一个最小的逻辑单元相同，如果出现连续的行相似，那么就说明有连续的代码段相似。相同的行越多两个内核就越相似。并且经过反汇编后，就避免了因文件内包含的其他无关信息，如字符串、资源文件、数据文件等，对分析结果产生的影响。这个方法依旧无法避免因编译参数差异所造成的相似度下降的影响。虽然如此，但是我很幸运，从这次分析的结果看，依旧得到了不低的相似度。
　　
　　2.1.2 过滤噪音
　　
　　噪音的出现有很多原因，可能是内存分布不同、代码的增删导致的偏移地址的变化，对相同含义的常量而数值却不同等等。这些值的差异，可能会造成不同的执行结果，但是却对两段代码的相似性比较影响不大。请看下列两个代码段：

c043e9e8 :                        | c04431d8  :
freebsd4_sigcode():                                 freebsd4_sigcode():
c043e9e8: call   *0x10(%esp)                       | c04431d8: call   *0x10(%esp)
c043e9ec: lea    0x14(%esp),%eax                   | c04431dc: lea    0x14(%esp),%eax
c043e9f0: push   %eax                              | c04431e0: push   %eax
c043e9f1: testl $0x20000,0x54(%eax)               | c04431e1: testl $0x20000,0x54(%eax)
c043e9f8: jne    c043e9fd  | c04431e8: jne    c04431ed 
c043e9fa: movl   0x14(%eax),%gs                    | c04431ea: movw   0x14(%eax),%gs
c043e9fd: mov    $0x158,%eax                       | c04431ed: mov    $0x158,%eax
c043ea02: push   %eax                              | c04431f2: push   %eax
c043ea03: int    $0x80                             | c04431f3: int    $0x80
c043ea05: jmp    c043ea05  | c04431f5: jmp    c04431f5 
c043ea07: nop                                      | c04431f7: nop

　　左边的代码是来自FreeBSD 5.3内核的，而右边的代码来自麒麟2.0.21/18的内核。通过人的分析，我们可以得出这两段代码实际上是相同的。可是对于计算机程序比较的时候，就不尽然。请注意上述的有颜色的数字。用蓝色表示的代码地址[4]、绿色表示的偏移地址、红色表示的立即数、深蓝色表示的函数偏移地址和粉色表示的函数地址，这些数字的不同，就造成了代码比较时候的失败。上述13行代码，如果就这样比较的话，只有函数名一行可以匹配。因此虽然是相同的代码，却只有7.7%的相似度。下面我们就来去除这些干扰。
　　
　　首先，我们将代码行地址、函数跳转地址和函数偏移地址去除。代码行所在的地址，实际上是说明了代码所在内存的位置，内存的位置会随着代码的删改而很容易产生变动，这些对我们比较代码逻辑没有意义。其中有些绝对地址，我们将其替换为“{Address}”，这样既不受地址变化的影响，又不至影响了代码的含义。
　　
　　然后我们将绿色的偏移地址替换成特定字符串“{Offset}”。产生偏移地址的原因一般有两种，一种是结构体，另一种是数组。即使不对结构体删改，而仅仅是对结构体的声明顺序的变动都可以造成偏移地址的不同，我们在这里只关心程序在这里用到了一个偏移地址，而不关心用的到底是偏移了多少。数组的用法虽然不常出现，但是即使出现其中的位置也是很容易发生变动的。因此在这里，我们也将偏移地址的数值替换成统一的字符串。最后，我们来处理红色的立即数。当然立即数并不是只有上述的几种情况下出现，虽然在上述的例子中，两边的立即数都完全一样，单是在某些情况下还是会出现不同。
　　
　　立即数在程序中一般是常量，而常量有可能是与系统相关的数值，或者仅仅是一个符号，而不在乎具体数值。无论是什么含义，常量虽然在执行过程中不会改变，在设计过程中却很容易发生变动。不过对我们分析代码逻辑没有太大的影响，因此，在分析的时候我们对数值进行模糊化，将其替换为“{Number}”这个特定字符串。
　　
　　至此，上述代码将会变为：

:                        | :
freebsd4_sigcode():                        | freebsd4_sigcode():
 call   *{Offset}(%esp)                   |   call   *{Offset}(%esp)
 lea    {Offset}(%esp),%eax               |   lea    {Offset}(%esp),%eax
 push   %eax                              |   push   %eax
 testl {Number},{Offset}(%eax)           |   testl {Number},{Offset}(%eax)
 jne           |   jne    
 movl   {Offset}(%eax),%gs                |   movw   {Offset}(%eax),%gs
 mov    {Number},%eax                     |   mov    {Number},%eax
 push   %eax                              |  push   %eax
 int    {Number}                          |   int    {Number}
 jmp           |   jmp    
 nop                                      |   nop

　　现在这两段代码的相似度将变成真实的100%.
　　
　　2.1.3 代码段顺序调整
　　
　　经过上面的噪音过滤后，代码已经能够在基本不影响代码逻辑的前提下去除了噪音的影响。可是，还有一种情况会对匹配结果带来较大的影响。就是代码块位置的前后变动，我们来看下面这两段代码的比对。
　　

 begin():                                   <
        mov    {Address},%eax              <
        lea    {Offset}(%eax),%esp         <
        xor    %ebp,%ebp                   <
        mov    {Address},%esi              <
        mov    %esi,{Offset}(%eax)         <
        pushl {Address}                   <
        call                      <
        add    {Number},%esp               <
        call                   <
        add    {Number},%esp               <
sigcode():                                   sigcode():
        call   *{Offset}(%esp)                       call   *{Offset}(%esp)
        lea    {Offset}(%esp),%eax                   lea    {Offset}(%esp),%eax
        push   %eax                                  push   %eax
        testl {Number},{Offset}(%eax)               testl {Number},{Offset}(%eax)
        jne                        jne   
        movl   {Offset}(%eax),%gs          |         movw   {Offset}(%eax),%gs
        mov    {Number},%eax                         mov    {Number},%eax
        push   %eax                                  push   %eax
        int    {Number}                              int    {Number}
        jmp                        jmp   
        nop                                          nop   
                                           > begin():
                                           >         mov    {Address},%eax
                                           >         lea    {Offset}(%eax),%esp
                                           >         xor    %ebp,%ebp
                                           >         mov    {Address},%esi
                                           >         mov    %esi,{Offset}(%eax)
                                           >         pushl {Address}
                                           >         call   
                                           >         add    {Number},%esp
                                           >         call   
                                           >         add    {Number},%esp

　　和刚才一样。左边来自FreeBSD 5.3的代码，右边来自Kylin 2.0的代码(但是为了举例，函数前后顺序稍作调整)。在两段代码实际上非常相似，但是由于代码前后的顺序不同，导致只有一个代码块sigcode()可以匹配的上，相似度仅为47.6%。针对这类情况，我的解决办法是将代码块按照标号/函数名进行排序。经过排序，上述代码段比对将变为：

begin():                                   begin():
        mov    {Address},%eax                      mov    {Address},%eax
        lea    {Offset}(%eax),%esp                 lea    {Offset}(%eax),%esp
        xor    %ebp,%ebp                           xor    %ebp,%ebp
        mov    {Address},%esi                      mov    {Address},%esi
        mov    %esi,{Offset}(%eax)                 mov    %esi,{Offset}(%eax)
        pushl {Address}                           pushl {Address}
        call                              call   
        add    {Number},%esp                       add    {Number},%esp
        call                           call   
        add    {Number},%esp                       add    {Number},%esp
sigcode():                                 sigcode():
        call   *{Offset}(%esp)                     call   *{Offset}(%esp)
        lea    {Offset}(%esp),%eax                 lea    {Offset}(%esp),%eax
        push   %eax                                push   %eax
        testl {Number},{Offset}(%eax)             testl {Number},{Offset}(%eax)
        jne                      jne   
        movl   {Offset}(%eax),%gs        |         movw   {Offset}(%eax),%gs
        mov    {Number},%eax                       mov    {Number},%eax
        push   %eax                                push   %eax
        int    {Number}                            int    {Number}
        jmp                      jmp   
        nop                                        nop

[1] [2] [3] [4] 下一页

推荐阅读

html
云计算安全，主要面临哪些威胁？

云计算是一种新的计算方式，它依托于互联网，以网络技术、分布式计算为基础，实现按需自服务、快速弹性构建、服务可测量等特点的新一代计算方式。然而，任何以互联网为基础的应用都存在着一定危 ... [详细]

蜡笔小新 2024-09-28 19:38:11
html
Windows 7下硬盘安装Ubuntu 13.04图文教程

nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]

蜡笔小新 2023-09-25 17:34:36
v8
Windows操作系统+朝鲜红星+国产麒麟+红旗+渗透专用系统+Oracle专用+技术专栏【资源大合集】 | 寻找C站宝藏

大家好，我是Lex喜欢欺负超人那个Lex擅长领域：python开发、网络安全渗透、Windows域控Exchange架构今日重点：寻找C站 ... [详细]

蜡笔小新 2023-09-24 19:22:01
v8
Linux操作系统中的七种武器

Linux是一套免费使用和***传播的类UNIX操作系统，主要用于基于Intel x86系列CPU的计算机上。Linux系统是由全世界各地的成千上万的程序员合适的方式定制自己的Li ... [详细]

蜡笔小新 2024-09-29 07:15:05
js
0518 第五节课

安全3AAuthentication：认证Authorzation：授权Accouting|Audition：审计用户管理用户：UID:0，不一定是root，root的uid非0时 ... [详细]

蜡笔小新 2024-09-28 19:55:23
js
【linux】课前准备及计算机入门

文章目录前言必知必会的软件服务器分类机架式服务器塔式服务器刀片式服务器三者的区别虚拟服务器（云服务器）服务器的硬件组成服务器常见的品牌前言本文是循序渐进学linux的第一课，为 ... [详细]

蜡笔小新 2024-09-28 19:21:51
js
利用ipv6技术，废旧笔记本变成server

如果你家的路由器已经get到了ipv6地址，并且你家的电脑也获取了有效的ipv6地址，在广域网的设备可以访问到。那恭喜你，再配合我这个dd ... [详细]

蜡笔小新 2024-09-28 14:43:45
js
13Linux基本命令和配置服务器来电后自动开机

本节所讲内容：Linux终端介绍Shell提示符BashShell基本语法基本命令的使用：ls、pwd、cd查看系统和BIOS硬件时间Linux如何获得 ... [详细]

蜡笔小新 2024-09-28 10:19:05
html
一个不错的JDBC连接池教程（带具体例子）

1.前言数据库应用，在许多软件系统中经常用到，是开发中大型系统不可缺少的辅助。但如果对数据库资源没有很好地管理(如：没有及时回收数据库的游 ... [详细]

蜡笔小新 2024-09-27 20:22:03
html
缓冲区溢出实例（一)–Windows

一、基本概念缓冲区溢出：当缓冲区边界限制不严格时，由于变量传入畸形数据或程序运行错误，导致缓冲区被填满从而覆盖了相邻内存区域的数据。可以修改内存数据，造成进程劫持，执行恶意代码，获 ... [详细]

蜡笔小新 2024-09-27 17:39:07
html
C#使用System.Net.Mail类实现邮件发送【.Net开发】

这篇文章介绍了C#使用System.Net.Mail类实现邮件发送的方法，文中通过示例代码介绍的非常详细。对大家的学习或工作具有一定的参考借鉴价值， ... [详细]

蜡笔小新 2024-09-27 16:29:11
html
阿里云大数据计算服务MaxCompute (原名 ODPS)

MaxCompute是阿里EB级计算平台，经过十年磨砺，它成为阿里巴巴集团数据中台的计算核心和阿里云大数据的基础服务。去年MaxCompute做了哪些工作，这些工作背后的原因是什 ... [详细]

蜡笔小新 2024-09-28 17:30:24
html
深化“原生兼容”技术，openKylin 打造统一软硬件生态底座

深化,原生,兼容,技术,openkylin,打造,统一 ... [详细]

蜡笔小新 2023-10-09 21:52:32
html
信创环境经典版SuperMap iManager监控外部SuperMap iServer资源失败，无法监控目标GIS服务器CPU与内存使用情况

一、问题环境操作系统：银河麒麟kylinV10CPU：鲲鹏920SuperMapiServer10.2.0SuperMapiManager10.2.1二、现象部署完经典版Super ... [详细]

蜡笔小新 2023-10-09 19:20:23
yarn
kylin怎样安装使用

这篇文章给大家分享的是有关kylin怎样安装使用的内容。小编觉得挺实用的，因此分享给大家做个参考，一起跟随小编过来看看吧。环境我选的kylin版 ... [详细]

蜡笔小新 2023-09-25 18:01:32

398851412_eedcee

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章