网络爬虫案件的有效辩护-何忠翊-华律网

网络爬虫是一种能够自动搜索并浏览的程序。可以根据设定的条件和要求，对互联网的信息进行搜索、浏览并复制保存，以达到收集信息的目的。其本质上是模拟人的习惯进行自动搜索浏览的工具。

一、关于网络爬虫主要方式及运行原理

（一）网络爬虫的主要方式。网络爬虫作为一种工具，有多种形式，但是归结起来可以分两类。一是即时进行编写。二是利用已有的程序

1．即时编程：通常专业人员根据自己的需求用python进行即时编程，设计网络爬虫程序。如要对《红楼梦》中，主要人物出现的场景或被提及的次数进行数学统计。就可以用网络爬虫对《红楼梦》的全集，进行抓取并进行统计。

可以将数据采集到以后，通过数据清洗，结构化等步骤最后让数据用来做商业分析；也可以拿到信息并用于日常生活，比如买房前抓取对应地区历史成交记录再决策；

2．直接下载爬虫软件进行搜索。目前市面上我们常见的爬虫软件大致可以划分为两大类：云爬虫和采集器。

云爬虫就是无须下载安装软件，直接在网页上创建爬虫并在网站服务器运行，享用网站提供的带宽和24小时服务。

采集器一般就是要下载安装在本机，然后在本机创建爬虫，使用的是自己的带宽，受限于自己的电脑是否关机。

（二）运行原理：也就是按照要求，通过运行爬虫程序或者脚本去获取web页面上特定的数据，如文本信息、图片、视频等。换言之，就是通过运行特定程序自动打开浏览器，根据设定的条件选取并打开网页，通过分析和过滤从中获取特定信息。实际上就是自动浏览并复制特定信息的过程。目前爬虫程序绝大多数是基于Python语言开发的。

二、网络爬虫罪与非罪的界限

网络爬虫是一种搜索的程序，本身是一种中性的技术，关键在于使用的目的与使用的方式。如果爬取的允许的收集数据的话，跟用浏览器访问没有本质区别。通常正式的网站都会在根目录下放置 robots.txt文本，把允许与不允许的爬取内容进行规定，限制爬虫获取信息的范围。一般而言，网络爬虫的罪与非罪，关键看一下几个方面：

（一）看是否得到授权，也就是是否允许爬取。通常正式的网站，一般在robots.txt,中，对相关数据，直接标明Disallow,或Allow，即不允许与允许。如果是前者，就是不允许获取，如果突破了Disallow,的限制而爬取信息，如果情节严重就涉嫌犯罪。

（二）看数据的性质，也就是爬取什么数据。网络上的数据浩如烟海，爬取一般的数据没有社会危害性，刑法也不会加以规制，对这些数据进行爬取不构成犯罪。但是有些数据是不能非法获取的，如公民个人信息，商业秘密等。

（三）看使用的方式，也就是爬取的数据怎么用。获取一些敏感信息，有时自己用于研究，并不构成犯罪，但是如果将获取的信息进行贩卖，提供给他人非法使用，非法获利达到犯罪的标准。而构成犯罪。

（四）看获取数据的方式，也就是怎么爬。如果引起服务器崩溃，如在短时间内反复爬取数据，导致服务器瘫痪。或者绕过反爬措施，非法获取数据，则涉嫌犯罪。

（五）看数据的数量，爬多少。对于公民个人信息，如果大量爬取，达到司法解释规定各类公民个人信息的数量，则涉嫌侵犯公民个人信息罪。

三、网络爬虫行为通常涉嫌的罪名

网络爬虫，作为一种网络数据的收集方式，在使用过程中经常会出现未经授权，或者超越授权而爬取数据的情况，同时在获取数据的目的、方式和内容方面通常会涉嫌违法，情节严重则会构成犯罪。在司法实务中，有很多因使用网络爬虫而被刑事追究的情形，通常主要涉及的罪名有以下几种。

（一）侵犯商业秘密罪。如果通过突破目标网站的保护措施，非法获取目标计算机信息系统的存储的商业秘密。造成的损失达到50万元，或者获利50万元则构成侵犯商业秘密罪。

（二）侵犯公民个人信息罪：对于非法获取公民的个人信息，根据两高相关司法解释，根据个人信息的重要程度与个人隐私的密切程度，规定了不同的数量标准。如果达到这一标准，就构成“侵犯公民个人信息罪”所要求的“情节严重”。

（三）非法获取计算机信息系统数据罪。司法案例有将“反爬虫”机制认定为与用户身份信息认证机制同态的计算机信息系统安全措施，并将常见的对抗“反爬虫”措施的技术行为认定为“侵入”计算机信息系统行为，所以，突破这一限制，爬取信息。则涉嫌违反国家规定，侵入计算机信息系统或者采用其他技术手段，获取该计算机信息系统中存储、处理或者传输的数据。

（四）提供非法侵入计算机信息系统程序、工具罪。如果把突破Disallow限制而爬取计算机信息系统的代码或工具，提供给他人，这就涉嫌“提供非法侵入计算机信息系统程序、工具罪”。

（五）破坏计算机信息系统罪。如果爬虫软件的访问频率超过每秒100次以上，通常会造成目标网站服务器瘫痪，这就会涉嫌“破坏计算机信息系统罪”

（六）其他犯罪。这种情况下，利用爬虫获取相关信息，属于为实施特定犯罪创造条件，属于犯罪预备，一般被主行为所吸收，不再进行分别的评价。如为了诈骗，爬取相关被害人信息，为了敲诈勒索而爬取被害人的隐私信息，为了绑架而获取被害人的行踪信息等。

四、网络爬虫案件的辩护

网络爬虫案件的辩护，有自身的特点，除了通常的，主犯从犯，自首立功，初犯偶犯，认罪认罚，退赔退赃的辩护要点以外，还要结合网络爬虫的设置与运行情况，进行罪与非罪、重罪与轻罪、罪重与罪轻进行辩护。

（一）非法获取计算机信息系统数据罪

关键在于爬取的方式，是否属于“侵入”或者“利用其他技术手段”获取信息，最终的判断标准是“是否属于未经授权，或者超越授权”。

（二）侵犯公民个人信息罪。关键在于所获取的公民个人信息的“质”与“量”。

“质”的判断标准，是可识别性，也就是说能够与特定的自然人直接联系，使特定对象从隐性状态转变为显性状态。

“量”的判断标准，是指非法获取的公民个人信息的数量，是否达到相关司法解释规定的，需要进行刑事追究的程度。

（三）提供非法侵入计算机信息系统程序、工具罪。辩护要点在于涉案的爬虫程序，是否属于一种专门的程序与工具，这种程序与工具“具有避开或者突破计算机信息系统安全保护措施，未经授权或者超越授权获取计算机信息系统数据的功能”。至于非法获利数额和提供的次数，一般案件都会达到。

（四）破坏计算机信息系统罪。辩护要点在于围绕着，造成目标系统崩溃的因果关系，与造成的后果。通常的案件是由于短时间内过于频繁的访问，造成网站服务器瘫痪。但是服务器的瘫痪的原因是多方面的。至于后果是否严重的主要在于瘫痪的持续时间。

（五）侵犯商业秘密罪。关键围绕着是否采取了“保密措施”，可以从爬取的方式直接推理出，如果系robots.txt，文件标明（Allow）“允许的”，则属于对方没有采取保密措施。至于造成的损失与获利，则容易取证。

（六）其他犯罪的共犯与被主犯罪行为所吸收。要围绕着是否存在共谋，存在共同的故意，爬取的行为是否属于全部行为的一个有机组成部分。

总之，网络爬虫案件的有效辩护，必须把刑事辩护的专业性和互联网专业知识相结合。准确阐述网络爬虫运行的技术原理，积极引导司法者对涉案行为社会危害性的客观评价，努力争取最有利的刑事处理结果。