这类问题可能出现在一些比较典型的场景下,如:针对视力障碍人士提供的、具有辅助朗读功能的OCR技术产品场景。
笔者认为:在此类场景下,虽然在OCR技术的准备及应用过程中存在对作品载体进行标注、提取特征值“存储”的行为,形式上似符合侵犯作品复制权和信息网络传播权的一般构成,但使用作品载体进行标注、算法训练具有目的正当性及实施必要性,且其实施手段在实质上并不符合著作权侵权的构成要件,其仅为中立的技术能力,因而并不具有侵权性。以下分析详述之:
1、OCR技术的实现过程:在技术实现过程中,使用者(用户)通过搭载了算法模型的OCR技术产品对需要即时OCR识别的载体场景进行识别检测(或扫描、拍摄后识别检测),算法模型将当前场景中的含文字图象与算法模型中的特征值进行实时比对,基于比对结果提取并反馈对应的文字、内容,将符合特征的文字进行圈选、框定及准确识别呈现。
2、技术准备(训练、标注)、实施过程疑似侵权点:准备过程中,作品的部分文本特征(含字、词、句、段特征)可能被作为特征值提取,在概念上似符合复制权的一般侵权特点。即将作品内容(特征值)以数据形式记录并存储于服务器中形成复制品。在实施过程中因检测到相似乃至相同特征时进行了内容反馈、呈现。从外观上似符合信息网络传播权的一般侵权特点。即允许公众可以在其个人选定的时间和地点获得作品。
3、不侵权性分析:从上述笔者的描述可看出,整个OCR的应用过程中技术实施是相对中立的,是为了将一切可识别的文字通过算法模型进行识别,而并非是为了提供作品本身,具有目的正当性。如果缺乏前述大量的文字标注和算法训练,则服务实际难以提供,或者服务出现大量错、漏及不稳定现象。从文字场景的丰富度看,作品类尤其是文学作品类载体(如小说、散文、诗歌等出版物)为文字场景最为丰富的素材,如不使用作品载体进行标注、训练则素材获取成本将极大提升。而在技术实际使用场景中,作品类载体(尤其是出版物)也通常是最高频的使用场景,如儿童读物、出版物中生僻字识别等。因此,使用作品载体进行标注、算法训练具有较高实施必要性。
同时,基于上述描述可知,虽然技术提供方在服务器中存储了“作品内容”,但并非以作品原本形式存储,而是以提取出的素材特征值(图像特征、文本特征)及基于特征值形成的算法模型形式存储,客观上并未形成观念意义上的作品复制件。且在实施过程中,服务产品所呈现出的文字内容是基于特征值的映照关系所产生,文字排列组合具有极大的不确定性,虽然对照原作品可以有一定概率完整还原、呈现原作品的全部内容,但呈现前提必须是使用者正在识别检测原作品的载体。即即使不依赖技术服务该使用者也已经获取了内容,同时文字呈现过程并不是对原作品作品内容的呈现,而是对原作品中每一个可拆分文字、语句、固定表达等的呈现,呈现何种内容仅依赖于被识别素材为何,实质上并不属于提供作品。
综上,针对于标准的OCR技术而言,使用作品载体进行标注、算法训练具有目的正当性及实施必要性,其实施手段在实质上不具有侵权性。
非常规技术方案的侵权状态:介绍了非侵权的OCR技术特点,并且分析了其不侵权性,我们从相反方向也可以较清晰的确认某些非常规的、运用算法能力的OCR技术方案在何种情况下可能属于侵权。
比如, 1、 当技术实施方没有提取作品载体上的特征值(文本特征、图像特征),而是直接将作品内容进行记录,并且将作品载体的扫描件、照片等电子版本载体存储于服务器内时。
2、 识别时:上述情况下,技术在实施识别的过程中实际是依靠电子版本载体整体与识别对象进行整体匹配,其目的即为快速匹配成功后直接从服务器内提供已存储的作品内容本身。
3、 反馈呈现时:因此其反馈、呈现内容时也并非是基于特征值的映照关系,而是基于作品内容本身。
实务建议:因此,在实践中,技术实施方的法务人员应当与己方技术人员认真沟通核对,实际实施过程是否严格按照不侵权OCR技术方案实施,以避免侵权行为发生。
同时,在面临相关诉讼时,技术实施方法务可以通过对内容标注工作过程、标注成果、特征提取工作过程和算法训练工作过程、算法模型结果等进行举证,结合产品功能、技术方案演示、讲解等来证明己方产品、技术不具有侵权性。
对于需采购OCR技术的采买方来说,也可以通过询问供应商技术实施方案细节进行合作前调查,必要时可要求供应商提供部分上述证据作为技术合规证明来确保己方产品、业务在实施过程中不会因供应商侵权行为产生风险。
文章来源网络,若有侵权,请联系删除。