?
一、?為什么我們要推出機(jī)器程序判斷為主的原創(chuàng)度檢測?
之前人工判斷的文檔原創(chuàng)存在有哪些問題?
以前,網(wǎng)站的原創(chuàng)/獨家文檔全部都由人工審核,存在很多問題:
1、每個管理員的判斷標(biāo)準(zhǔn)不一致,有的會摻入個人感覺,造成判斷不準(zhǔn)確;
2、根據(jù)規(guī)則判斷,比如百度搜索是否已經(jīng)存在,如果百度已經(jīng)存在的內(nèi)容,至少來說是沒有優(yōu)先發(fā)布在本站的。但有些用戶會直接搬用別人的文章冒充原創(chuàng)/獨家,這種情況每天達(dá)到一半以上,加上現(xiàn)在網(wǎng)站的原創(chuàng)文檔上傳量達(dá)到了兩千以上,這給網(wǎng)站的審核帶來了極大的工作量和難以判斷,并且人工審核起來也是件極為痛苦的事情;
3、有的用戶天天找管理員爭論,認(rèn)為管理員判斷有誤、判斷有失偏駁,之前存在不同的原創(chuàng)審核管理員本身就存在審核的標(biāo)準(zhǔn)不一樣的問題。
二、文檔原創(chuàng)檢測標(biāo)準(zhǔn)回顧
因此,網(wǎng)站必須要拿出了一套行之有效的判斷規(guī)則,既要公平、公證、規(guī)律可行、又要要求速度快,經(jīng)過深思熟慮,我們就拿出了一套規(guī)則,那就是:我們發(fā)現(xiàn),很多用戶以為自己只要付出了一丁點努力,比如去整理、修飾、改編、翻譯一番,那這個文檔就是屬于原創(chuàng)了。實際上,按照《著作權(quán)法》,整理、修飾、改編、翻譯等情況一律都不是原創(chuàng)或者獨家。原創(chuàng)和獨家的定義,我們其實在網(wǎng)站上已經(jīng)定論了很多次,但是還是還有很多用戶存在模糊概念、甚至肆意曲解原創(chuàng)文檔的定義。

今天我們再來公布一下原創(chuàng)文檔的定義和標(biāo)準(zhǔn):
原創(chuàng)審核標(biāo)準(zhǔn):
1.修改、篡改、整理、整編、改編、翻譯的作品均不算原創(chuàng)。
2.教材,整理好的試題,考試歸納總結(jié)不算
3.政府方面的公文(工作總結(jié),報告)不算
4.工作崗位范圍以內(nèi)的,上級進(jìn)行安排的,沒有經(jīng)過公司同意授權(quán)的不算
5.封建迷信,八卦,周公解夢,手相,面相等 不符合主流價值觀的不算
6.短視頻中 翻拍的,照片中有人像(肖像權(quán))的沒有經(jīng)過授權(quán)的?不算
7.繪畫,藝術(shù)中 裸體照片的不算(即沒有經(jīng)過藝術(shù)加工的)
三、原創(chuàng)檢測度檢測標(biāo)準(zhǔn)的啟發(fā)及原理
作者我其實是經(jīng)常草擬文件,我很少或者幾乎不會去抄襲、借鑒人家的文案,能夠用自己語言表達(dá)來寫作的就用自己的語言來表達(dá)。當(dāng)有用戶對我們的標(biāo)準(zhǔn)進(jìn)行質(zhì)疑時,我們經(jīng)常會百度一下他其中的內(nèi)容來評判,說:“看,您的這一句話又抄襲人家的了”。

基于此,我們?nèi)绻軌驅(qū)⒂脩羯蟼鞯奈臋n的文本提取出來,并且分析文中的每一句話,如果發(fā)現(xiàn)大量抄襲,并且達(dá)到了約定的“閥值”,則本站完全可以自動判斷他這個文檔就不是原創(chuàng)。能夠做到準(zhǔn)確、公正、及時性極高等特性。
閥值,是指約定一個數(shù)值,超過某個數(shù)量,我們就會判定他不是原創(chuàng)。為什么我們不公布閥值,因為這個閥值我們一直去調(diào)整,且公布后一定有用戶作弊等情況發(fā)生。
及時性,是指機(jī)器自動提取運轉(zhuǎn),這個速度很快,完全拋棄了人工判定。以后絕不存在因為管理員下班休息、節(jié)假日休息而存在審核不及時的情況發(fā)生。
?

(上圖為我寫的本文的一句話,隨便一搜都搜不到)
目前文檔原創(chuàng)度檢測已經(jīng)開始應(yīng)用,且應(yīng)用良好,用戶也沒來鬧意見了,因為規(guī)則是一樣的。其實,我們還有另外一個心得,俗話說:“世界上沒有一模一樣的樹葉”、“世界上沒有一模一樣的人類指紋”“世界上沒有一模一樣的DNA”。那今天,我們要加一句哈,“世界上沒有一模一樣的一句話”,除非是使用頻率特別高的約定俗成的語句,每個人說話的方式、風(fēng)格、順序都天然帶有其獨特的“DNA”。
換言之,也就是說,只要用戶上傳了文檔,我們都會對文檔中的每一句話都讓機(jī)器去搜素一下,查看是否與百度、360、搜狗等存在有一模一樣的內(nèi)容來作為判斷的依據(jù),即:如果一篇文章存在大量與互聯(lián)網(wǎng)重復(fù)內(nèi)容,那么本平臺基本可以判定這個文章不是優(yōu)先發(fā)布在本站。同時再加上網(wǎng)站其他規(guī)則,包括出現(xiàn)的概率、筆名等來綜合判斷是否為原創(chuàng)/獨家文檔,該方案既節(jié)省了人工成本,也保證了判斷的公平、公正、及時性。
四、筆名檢測及原創(chuàng)度判斷標(biāo)準(zhǔn)
網(wǎng)站已經(jīng)將其中一個規(guī)則“署名檢測”發(fā)布在qq群,現(xiàn)在也在這里發(fā)布出來,如下表格:

大家可以看到,獨家的判定必須滿足其中至少一種條件,原創(chuàng)需要同時滿足兩個條件才行,如果兩個條件都不滿足,即使你點擊上傳的類型為“上傳原創(chuàng)文檔”,如果檢測出來兩者皆不符合檢測條件,那也無濟(jì)于事,從而達(dá)到了阻止“隨便拿一個文檔就來冒充原創(chuàng)”的行為,從而從機(jī)制上杜絕了用戶可能源源不斷造假、甚至信誓旦旦就說文檔就是她的原創(chuàng),來挑戰(zhàn)審核底線,而徹底解決了管理員模棱兩可、不知怎么辦的難堪局面。
如果你膽敢肆意冒充,在大量文檔中加入你的簽名,特別是整理幾個文檔就說是你的原創(chuàng)文檔,那么出了問題你要背全責(zé),同時一旦核實批量造假本站將進(jìn)行“關(guān)小黑屋”的重罰!


四、后話
接下來網(wǎng)站還會做軟件檢測,這個軟件不僅包括原創(chuàng)、獨家檢測,還包括標(biāo)題評分、用戶文檔需求挖掘等功能。該軟件上線后本站會公布給大家免費下載、免費使用,謝謝大家!
?
四川文動網(wǎng)絡(luò)科技有限公司
2020年3月19日星期四
原創(chuàng)力文檔


