<tbody id="nleqf"><track id="nleqf"></track></tbody>

    1. Book118文檔的原創度檢測及簽名/筆名必要說明

      閱讀(37442)頂(0)踩(0)發布作者:楊靜發布日期:2020-03-30 16:02

      ?

      一、?為什么我們要推出機器程序判斷為主的原創度檢測?

      之前人工判斷的文檔原創存在有哪些問題?

      以前,網站的原創/獨家文檔全部都由人工審核,存在很多問題:

      1、每個管理員的判斷標準不一致,有的會摻入個人感覺,造成判斷不準確;

      2、根據規則判斷,比如百度搜索是否已經存在,如果百度已經存在的內容,至少來說是沒有優先發布在本站的。但有些用戶會直接搬用別人的文章冒充原創/獨家,這種情況每天達到一半以上,加上現在網站的原創文檔上傳量達到了兩千以上,這給網站的審核帶來了極大的工作量和難以判斷,并且人工審核起來也是件極為痛苦的事情;

      3、有的用戶天天找管理員爭論,認為管理員判斷有誤、判斷有失偏駁,之前存在不同的原創審核管理員本身就存在審核的標準不一樣的問題。

      二、文檔原創檢測標準回顧

      因此,網站必須要拿出了一套行之有效的判斷規則,既要公平、公證、規律可行、又要要求速度快,經過深思熟慮,我們就拿出了一套規則,那就是:我們發現,很多用戶以為自己只要付出了一丁點努力,比如去整理、修飾、改編、翻譯一番,那這個文檔就是屬于原創了。實際上,按照《著作權法》,整理、修飾、改編、翻譯等情況一律都不是原創或者獨家。原創和獨家的定義,我們其實在網站上已經定論了很多次,但是還是還有很多用戶存在模糊概念、甚至肆意曲解原創文檔的定義。


      image.png


      今天我們再來公布一下原創文檔的定義和標準:

      原創審核標準:

      1.修改、篡改、整理、整編、改編、翻譯的作品均不算原創。

      2.教材,整理好的試題,考試歸納總結不算

      3.政府方面的公文(工作總結,報告)不算

      4.工作崗位范圍以內的,上級進行安排的,沒有經過公司同意授權的不算

      5.封建迷信,八卦,周公解夢,手相,面相等 不符合主流價值觀的不算

      6.短視頻中 翻拍的,照片中有人像(肖像權)的沒有經過授權的?不算

      7.繪畫,藝術中 裸體照片的不算(即沒有經過藝術加工的)

      三、原創檢測度檢測標準的啟發及原理

      作者我其實是經常草擬文件,我很少或者幾乎不會去抄襲、借鑒人家的文案,能夠用自己語言表達來寫作的就用自己的語言來表達。當有用戶對我們的標準進行質疑時,我們經常會百度一下他其中的內容來評判,說:“看,您的這一句話又抄襲人家的了”。


      image.png


      基于此,我們如果能夠將用戶上傳的文檔的文本提取出來,并且分析文中的每一句話,如果發現大量抄襲,并且達到了約定的“閥值”,則本站完全可以自動判斷他這個文檔就不是原創。能夠做到準確、公正、及時性極高等特性。

      閥值,是指約定一個數值,超過某個數量,我們就會判定他不是原創。為什么我們不公布閥值,因為這個閥值我們一直去調整,且公布后一定有用戶作弊等情況發生。

      及時性,是指機器自動提取運轉,這個速度很快,完全拋棄了人工判定。以后絕不存在因為管理員下班休息、節假日休息而存在審核不及時的情況發生。


      ?

      image.png


      (上圖為我寫的本文的一句話,隨便一搜都搜不到)

      目前文檔原創度檢測已經開始應用,且應用良好,用戶也沒來鬧意見了,因為規則是一樣的。其實,我們還有另外一個心得,俗話說:“世界上沒有一模一樣的樹葉”、“世界上沒有一模一樣的人類指紋”“世界上沒有一模一樣的DNA”。那今天,我們要加一句哈,“世界上沒有一模一樣的一句話”,除非是使用頻率特別高的約定俗成的語句,每個人說話的方式、風格、順序都天然帶有其獨特的“DNA”。

      換言之,也就是說,只要用戶上傳了文檔,我們都會對文檔中的每一句話都讓機器去搜素一下,查看是否與百度、360、搜狗等存在有一模一樣的內容來作為判斷的依據,即:如果一篇文章存在大量與互聯網重復內容,那么本平臺基本可以判定這個文章不是優先發布在本站。同時再加上網站其他規則,包括出現的概率、筆名等來綜合判斷是否為原創/獨家文檔,該方案既節省了人工成本,也保證了判斷的公平、公正、及時性。

      四、筆名檢測及原創度判斷標準

      網站已經將其中一個規則“署名檢測”發布在qq群,現在也在這里發布出來,如下表格:


      image.png


      大家可以看到,獨家的判定必須滿足其中至少一種條件,原創需要同時滿足兩個條件才行,如果兩個條件都不滿足,即使你點擊上傳的類型為“上傳原創文檔”,如果檢測出來兩者皆不符合檢測條件,那也無濟于事,從而達到了阻止“隨便拿一個文檔就來冒充原創”的行為,從而從機制上杜絕了用戶可能源源不斷造假、甚至信誓旦旦就說文檔就是她的原創,來挑戰審核底線,而徹底解決了管理員模棱兩可、不知怎么辦的難堪局面。
      如果你膽敢肆意冒充,在大量文檔中加入你的簽名,特別是整理幾個文檔就說是你的原創文檔,那么出了問題你要背全責,同時一旦核實批量造假本站將進行“關小黑屋”的重罰!

      wKh2Al57PAqINHKxAADECDGO98MAAex4QCRRTsAAMQg725.png

      image.png




      四、后話

      接下來網站還會做軟件檢測,這個軟件不僅包括原創、獨家檢測,還包括標題評分、用戶文檔需求挖掘等功能。該軟件上線后本站會公布給大家免費下載、免費使用,謝謝大家!

      ?

      四川文動網絡科技有限公司

      2020年3月19日星期四



      頂(0)

      踩(0)
      網友評論(0)

      暫無數據~
      立即去評論吧