人民报
 

人工智能检析三退数据 700万中共党员退党 (多图)

大纪元记者慧子




QSD软体开发公司在全球退党服务中心、大纪元退党网站的授权下,成功地独家开发了退党网络在线实时分析系统最新版本, Quitting CCP Internet Data Real Time Analyzer, Ver1.0, 并于日前首度投入运行,对三退网络数据进行了授权下的独立检索分析。

【人民报消息】自从2004年12月4日首日109人在大纪元网站上公开发表退出中共组织以来,直到本月6月4日为至,整整18个月(一年半) 550天里,退党大潮在中国大陆持续而稳定地波及着中国社会各个层面,也引起了国际社会的密切关注。截止6月4日,据大纪元退党网站上发布的退党退团退队 (三退)总积累人数超过1090万。人们一直关心的是,在这趋近1100万的三退人群中,有多少真正是中共党员。

记者今天为此采访了位于南加州的 Quality Software Developer (QSD)软体开发公司。该公司在全球退党服务中心、大纪元退党网站的授权下,成功地独家开发了退党网络在线实时分析系统最新版本, Quitting CCP Internet Data Real Time Analyzer, Ver1.0, 并于日前首度投入运行,对三退网络数据进行了授权下的独立检索分析,于昨日正式发出检索统计分析报告。

该报告表明:通过该网络分析系统对于 2004年12月4至2006年6月4日期间550天的所有三退声明数据进行电脑人工智能检索分析,其结果显示:在总数为10,894,981(6月4日下午6时51分美西时间)的三退人数中,有6,589,648人为中共党员的退党人数,占总三退人数的60.5%。由于尚有1078693人次的声明因为中文表达的复杂特点令电脑分析系统不能确切判定,考量此100万未确定的三退人群中尚含有一定数量的党员退党数字,故60.5%的退党百分比为最低保守数字,而实际的退党人数可能超出660万这个保守退党人数,大概至少有700万中共党员在过去的一年半中退出了中共组织。




2004年12月4至2006年6月4日期间,退党、团、队人数分别占总三退人数的60.5%、16.3%、13.3%。

该网络分析系统具有高速人工智能汉语分析能力,具备对数以千万计的三退网络资讯进行准确快捷的检索、分类和统计功能,旨在对数量庞大并继续快速增加的网上三退声明的文字资讯进行分类检索,以期满足海内外各界人士一直对三退人数中实际中共党员人数的真实分布情况的迫切关注;同时可以帮助海内外政治经济文化等各个阶层人士对于中国大陆出现的三退大潮的实际状况、未来趋势、对于国内事态及国际社会的影响等方面作出客观的和科学的评价和判断;也同时对于中共内部尚未退出相关组织的人士及时作出正确的选择提供参考资讯。

记者采访该公司软体开发负责人刘博士,他介绍了他们首度运行该分析系统的情况和目前得知的最新数据。记者亲自看到初次投入运行的快速网络分析系统的实际运行情况,并对屏幕上的在线报告数据感到极大的兴趣。刘博士在记者建议下获得该网络分析系统在本报告截止时间的屏幕快照画面,上面的报告数据成为过去一年半期间中国大陆实际党员退党人数的首次数字证据之一。




2004年12月4至2006年6月4日期间,退党、团、队人数分别占总三退人数的60.5%、16.3%、13.3%。

当记者问到,如何对三退声明的文字进行检索分析并确保其结果的准确性时,刘博士对于他们软件设计的一些基本原则性构思和程序化过程做出了如下解释。他说: “人类语言(包括人类的文字语言),与电脑语言有着很大不同,它并不是一种确定的线性形式的信息,尤其是中文的表达方式多样而复杂,这对于开发分析中文语言文字的电脑软体来说,在技术上提出了一个一定程度的难题。”

“对于三退声明的文字分析这一特定目的的软体,我们首先采取人工的方法阅读大量的三退声明的文字数据,对于人们各种可能的表达方式、语法结构、用词特点、标点使用、以及人们的语言心理过程等进行分析和分类。然后针对这些尽可能的语言模式设计出电脑分析用的各种过滤器。当文字信息经过这些过滤器时,它们将被自动筛选分类。过滤器即是一些关键词的前后不同组合。比如:”

“退党、退出共产党、退出邪恶共产党、退出邪党、退出恶党、退出中共、退出早年加入的共产党、我曾加入过共产党,现在退出、我是中共党员,现在声明退出,等等等等,许许多多的可能说法,更加对相关词的先后搭配来分析其说话人的意思。以上这些说法都可分为退党类中。”

“也有许多声明有退党、团、队在同一个短句或段落中出现。这时必须对整个声明进行读写和分析,从而做出正确判断。凡是声明人同时声明退党、退团、退队的,就分为退党类;凡是声明人同时声明退团、退队的,就分为退团类;当然只是声明退队的那么就是退队类。句子中退党、团、队的顺序可能各有不同,但根据其所退最高组织为准而分类。”

“对于同一声明中多人声明退党团队的,需要逐字分析哪些人属于退党,哪些人是退团或者退队的。有时声明人写的清楚,如退党人:XXX,XXX,XXX,列出人名。那么我们的软体可以清点人数而将其归入退党类。人名可能以逗号分开,也可能以顿号、甚至个别的也有用其他标点分开的。有时是中文的标点,也有时是英文的标点,这都要加以区分方可准确无误地数清人数。在人名前的引导词,也可能是各种说法,比如:“退党声明人:”“退党团队人:”“退党、团、队人:”“退党,团,队人:”“退党退团退队人:”等等,许多可能都要考量进去。这里就不去一一列举了。总之,我们的软件工程师竭力将各种中文的语言表达方式“教”给电脑,让它掌握识别分析此类中文语句的能力。”




2004年12月4至2006年6月4日期间,退党、团、队人数的逐月分布曲线。退党曲线上升的月平均斜率为12040/月。

刘博士最后告诉记者说:“我们在开发上述网络数据分析系统的过程中,因为阅读大量退党声明的内容而受到极大的鼓舞,不仅看到了中国大陆退党现象的真实性,也被那些中共内部醒悟后同胞那种毅然决然又刻不容缓退出的迫切心情所感动,深深感到中国大陆出现的退党大潮是一件历史意义重大的民族精神觉醒运动,一个有着五千年中华民族传统道德基础的民族开始在从近一个世纪外来邪灵控制中苏醒过来,这非常令人欣慰。”

“过去整整550天的退党大潮中,我们的网络系统对每一天每一个记录进行逐字分析,我们的面前掠过一个个以日期、时间分秒、人名、地区、声明人数、声明全文为记录项目的真实文字数据,有的是一个人退党,有的是成群结队数百人集体退党,就是受到这些人们的精神力量的鼓舞,我们一次次不倦地修改和完善着我们的软体,最终得以顺利完成。”

“我们对我们的产品及其分析结果的准确度具有足够的信心,我们曾经对现有分析结果,通过部分人工阅读分类的方法加以评估,结果与我们的电脑软体分析结果相吻合。希望我们的分析数据对于各界人士提供有价值的参考。我们还将继续努力,对于那些尚未确定分类的占总三退人数9.9%的100万三退声明进行更高一级的分析检索。我们在升级我们的版本,设计一种更为合理准确的检索系统,降低误差和不确定分类的比例。”




过去一年半期间550天逐日退党、团、队的分布曲线。退党数据分布具有总三退数据的分布特征,代表了三退的主体。

最后刘博士用一段来自中国大陆的退党声明与我们的读者分享:

“在共产党的红色宣传和蒙骗中,我带着个人目的入了党。自从入党后,我深感痛悔,因为我越来越认识到共产党是一个说谎的党,是一个整人的党,是一个假话说尽坏事做绝的党。近几年来,我更感到它是一个祸国殃民的邪灵,它的实质--不仅狡诈、尖滑、堕落腐败,而且发展为好坏不分,正邪不分,善恶不分,黑白颠倒。它凶恶、残暴,流氓手段,比黑社会更邪。为此,我特声明从今以后退出共产党,不再参加其组织的任何活动,以前的入党宣誓我宣布作废。”

(图片来源 : 大纪元)


文章网址: http://www.renminbao.com/rmb/articles/2006/6/6/40679.html
 
文章二维码: