金融界论坛
尊敬的用户:

如您在使用金融界网站论坛的过程中发现色情,反动言论,伪造他人言论,广告欺诈等帖子,为便于网友反馈问题,特将金融界论坛管理员联系方式公布如下,欢迎大家有问题或者建议随时联系。

金融界客户服务中心邮箱:jrjhudong@jrj.com.cn

论坛客服电话010-58325388-1532

金融界论坛官方账户:管理员01

金融界论坛客服QQ:2632547546

首页| 我的金融界| 博客| 论坛| 爱股| 爱投顾| 实盘直播| 微视频| 图片 [手机金融界] [网站地图] [收藏本页]

金融界论坛>股票论坛>丰功伟绩

新浪微博微信QQ

荐股 发新帖 刷新 以旧版方式浏览 手机上论坛

『转帖』主题: [荐] “韩寒”小说的语言指纹分析

举报 收藏本页

悟得我克查看TA的论坛文集  查看TA的荐股记录发表日期:2012-05-05 13:50:09

头衔:论坛贵宾积分:97417 关注加为好友 引用 评分 只看该作者



  在挺韩和倒韩的对抗中,双方都使用了语言指纹分析。倒韩的石毓智博士的结论是韩寒有代笔,而挺韩的复旦大学孤苏杰博士的结论竟然是“韩寒就是《三重门》的作者”。苏杰博士的逻辑冒进,我已经著文批评过,其他网友也多有批评讨论。但语言指纹技术在汉语中锁定文章作者身份,到底能发挥多大的作用,现在看来基本没有深入的研究。苏杰博士的方法漏洞很大,石博士的研究数据指标又没有披露细节。好在,语言指纹的原理简单易懂,我们缺少的只是经验和方法,所以,我才不惴浅陋,着手汉语语言指纹的初步研究。具体工作非常琐碎,我先说一下我的初步综合结论:

  ⑴ 《三重门》不是一人所写,韩寒参与了改写;
⑵ 《像少年啦飞驰》可能是韩寒独立完成的小说,小说由童年和成年拼凑在一起,更符合韩寒成名后的现实和奔波。(PS,小说中间描写了“我和老枪”给出版商代笔的生涯,老枪就是代笔枪手)
⑶ 从《长安乱》开始,韩寒的小说语言特征相对一致,但与《三重门》和《像少年啦飞驰》区别明显,所以,韩寒从《长安乱》开始的代笔者可能只有一人。
⑷ 路金波(李寻欢)不可能是韩寒的代笔者。韩仁均的文章还没有整理出电子版,尚不知能否排除代笔可能。
⑸ 韩寒的代笔者未必是知名作者。枪手是一个行业,有它的规则。韩寒悬赏2000万又食言,因为枪手一辈子也不可能挣到那么多,200万都足以让枪手成为行业的叛徒。

       ――――――――――――――――――――――――――――

  还是先说说苏杰博士方法的漏洞。
我们知道,即使是同一作者的两部长篇小说,由于内容不同,叙事角度和方式不同,可能导致对词语的使用选择不同,使用频率也不同。在全知视角的小说中,会更多出现“不幸”“没想到”这样的词汇,因为写作者会随时出来表明对叙述对象的态度。而在“客观写作”中,夸张和评价性的词汇就是大大减少。
所以,苏杰博士用“没想到”、“谁知”、“光”、“不幸”、“这人”这五个词来证明韩仁均不是《三重门》作者,方法上存在漏洞,并且,选词也太少,不能有力支撑结论。如果我们相信苏杰博士方法的可靠性,那么,不仅可以立即宣布“韩寒”小说不可能是一个人所写(请参看我的图表数据),而且,很多作家都不免被判定代笔。

 

图片

   研究实践表明,证明代笔存在并不那么轻易,锁定代笔者就更加困难。
澄清三个认识错误:
  ⑴ 否定苏杰的方法,并不表示语言指纹法不可用,更不表示韩寒没有代笔,只是说,证明代笔或者区别两部小说的不同作者,需要更严谨的方法。
⑵ 再次强调,即使证明了韩仁均或者路金波不是“韩寒”小说的作者,也并不意味着证明了韩寒就是署名“韩寒”的小说作者。
⑶ 语言指纹是研究代笔问题的方法之一,其他研究方法同样重要,同样值得努力。

   
现在介绍一下我的概念和方法。
  一、“通用指纹”和“个性指纹”的概念:
汉语有很多同义词、近义词和多义词。有些同义词不仅彼此可以在任何语境下互换使用,而且,本身没有任何歧义和多义,不同的作者究竟使用哪个词较多,完全是出于个人习惯。
比如,“居然”和“竟然”,在所有找到的李寻欢的小说和文章中,使用“竟然”103次,使用“居然”0次。方方在《风景》和《桃花灿烂》中,使用“居然”11次,使用“竟然”0次。阿来在《尘埃落定》中,使用“居然”9次,使用“竟然”17次。刘震云在《一句顶一万句》中,没有使用这两个词。在对同一作者不同时期的小说的统计发现,一个作者使用“居然”和“竟然”的比例是相对固定的。因此,“居然”和“竟然”作为一对同义词,就有了类似血型的作用,可以区分不同的作者类型。
因此,我和李寻欢都属于“竟型指纹”;方方属于“居型指纹”;阿来属于“竟居型指纹”;刘震云属于“无竟居指纹”。
除了居然和竟然,看到和看见,听到和听见,忽然和突然,经常和常常,不仅和不光……等等,都是比较好的用以区别不同作者的特征指纹,它们的好处就是大量使用并且没有歧义,并且容易检索。(但“不光”这个词在检索时,容易把“不光彩”的前两个字,误认作“不光”,需要注意)。
上述能够区别不同作者的同义词对,我称之为“通用指纹”。具备“完全同义”、“无歧义”“均被大量使用”三个特点的同义词对,就可以成为好的通用指纹指标。通用指纹的优点是使用“词对”的相对比例来区别不同的作者,这个相对比例是通过文本内部的自身比较,题材和写作方法对词对的影是相同的,因而不会改变它们的出现比例。可见,通用指纹方法,比苏杰博士的方法要科学得多。
因为是从零开始研究,可能有非常好的通用指纹指标没有被我发现,比如,在形容词中,可能也有适合作通用指纹指标的词对。
单独的通用指纹可以有效区别不同类型的作者,但要锁定同一个作者,就需要尽可能多的不同指纹指标来缩小范围。就像在电视剧《血疑》中,AB型血比较少见,RH阴性AB型血就非常罕见了。多个不同的通用语言指纹指标相组合,就有可能锁定某一个写作者。
而“个性指纹”则是通过研究某篇或者多篇同一作者的文本,总结和发现言语使用习惯的个性,通过多个如此的个性特点,来界定写作者的个性语言特征组合。总结个性指纹,首先要确认此作品是一人所写,多个作者合写,或者经过不同人编辑修改的文本,会呈现更多的语言丰度,并使个性特点被掩盖。
我之所以断定《三重门》有多人参与写作和修改,就是因为在总结它的语言通用指纹时,发现它对同义词几乎没有极端偏好,而很多作者是会在某个指标上显示极端偏好,并且,《像少年啦飞驰》就明显有极端偏好。
所以,我个人的观点是,如果试图锁定韩寒的个性语言指纹,研究《像少年啦飞驰》应当更靠谱。它的语言偏好明显,比如大量使用“××××的时候”、“××××的是”这样的句式,喜欢使用“些什么”和诸如“埋掉”“坏掉”“逃掉” “××掉”这样的写法,等等。
到目前为止,我的研究基本限于通用指纹,个性指纹还没有来得及深入。我只粗略统计了“的时候”在不同“韩寒”小说中的出现次数。请注意,在研究个性指纹时,一定要注意用“万字平均”的概念,也就是说,要用每10000字出现的平均次数来进行定量分析。
  二、研究方法。
  一项研究的科学性,一定是建立在可重复可检验的基础上。所以,在进行研究论证前,一定要先证明工具的有效性。
我对“通用指纹”的科学性的论证尽管数据完备上还可以改进补充,但它的逻辑思路是清晰的。
⑴ 通用指纹多样性存在的证明:
  选择了茅盾文学奖的部分长篇小说和王蒙、方方、叶兆言、王朔和李寻欢的文字作为标本,具体是:
01《平凡的世界》路遥
02《白鹿原》陈忠实
03《尘埃落定》 阿来
04《长恨歌》 王安忆
05《秦腔》 贾平凹
06《一句顶一万句》刘震云
07王蒙《球星奇遇记》《蝴蝶》
           《组织部来了个年轻人》《郑重的故事》《狂欢的季节》
           《青春万岁》
08方方《风景》《桃花灿烂》
09叶兆言《花影》《一九三七年的爱情》《我们的心多么顽固》
10王朔文集 纯情卷
11王朔文集 挚情卷
12李寻欢《边缘游戏》《迷失在网路与现实之间的爱情》《粉墨谢场》

 
文章不错(0) 复制链接
分享到:
  帖子刷新

楼主更多贴

荐股大赛

实盘直播

讨论园地

首页1末页

荐股 发新帖 刷新 以旧版方式浏览

首页1末页共1页 到

返回论坛首页返回本版首页

论坛上一帖:  

论坛下一帖:  

近期热门话题推荐

荐股人气榜

我要上榜 | 更多>>

小心买坚决卖  
荐股大赛排名:1
总收益率:14160.32%
平均收益率:30.00%
推荐次数:472
成功次数:456
今日访问量:129

年前的今天  
荐股大赛排名:2
总收益率:21800.65%
平均收益率:29.95%
推荐次数:728
成功次数:701
今日访问量:78

让我突然  
荐股大赛排名:130
总收益率:43474.39%
平均收益率:5.33%
推荐次数:8161
成功次数:4084
今日访问量:71

金融界>股票论坛>丰功伟绩