網友統計出99個宋詞高頻詞匯 可按編碼作詞
2012年11月29日 10:01
來源:漢網-武漢晚報 作者:翁曉波
統計學研究生挖掘99個高頻詞匯編號碼 武大博導說,這只是一個文字游戲 一位學習統計學的網友,利用所學將《全宋詞》中出現的99個“高頻詞匯”統計出來,發在博客上。闌干年年萬里,一笑黃昏當年……” 記者用多位同事的身份證號碼、生日號碼等,套用這些代碼,果然也能產生出一首首有模有樣的“宋詞”。
統計學研究生挖掘99個高頻詞匯編號碼 武大博導說,這只是一個文字游戲
一位學習統計學的網友,利用所學將《全宋詞》中出現的99個“高頻詞匯”統計出來,發在博客上。沒想到,這篇博文很快就被大量轉載,并有網友利用這些高頻詞匯重新“寫詞”。圓周率、生日、身份證號碼都可以組成一首形式上的“宋詞”。
在江漢大學剛剛舉辦的“詩詞吟誦暨詩歌大賽頒獎會”上,不少學生討論這個話題。真的存在網友說的“自動寫詞機”嗎?記者展開采訪調查。
《全宋詞》中的99個高頻詞匯
話題的“始作俑者”是一位學習統計學的研究生,網名“yixuan”,他在博客上發表一篇文章:“突然想看看宋詞里面什么樣的意象是最常見的,比如可以做個頻率分析什么的。當然文本挖掘需要分詞,我沒法在其中花太多時間,于是想出了一個土辦法。”
宋詞的句子都很短,最常見的詞語一般是兩三個字,這樣可能的組合就更少了。比如“猶解嫁東風”這句話,可能的二字組合是“猶解”“解嫁”“嫁東”“東風”,三字組合是“猶解嫁”“解嫁東”“嫁東風”,詞的字數越多,可能的組合就越少。
“yixuan ”統計出99個《全宋詞》中的高頻詞匯。排在前面的依次為“東風(1382次)、何處(1230次)、人間(1202次)、風流(857次) 、歸去(812次、)春風(802次)、西風(779次)、歸來(771次)、江南(765次)。
“yixuan ”的這篇博文一發出來,很快就被另外一家網站轉載,大量網友被這個有趣的話題吸引,紛紛發帖評論。
高頻詞匯被演繹成“自動寫詞機”
在大量評論后面,一位名叫“達芬奇的雞蛋”發現,利用這些“高頻詞匯”的代碼,可以隨意拼湊出一首首宋詞來。比如用“圓周率”的數字排序,結果就是:回首明月(一看就是抒情詩)
悠悠心事空
西湖何事寂寞中
風吹斜陽匆匆
芳草平生斜陽
風吹寂寞今日
一枝富貴年年
斷腸長安不知
一時間,眾多網友用自己的身份證號碼、各種數字組合來“寫宋詞”。如網友“葉綠彘”的“作品”是:“東風何處?人間風流。歸去春風,西風歸來。江南相思,梅花千里。回首明月,多少如今?闌干年年萬里,一笑黃昏當年……”
記者用多位同事的身份證號碼、生日號碼等,套用這些代碼,果然也能產生出一首首有模有樣的“宋詞”。
相關新聞:
頻道推薦
智能推薦
圖片新聞
視頻
-
滕醉漢醫院耍酒瘋 對醫生大打出手
播放數:1133929
-
西漢海昏侯墓出土大量竹簡木牘 填史料空缺
播放數:4135875
-
電話詐騙44萬 運營商被判賠償
播放數:2845975
-
被擊落戰機殘骸畫面首度公布
播放數:535774













