網友統計出99個宋詞高頻詞匯 可按編碼作詞
2012年11月29日 10:01
來源:漢網-武漢晚報 作者:翁曉波
統計學研究生挖掘99個高頻詞匯編號碼 武大博導說,這只是一個文字游戲 一位學習統計學的網友,利用所學將《全宋詞》中出現的99個“高頻詞匯”統計出來,發在博客上。闌干年年萬里,一笑黃昏當年……” 記者用多位同事的身份證號碼、生日號碼等,套用這些代碼,果然也能產生出一首首有模有樣的“宋詞”。
原意不是為了“寫詞”
看到帖子被大量轉發,“yixuan ”在自己的博客上又寫了一篇解釋,他說,“自動寫詞機”并不是我的創意,也不是我的初衷。
“yixuan ”說:“我學的專業是統計和精算,平時會和各種類型的數據打交道,之前寫那篇博文也是出于興趣,想利用學到的專業知識來對一些實際問題進行分析。”
他說,很多人肯定都會提到“自動寫詞機”,就比如拿生日、QQ、物理常數等套用里面的排序來“寫詞”。但我想說的是,這其實不是我的創意,也不是我寫那篇博文的初衷。如果大家看過那篇轉帖,就會發現大家開始“狂歡”是因為“達芬奇的雞蛋”的創意,而詞頻統計本身并沒有任何特殊之處。
事實上,大家可能聽說過“文本挖掘”這個名詞,它就是對文本數據進行分析,來得到有用的結論。文本挖掘是個很復雜的過程,牽涉到分詞、詞頻統計、特征選擇、聚類等等,如果大家對這一塊內容有所了解的話,就會知道詞頻統計是一個很平凡的過程。
“yixuan”說:可能有些朋友覺得我得到宋詞的詞頻是一件技術含量很高的活兒,但從技術層面上來講,我做的那些東西也并無任何高級之處(當然需要有一些編程經驗)。
只是一個文字游戲
這99個“高頻”詞匯真的有那么神奇?昨天,武漢大學文學院博導王兆鵬教授看了后評論說:“這只是一個文字游戲”。
王兆鵬說,漢語語言中,詩詞的語序不需要確定性,同時漢語語言具有多義性。很多詞語組合起來,都可以說得通。比如我們說“吃飯”大家能聽懂,但說“飯吃”,也能理解是怎么回事。
從嚴格意義上說,通過這99個編碼做成的“詞”,平仄完全不符合要求,也不符合詞牌的要求。但形式上挑不出什么毛病,也有一點詞的味道。
王兆鵬說,宋詞是一種文學藝術,講究獨創性和意境,讀者通過讀詩詞能夠看到里面的意境,這是藝術。“如果寫詞這么容易,那誰都可以寫詞了。”
不過,王兆鵬也認為“yixuan ”的做法很有創意,“能從這么多詞中總結出99個高頻詞匯,是需要花功夫的,也說明這個學生很努力,這是一個比較高級的文字游戲,雖然談不上有什么文學意義。”
中南財經政法大學統計與數學學院博導李占風教授說,利用統計學原理確實可以在詩詞等文學作品中,做一些研究工作,這位學生學以致用,值得表揚。
相關新聞:
頻道推薦
智能推薦
圖片新聞
視頻
-
滕醉漢醫院耍酒瘋 對醫生大打出手
播放數:1133929
-
西漢海昏侯墓出土大量竹簡木牘 填史料空缺
播放數:4135875
-
電話詐騙44萬 運營商被判賠償
播放數:2845975
-
被擊落戰機殘骸畫面首度公布
播放數:535774













