欢迎来到天天文库
浏览记录
ID:5383118
大小:667.79 KB
页数:14页
时间:2017-12-08
《意见持有者辨识之研究意见持有者辨识之研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、意見持有者辨識意見持有者辨識之研究意見持有者辨識之研究AStudyonIdentificationofOpinionHolders李佳穎古倫維陳信希國立臺灣大學資訊工程學系{cylee,lwku}@nlg.csie.ntu.edu.tw,hhchen@csie.ntu.edu.tw摘要意見持有者辨識是從意見句中擷取出表述意見的人或組織,本研究將意見持有者辨識分為作者意見辨識及意見持有者標記兩部分,作者意見辨識使用支援向量機處理,意見持有者標記使用條件隨機域處理。本研究提出的方法應用在NTCIR7MOAT繁體中文語料的效能達到F值0.
2、734,是採取機器學習方法的參賽隊伍中效能最佳者,也相當接近目前最佳系統的效能。對於意見持有者辨識語料中標記歧異的情形,本研究加以分析,並提出使用此語料來訓練模型的方法。AbstractTheidentificationofopinionholdersaimstoextractentitiesthatexpressopinionsinopinionsentences.Inthispaper,thetaskofopinionholderidentificationisdividedintotwosubtasks:theidentifi
3、cationofauthor’sopinionsandthelabelingofopinionholders.Supportvectormachineisadoptedtoidentifyauthor’sopinions,andconditionalrandomfieldmodel(CRF)isutilizedtolabelopinionholders.TheproposedmethodachievesanF-score0.734inNTCIR7MOATtaskattraditionalChineseside.Theproposed
4、methodachievesthebestperformanceamongparticipantswhoadoptedmachinelearningmethods,andalsothisperformancewasclosetothebestperformanceinthistask.Inaddition,theambiguousmarkingsofopinionholdersareanalyzed,andthebestwaytoutilizethetraininginstanceswithambiguousmarkingsispr
5、oposed.關鍵詞:意見持有者辨識,意見探勘,條件隨機域,支援向量機Keywords:opinionholdersidentification,opinionmining,CRF,SVM.一、緒論意見代表人們對某個議題的主觀想法,人們常透過文章表述意見。隨著Web2.0的崛起,網路上出現大量、免費與即時的資料,使用者對文章中的意見很感興趣,但卻無法大量閱讀數以千萬計的資料。意見探勘(opinionmining)的技術可以幫助使用者自動分析文章中的意見,Kim和Hovy[1]在2004年提出意見中包括意見傾向(opinionpola
6、rity)、意見強度(opinionstrength)、意見持有者(opinionholder)及評論目標(opiniontarget)四個要素。意見傾向描述此意見是正面、中立或負面,意見強度描述此意見的語氣強弱,表述此意見的人或組織稱為意見持有者,而討論的主題則稱為評論目標。以例句1為例,此句的意見傾向為正面、意見強度為強烈、意見持有者為王建民、評論101目標為打棒球。意見持有者通常會以一或多個詞的形式出現在意見句中,我們將這些詞稱為意見持有者的代表詞,但有時意見持有者不會以詞的形式出現在意見句中,例如例句2是作者根據例句1「王建
7、民」的意見推論的意見,例句2的意見持有者為文章作者。例句1:王建民非常喜歡打棒球例句2:王建民應該也喜歡打網球在意見探勘中,意見持有者辨識的技術對於了解有哪些人或組織在表述意見、某個人或組織在哪些議題中發表過意見及兩個人或組織發表過的意見是否相似等相關資訊特別重要。意見持有者辨識可應用於社群網路分析中,找出社群網路中是否存在著一些意見領袖,他們的意見常被引用,也會影響其他使用者的意見。意見持有者辨識也可以應用在意見問答系統中,找出某些意見是由哪些意見持有者提出的,並進而藉由意見持有者的權威性與可靠度來輔助判斷答案的權威性與可靠度。意
8、見持有者辨識主要有三大挑戰:同指涉解析、巢狀結構及處理歧異的標記。意見持有者有時會以代詞(Anaphor)的形式出現在文句中,並指涉到前面的先行詞(Antecedent),例如例句3中的「雙方」即是指涉到「美國」與「中共」。例句3:據
此文档下载收益归作者所有