您好、欢迎来到现金彩票网!
当前位置:2019跑狗图高清彩图 > 向量化率 >

情感分析

发布时间:2019-07-22 05:34 来源:未知 编辑:admin

  情感分析(SA)又称为倾向性分析和意见挖掘,它是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程,其中情感分析还可以细分为情感极性(倾向)分析,情感程度分析,主客观分析等。

  情感极性分析的目的是对文本进行褒义、贬义、中性的判断。在大多应用场景下,只分为两类。例如对于“喜爱”和“厌恶”这两个词,就属于不同的情感倾向。

  请噶程度分析主要是对同一情感极性中再进行划分或者细分,以描述该极性的强度。例如“喜爱”和“敬爱”都是褒义词,但是“敬爱”相对来说褒义的程度更加强烈一些。

  主客观分析主要目的是却别文本中哪些部分是客观称述而不带情感色彩,哪些是带有情感的主管描述。在对于微博,或者商品评论时,这个分析步骤一般都忽略,因为微博和商品评论本身就一定存在强烈的情感色彩,而且客观描述的情感值理论上是为零,不影响最终的情感分析结果。

  基于词典的方法主要通过制定一系列的情感词典和规则,对文本进行段落拆借、句法分析,计算情感值,最后通过情感值来作为文本的情感倾向依据。

  基于机器学习的方法大多将这个问题转化为一个分类问题来看待,对于情感极性的判断,将目标情感分类2类:正、负。对训练文本进行人工标标注,然后进行有监督的机器学习过程。例如想在较为常见的基于大规模语料库的机器学习等。

  情感分析对象的粒度最小是词汇,但是表达一个情感的最基本的单位则是句子,词汇虽然能描述情感的基本信息,但是单一的词汇缺少对象,缺少关联程度,并且不同的词汇组合在一起所得到的情感程度不同甚至情感倾向都相反。所以以句子为最基本的情感分析粒度是较为合理的。篇章或者段落的情感可以通过句子的情感来计算。

  考虑到语句中的褒贬并非稳定分布,以上步骤对于积极和消极的情感词分开执行,最终的到两个分值,分别表示文本的正向情感值和负向情感值。

  进过以上的步骤,每篇文章的每个段落的每个句子都会有相应的情感分值,之后针对需求,可以针对句子的分值作统计计算,也可以针对段落的分值作统计计算,得到最后的文本的正向情感值和负向情感值。

  基于机器学习的情感分析思路是将情感分析作为一个分类过程来看待。例如对于极性判别来说,正向极性和负向极性就是目标类别,对文本内容进行结构化处理,输入到给定分类算法中进行训练,并对测试数据用模型来预测结果。

  文本结构化是机器学习中重要的一步,由于文本的特殊性,计算机不能直接理解文本中的语义。需要将文本转结构化以此作为分类器的输入。

  在中文中,最小语义粒度为字,但是一个单字所表示的语义信息太少,一般的,大多都以词作为最基本的语素,因为这在实际的交流中也正是如此。但是用词作为最小的语义粒度也有一个问题,就是词和词之间的关系随着分词而丢失了,其实这部分信息非常重要。为了减小这种隐性的语义损失,有人提出了N-gram模型。N-gram模型基于这样一种假设,第n个词的出现只与前面N-1个词相关,而与其它任何词都不相关。简单来说,unigram模型对应的最小语素就是单字,bigram模型是二字串,举例说明:“我爱北京”的bigram表示形式就是“我爱 爱北 北京 京天 天安 安门”,以此类推。由于N-gram存在致命的缺陷——产生的结果过于稀疏,假设正常分词的词表中有1000个词,如果是bigram那么可能的N-gram就有1000000个,如果是trigram,那么可能的N-gram就有1000000000个,其维度增长是指数级的。一般在使用中只使用二字串或三字串作为最小的语义粒度,并且需要其他处理来缩减维度,减少计算资源的消耗。

  文本向量化是文本结构化的最重要的一步,如果说确定最小语义粒度是告诉计算机最小的语义信息单位的话,那么向量化则是告诉计算机该用什么结构来理解文本。比较主流的表示方式有:词袋模型和向量空间模型。这两个模型其实较为类似,两者都将词汇(或者N-gram中的最小语素)作为切分的最小粒度,拆分一句话,得到“我” “爱” “北京” “”,根据每个词出现的次数设置词的权重,转化为[1, 1, 1, 1]形式的向量。而向量空间模型则是在词袋模型的基础上,将多个文本的词袋模型整合在一起,组成一个单词-文档的二维矩阵。其中词又称为维度或者特征,一般的,基于词典情感分析都基于前者,而后者是应用在大规模语料库上。

  在词袋或者词频矩阵中,如果出现这个词,则标志为1,没有出现则标志为0,这被称为布尔权值。人们发现有些词在文章中出现次数很多,理应有更加重要的地位,所以布尔权重升级为词频权值,用该词在文章中出现的频数作为权值。再后来人们又发现,有些词在所有文章中都有很高的词频,例如“的”。这些词反而对文章来说没有有价值的信息,需要剔除,以节省性能开支。所以人们通过逆文档频率idf来将这些分布较为平均的词剔除掉,词频和逆文档频率的乘积就是现在较为常用的tf-idf权值。

  注:这里用权值是为了和区分之后会提到的特征选择时提到的权重,这两者的区别在之后会介绍。

  特征提取是文本向量化的最后一步,其重要性更多的体现在于防止模型过拟合以及在不损失精度的前提下减少运算开支。面对海量数据的时候,其重要性不亚于之前的任何一步。

  特征提取主要分两种方式:特征选择和特征抽取。特征选择就是在一堆特征中挑选出对目标类别贡献较高的特征维度,通过计算特征的权重,并依据权重重新排序挑选出较高的一部分特征维度作为模型训练的输入特征。这里的权重和之前讲到的词(也就是特征)权值是不同的。特征权重描述的是特征和目标类别之间的关系,而词权值是词在文章中的重要性的描述,这两者非常容易混淆。特征抽取则是将所有特征作为输入,通过某种方式或者算法,输出一批新的特征,这个特征的维度数量大大小于原始特征长度。此过程中的信息损失比特征选择少很多。深度学习和神经网络是主要的算法。

  文本结构化之后就可以进行训练了。当然之前还需要挑选一个合适的分类器。在各大文献中,较为推荐的文本分类算法大多为SVM。因为其较为出色的泛化能力(不容易过拟合),SVM也受到了工业界的青睐,被用于许多分类场合。当然,分类器有许许多多种,朴素贝叶斯、神经网络、K临近都有着各自的有点。本文主要从SVM入手,情感分析场景下的文本分类作一些说明。

  支持向量机是一种有监督的学习算法。其分类的判别标准为最大分类边界,处于分类边界上的向量(特征)即为支持向量。

  所以其直接参与分类运算的向量其实小于原始输入向量。这也是为什么虽然在训练的时候比较费时,但是在预测时期性能较好的原因。

  这里需要提到一个SVM中特有的概念,分类超平面。由于现实中的数据非常复杂,尤其是文本数据,在向量化之后并不能简单的用线性分割的方式将其区分,所以有牛人想到利用高维来解决低维中线性不可分的问题,以下是一个简答的例子,在二维中,无法用一条直线将这两组点分开。将其映射到三维场景时,就可以用一个线性平面将其分割。当然现实中的数据也不会那么简单,所以低维向高维映射之后的复杂程度也远远超过想想。不过依然有牛人通过数学证明的方式,证明了低维不可分问题在高维中,至少某一个高维中能够线性可分。

  不过支持向量机中的数学推导较为复杂,如果详细讲解可以另写一篇文章,这里就不做过多讲解。但是有几个比较重要的概念不得不提:核函数,松弛变量。

  核函数:核函数是一类能够简化低维到高维运算的函数,通过他能够将低维的数据映射到高维中。之前提到了低维向高维映射的过程,但是在实际操作中会发现,这之间的一个映射关系通常是非常难解甚至是不可解的。依旧是牛人,通过一组符mercy定律的函数,找到了低维和高维之间关系的方法。这些符合mercy定律的函数就称为核函数。

  松弛变量:在分类问题中,往往会遇到因为遇到噪声而导致分类器对于训练集效果较好,但是对于其他测试集则效果较差的问题,在传统统计算法中,这个现象被称为过拟合。为了避免这些噪声的干扰,需要对SVM的决策边境进行“软化”,让其适当地允许“错误”产生,引入松弛变量。

  在文本分类场景中,选择线性核函数或者高斯核函数较为平常,前者计算效率较高,后者效果较好。在本文场景下选择高斯核函数。松弛变量的选择依据主要为实际的模型拟合和在预测集上的表现来决定。

  因为在文本分类中类别不平衡经常出现(某一类非常多其他类非常少),如果以所有类别的准确率来作为分类器的评判指标的话,就会出现一个问题,假如二类样本中,1类占到了90%,2类只有10%,那么大多数分类器只需要将所有样本都判为1类就有90%的准确率。但是我们可能更关注那10%的类别,这样的分类器对我们来说相当于没有效果的分类器,是不可接受的。所以在评价分类器效果时,引入了信息检索中的混淆矩阵:

  传统的准确率计算公式就是图中的Accuracy,考量了分类器对于两个类别的总体的分类效果,由于其在不平衡样本中效果不好,所以提出了精度和召回率这两个指标。

  召回率:也成为True Postive Rate,反映了被正确判定的正例占总的正例的比重。

  这两个指标都100%的分类器几乎不存在(就连人都很难做到),并且经过实验发现,这两个指标在同一场景中具有互斥的性质。当精度较高的时候往往召回率较低。往往需要我们在面对具体问题时具体分析,例如在本文所描述的情感分析中,我们更加关注10%的2类,希望判定2类的准确度越高越好,那么这时候2类的召回率会比较低(可能不到50%),但是精度会相对来说较高(可能在70%-80%左右);若如果我们认为希望2类的文章多一些,则在挑选分类器的时候更看重哪些召回率较高的。不过也有牛人为了帮助哪些“选择困难症患者”帮助挑选分类器,提出了F-measure检验,以此同时考虑两者的结果。

  相对于基于辞典的情感分析,机器学习不太关注这篇文章中是否含有这些或那些情感词,他更加依赖于训练集文章被标注的类别是什么。他结果的好坏和语料库的规模(预料是否包含足够多的信息)和语料库的标注准确率(如果你告诉我橘子是西瓜,那么以后我遇到橘子都会判它为西瓜)。在实际运用中可以两者相辅相成,在短文本中,基于词典的情感分析效果更加好,例如微博、商品评论等。而长文本则更加适合机器学习来处理。

  摘要:如今,Twitter、Tumblr和Facebook等社交网站深受互联网用户欢迎。在这些热门网站上,每天都有数以百万的消息产生。这些消息的作者记录自己的生活,分享对不同话题的看法,并讨论当前的问题。此类网站已经成为人们评论与情感信息的宝贵来源,这样的数据能够有效地用于...

  在互联网日益发达的今天,许多消费者不管是通过线上电商网站或者线下门店购买商品后,包括买车、买手机等,都会到品牌官网或者一些专业网站甚至社交媒体去发表对产品的评价。对于买家来说,买前查看评论是了解一款产品真实情况的重要途径。对于商家而言,研读评论则是了解客户反馈、了解产品优势...

  原文链接:原文作者:Michael Czerny 情感分析是一种常见的自然语言处理(NLP)方法的应用,特别是在以...

  精卫鸟 丁香 众幽灵 跨鲸而来 有这样的故事,很多跌崖之幽灵悲哀地鸦聚华山之麓,酿造迷魂酒浆,诱惑酩酊大醉者走向断崖 一天一只五彩小鸟盘桓飞来,揭开了本章序幕 精卫鸟 好寥廓啊 离开了大海的轰鸣 穿越无数风景 双翅在饥渴炙烤里疾行 坟墓里的幽灵啊 可否在我翼风中...

  4.更新数据表 更新数据表 语法: UPDATE 表名 SET 字段名=表达式 [, 字段名=表达式 ...] [WHERE 更新条件] [ORDER BY 更新顺序] [LIMIT 限制更新记录数量] 实例1:开发部加薪啦!将开发部全体员工加薪500元 为了看到更新效果...

  这是我第28篇原创日记。坚持的力量,持续写作,持续分享美乐家。 5月28日 惠州晴 端午节放假,先生说要去惠州看姑妈一家,几年不见了,理解他的心情和感情,尽管并不十分想去,也配合此行。 表妹的女儿子欣非常可爱,四岁左右,能歌善舞,聪明伶俐,还伶牙俐齿,活泼可爱...

  1 牛人都是狠角色 据说史蒂夫·乔布斯年轻时每天凌晨四点起床,九点前把一天工作做完。乔帮主说:自由从何而来?从自信来,而自信则是从自律来。 自律是对自我的控制,自信是对事情的控制。先学会克制自己,用严格的日程表控制生活,才能在这种自律中不断磨练出自信。 都是成年人,连最基本...

  今天下午去听樊登读书会,听的是养育男孩儿,里面讲到不要强迫孩子按自己的思维方式去生活,这一点真的是不敢苟同。我这两天正受这个问题的困扰。 不安家长的思维方式去做,难道就按照孩子自己的想法去做吗?孩子现在五年级,别人家的小孩儿从二三年级都开始报英语班,奥数班。我们之前一直没报...

http://chinoamobi.com/xianglianghualv/294.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有