此前我们在 #OSINT 开源调查演示中提供了一些通过简单编程的数据挖掘技术。本文将侧重于不需要编程的挖掘工具,专注于文本和社交网络情感分析。追踪热点话题,掌握大众情绪
虽然人类还没有建立移情机器人,但已经开始使用机器学习来识别社交媒体数据中表达的人类情感,这种技术被称为情感分析。
Twitter 情感分析工具使您能够:
了解人们在 Twitter 上对某一事项的看法。
了解人们对您的竞争对手、整体市场趋势、产品供应等问题的看法。
分析动员推广活动对 Twitter 用户的影响。
总之,了解一个局势的概况(不论是政治还是商业)是调查工作的有利基础。
我们将在这里看一些免费的工具,用于对 Twitter 数据进行情绪分析。
NCSU Tweet 情感可视化应用程序(Web App)
北卡罗来纳州立大学高级分析研究所教授 Christopher Healey 博士为 Twitter 情绪分析建立了一个功能最强大的免费工具:Tweet Visualizer。
NCSU Tweet Visualizer 的特点:
易于使用
只需输入关键字,Tweet Visualizer 就会自动提取最近的推文(比如过去一周,尽管热门主题的时间范围较短)然后,您可以探索该工具为推文提供的众多可视化选项:
Tweet Visualizer 可视化中的一个非常有用的功能是,您可以将鼠标悬停在散点图的气泡上,从已识别的 Twitter 用户那里获取单个推文,并查看它们所属的情感范畴。
情感分析的复杂性
这提供有三个情感维度:
Pleasure(你有多高兴)
Activation(你多么兴奋)
Dominance(这个特定的术语指在多大程度上支配了文本片段的总体情绪)
NCSU Tweet Visualizer 提供的维度远远超过许多其他免费情绪分析工具,这些工具中的大多数只关注三个标准尺度:积极、消极和中立。这种笼统的划分可能会导致结果不准确。
“activation”维度听起来有些奇怪,但它有一个重要用途:“假设我对某些事感到非常高兴、并且非常激动:我使用的词语就会像'兴高采烈'或'兴奋'这样;现在假设我对某些事情同样高兴,但我的“激活规模”很低,在这种情况下,人们会说我比较'心平气和'或'放松'。
如果只关注是否愉快,将无法区分“兴奋”和“放松”。而 activation 标度则可以区分这两者。
主题聚类能力
最后,Tweet Visualizer 不仅可以处理情感分类,还执行主题聚类。
换句话说就是,它通过利用机器学习算法自动将推文聚类成相关主题(有关此类机器学习如何工作的更多详细信息,这里有一篇对聚类算法的深入解释)。
该工具将情绪分析与主题聚类相结合,能更好地帮助您了解人们对特定主题的看法:
NCSU Tweet Visualizer 应该足以用于基本的社交媒体监控和品牌管理用例,但是它没有用于高级实现的 API。
以下还有一些其他工具。
Enginuity(Web应用程序)
Enginuity 是一种付费的解决方案,但基本版本也可以作为免费的 Web 应用程序使用。它与许多免费情绪分析工具的工作方式不同。Enginuity 不是直接查询与某个关键字相关的推文,而是允许您搜索有关该关键字的最新新闻报道。
然后,该工具会查询 Twitter 和 Facebook,以计算报道被共享的次数。它还能分析社会情绪是正面还是负面、各自多少份额,并给出读者对新闻故事的总体情绪评级。
因此,Enginuity 是一个很好的工具,可以通过您的社交渠道找到可以分享的故事,也可以获得关于社交媒体上最近发生的事件之大众情绪的综合图景。
Revealed Context (API / Excel 加载项)
Revealed Context 提供了一个免费的 API,用于每天运行多达 250 个文档的情绪分析。有一个 Excel 加载项和一个 Web 界面,独立于 API 运行分析。
虽然 Revealed Context 没有提供直接抓取 Twitter 的界面,但它很简单,可以在不使用 API 的情况下分析推文的电子表格。使用 API,您可以构建一个管道,将最近的推文从 Twitter API 提供到 Revealed Context API 进行处理。
Steamcrab(Web App)
Steamcrab 是一个用于在 Twitter 数据上进行情绪分析的 Web 应用程序。它侧重于关键字搜索,并根据两极尺度(正面和负面)分析推文。可视化选项仅限于散点图和饼图。
MeaningCloud(API / Excel 加载项)
MeaningCloud 是另一个用于文本分析的免费 API,包括情感分析。MeaningCloud 的一个优点是除了情绪分类之外,API 还支持许多文本分析操作。这些操作包括主题提取、文本分类、词性标注等(如果您不熟悉这些操作,这里有一篇文本分析的文章可参考)
与我们考虑的其他解决方案相比,MeaningCloud API 更灵活地用于主题提取,因为使用其他工具主题群集是根据您输入的初始关键字自动执行的。
此外,MeaningCloud 允许用户上传*自定义词典*,用于主题提取和情感分类。
MeaningCloud 提供 Excel 加载项,但它不适用于 Excel for Mac(许多 Excel 加载项存在问题)。
Socialmention(Web 应用)
Socialmention 是一个基本的搜索引擎风格的 Web 应用程序,用于对 Twitter 数据进行主题级情绪分析。您可以输入关键字,该工具将返回带有关键字的内容,以及相关关键字的总体情绪分数。
Socialmention 的一个优点是支持基本的品牌管理用例 - 该工具返回一个“passion”分数,用于衡量 Twitter 用户讨论您的品牌的可能性,以及 Twitter 用户讨论您的品牌的平均覆盖面。
具有情感分析功能的数据挖掘平台
开源数据挖掘平台提供了一些最先进的文本和情感分析支持,基本上是免费的。
RapidMiner 和 KNIME 等解决方案具有内置的情绪分析模块以及许多第三方模块。
关于文本分析的免费开源解决方案有很多,但坏消息是您大概需要一位语言学家和数据科学家一起工作才行。出于这个原因,以下将专注于普通用户可以在几分钟内实际启动和运行的工具。保证您不需要编译源代码或掌握复杂的算法也可以操作。
RapidMiner + AYLIEN
解决方案类型:用于开源数据挖掘平台的文本处理附件
部署: Windows,Mac,Linux
适用于:情感分析、高级文本分析
定价:免费(免费版本使用单个逻辑处理器可处理多达10,000行 - 更高级功能需要购买付费版)
RapidMiner 是一个开源的数据科学平台,包括数据挖掘、文本挖掘、预测分析等等。RedimMiner 的功能可以通过附加组件或扩展程序得到显著增强,其中许多也是免费提供的。
RapidMiner 营销数据科学家 Thomas Ott 解释说:“RapidMiner 的优点在于它的可视化编程:你不必编写代码,而且你不必知道它背后的数学。”
AYLIEN 的扩展可以自动从 Twitter 获取数据(RapidMiner 也是如此)。然后,它分析推文并用三值情绪量表对其进行评分:正面、负面或中立。
除了从 Twitter 等 Web 源读取外,RapidMiner 还可以直接从平面文件(如 CSV 和 Excel 文件或数据库)中读取。
RapidMiner 还提供自己的文本分析扩展,其中包括强大的文本处理功能,可与高级群集算法和机器学习操作结合使用。
正如 Ott 所解释的那样,“查看文本有两种主要方法。一个是进行高级概述:单词计数、单词频率、单词在语料库中的出现[正在分析的文档集合]等。另一个是更重要的,例如,情绪分析和其他技术,您可以在数据集上训练机器学习算法。“
正如您在上面的屏幕截图中所看到的,将高级分析添加到 RapidMiner 中的基本文本挖掘工作流程就像将 operators 拖放到适当的位置一样简单。
完成此操作后,可以输出复杂的可视化效果。例如,您可以创建一个网络,显示您要关注的特定术语(例如关键字、特定地理名词、标签)与您正在分析的文档中的其他术语之间的关系。
以下屏幕截图是此类可视化的示例。Ott 将聚类算法应用于联邦储备银行会议纪要,以了解货币与会议讨论中的概念之间的关系:
RapidMiner 是本文演示的所有平台中最容易使用和功能最全的文本挖掘工具。使用 AYLIEN 扩展,您将能够在几分钟内完成下载和安装,以执行基本的情绪分析。RapidMiner 为新手提供了一个很好的入门页面。要了解如何使用 RapidMiner 执行高级文本分析,您可以在 RapidMiner 社区探索到更多好玩的东西。
KNIME 分析平台
解决方案类型:开源数据挖掘平台的文本处理附加组件
部署: Windows,Mac,Linux(云版本也可用)
适用于:高级文本分析
定价:免费(免费版本缺乏批处理和模板共享等高级功能,以及高级支持选项)
KNIME 是另一个强大的开源数据挖掘平台,有免费版本提供,功能丰富。
与 RapidMiner 一样,KNIME 为“无编程”数据挖掘提供了直观的可视化工作流程构建器。它还提供了许多与 RapidMiner 相同的运算符(运算符在 KNIME 中称为“节点”)。
使用 KNIME,用户可以执行以下任务:
词干:将关键术语的变化折叠成基本形式
停止文字过滤:删除无关紧要的词,例如“in”,“for”和“the”
符号化:通过用户指定和预编程的规则将文本字符串分解为较小的单元,例如单词和短语
个人认为 KNIME 的工作流程界面比 RapidMiner 更难以使用,尽管它们有相似之处。例如,输入/输出管道的逻辑让我感到震惊,因为在 RapidMiner 中可以比在 KNIME 中更自然地实现。
此外,RapidMiner 还提供详细的自动化建议,解决工作流中的 operators 无法连接的问题,这使得新手可以轻松构建功能性文本挖掘管道并在问题发生时对其进行故障排除。
KNIME 提供了对节点的良好描述,但没能很好地解释为什么节点不能连接。
最后,RapidMiner 目前提供比 KNIME 更多的文本处理和情感分析扩展。
另一方面,免费版 KNIME 提供比免费版 RapidMiner 更广泛的数据处理功能。使用免费版本的 KNIME 可以处理的行数没有限制,这使得它更适合大型数据集,或者免费版本可以在数据处理中利用的物理核心/逻辑处理器的数量。
** 经验丰富的分析师和数据科学家可以使用 RapidMiner 或 KNIME,并且应该演示两者,以便根据这些平台的高级功能做出决策。新手可以从 RapidMiner 开始,以便得到更好的服务。RapidMiner 的界面不仅易于学习,而且还有更多关于如何使用它的文档。
Open Calais
解决方案类型:用于实体提取和文档标记的专用工具
部署:云(内部部署版本已付费)
适用于:实体识别
定价:免费(每天限制为 5,000 次提交,而付费选项可扩展到数百万,并提供更广泛的类别字段集)
Open Calais 是汤森路透提供的基于云的内容标记工具。与 RapidMiner 和 KNIME 不同,它不是具有文本挖掘扩展的数据挖掘套件,也不进行情绪分析。相反,它擅长实体识别和提取的领域。
您将非结构化文本提供给 Open Calais,它可以识别人员、产品和公司等实体。Open Calais 还承认实体之间的关系以及有关实体的事实。它甚至可以将实体组织成主题。因此,Open Calais 可用于快速从文档中提取信息。然后,可以使用此信息标记文档以进行分类。
**与 RapidMiner 和 KNIME 不同,Open Calais 不适用于基本文本处理或高级情感分析。它非常擅长识别用于分析非结构化文本的实体,并且是用于文档标记的强大工具。
AntWordProfiler
解决方案类型:用于词汇表分析/符号化的闭源工具
部署: Windows,Mac,Linux
适用于:确定术语频率,词汇表分析
定价:免费软件
AntWordProfiler 是由早稻田大学科学与工程英语教育中心教授 Laurence Anthony 创建的免费工具。Anthony 拥有语言学博士学位,他创建的工具擅长对大型文件进行快速词汇表分析。
AntWordProfiler 使用预加载的词汇表和同义词列表,可以由用户编辑,以确定单词频率。用户还可以将自定义词汇表列表加载到工具中。
然后可以将结果保存在格式化的文本文件中,以便在 Excel 或其他电子表格工具中轻松查看。还有一个文档查看器,用于突出显示词汇表中的关键字在文档中的位置。
**AntWordProfiler 可用于快速计算复杂的非结构化文本中的单词频率,以及非结构化文本的自定义词汇表分析。然而,与 RapidMiner 和 KNIME 不同,它不是端到端的文本挖掘解决方案。
更多玩具!
以下是您应该考虑尝试的其他一些整洁的玩具:
Carrot2:用于将聚类算法应用于文档的专用工具。有一个基于 Web 的界面,用于应用一些常见的聚类算法,有助于将文档组织成主题类别。Carrot2 还集成了流行搜索引擎的 API,以便自动聚类关键字搜索的结果。因此它可以用于搜索引擎优化(SEO)。
AYLIEN Google表格附加组件: AYLIEN 是为 RapidMiner 开发情绪分析扩展的公司,它还提供了一个用于直接在 Google 表格中进行情绪分析的附加组件。这是在电子表格式界面中抓取情绪的最简单方法之一,但您如果使用免费计划则每天可进行的 API 调用数量有限。
国家文本挖掘中心/曼彻斯特大学情感分析:虽然仍处于测试阶段,但该工具在确定单个文本中的整体情绪方面已经非常实用(目前好像还不支持批量上传)。一个很好的功能是该工具可突出显示正面和负面词语以及不同颜色标记的文本块。
The Data Science Toolkit:一组易于使用的基于 Web 的文本挖掘工具,包括基本情感分析。还有许多用于地理编码文本的工具。例如,您可以将街道地址转换为坐标。这些工具也可通过高级用例的 API 调用获得。
好啦,如果您还了解更棒的工具,欢迎在评论中推荐给大家!本文列表将随时得到更新。◾️
感谢帮助 iYouPort!
PayPal 捐赠渠道已开通 https://paypal.me/iyouport
Commentaires