Aylien发布基于深度学习的新闻分析API

猿团 | 2016-04-11 10:47:42

文本分析初创公司Aylien,使用深度学习和NLP(神经语言程序学)算法解析文本,为他们的客户从文档中提取信息,并特别推出了一套专注于分析新闻内容的新工具。“开发News API(应用编程接口)的想法为了给开发人员和数据科学家提供丰富和实时的新闻内容”,创始人Parsa Ghaffari说。“这是特别以数据和分析为中心的新闻分析方法"

这家位于都柏林的初创公司利用其核心的文本分析技术推动其早在20142月就推出的文本API产品,但这一次它专注于新闻内容,也更多地侧重为其客户分析数据。


“我们决定在我们这端简化收集和分析新闻文件的工作,而不是将工具提供给客户,让客户自己去做这些事情。所以,在这样的指导思想下,这个产品就诞生了。”Ghaffari说。

他补充说,文本分析API已经被多家新闻和媒体公司使用,这些公司表示“这套工具在一定范围内的新闻文章分析上行得通”,为了更好地服务于这一需求,该公司团队现在已经开始为这种服务定制开发。

Ghaffari说他们将“News API”的客户设定为:开发人员、数据科学家和垂直行业“解决方案”提供商,比如出版、公关、新闻聚合、新闻阅读应用程序、对冲基金、媒体监测、和客户意见分析解决方案。这样的客户群体显然与Aylien现有的用户有一些重叠。

相对一款拥有近20000订阅用户的SaaS(软件即服务)文本API产品,对于索尼(Sony)、世界经济论坛(The World Economic Forum)和Complex Media相比,后者被称为“显著的客户”。

虽然Ghaffari提到,早在2014年该公司就计划推出一个News API,他说这个想法的目的是建立一个梗概新闻播报。而News API本身是一个功能齐全的产品,它可以让用户执行不同颗粒度的搜索查询,例如,要求报道关于唐纳德·特朗普(Donald Trump)在威斯康辛州新闻发布负面情绪的新闻。

产品提供的功能包括:自动检索新闻文章摘要、指出相关联的新闻、概述社交媒体反应、对一个特定的主题,输出该主题随着时间流逝新闻数量变化的数据分析图表、显示文章的情绪、统计文章的长度等。

 

主题着时间流逝新闻数量的变化

用户可以通过署名来跟踪特定记者的新闻文章,这对于想要追踪特定目标的公关公司是一项有用的特性(而不是重复的复制-粘贴类似与“读到你关于X的报道,以为你会对Y感兴趣”之类的形式与特定作者打交道)

当笔者询问Ghaffari,他是否使用News API工具,以确定哪些记者发表关于他的文章时,他确认也使用这套工具。所以,至少这个例子表明技术对于目标的相关性是公平的。

该工具从“成千上万”人工编制的新闻列表来源中筛选内容,当对源材料进行过滤和完整性检查时,这个关键角色还是需要人类大脑担当。随着它加入更多的人工智能技术,Ghaffari认为这项任务也可以自动化。

“此刻我们创建我们需要监测的源列表”他还补充道:“我们正在考虑使用一种方法来实现源自动化发,但是对于项目的初始启动,我们更多需要考虑如何实现高质量的内容,我们不想得到任何噪音。如果你增加资源的数量,你会得到很多重复内容,以及大量低质量的内容,这是一项挑战。除非我们有信心我们可以为用户提供措施来过滤内容,否则我们不会盲目添加资源数量。

Aylien的分析引擎目前支持包括英语、西班牙语、德语和法语在内的六种语言,并有望在7月支持到15种语言。

当讨论到这项技术的核心技术是如何工作的时候,Ghaffari告诉笔者:“我们利用深度学习和NLP,通过提取的东西如提到的实体(人物、品牌、组织、产品等)、作者的情绪、每一篇文章高层次的范畴和结构等等,从而更好地理解新闻文章好。总体上而言,我们使用这些信息建立预测模型,这些模型可以预测新闻稿的焦点或一个最热门的话题,这对于出版商、记者或公关人员是极为宝贵的。”

“与传统机器学习相比,深度学习显著减少需要人工标注的数据,并使其不失真地从一种语言跳转到另一种语言,甚至从文本跳转到图像,反之亦然。”他补充道。

“我们专有的NLP引擎学习如何执行多语种语言处理,通过查看大量的文本,它将适用于新闻内容,这使它更具灵活性。”

Aylien NewsAPI的定价从49美元每月起,该客户拥有30000篇的文章分析量。如果客户需要分析更多的数据,客户可以购买更多的服务。

该初创公司成立于201211月,迄今为止已经获得了130万美元融资,最近的一次融资发生在上个月,由SOSVEnterprise Ireland投资580000欧元。

  • 城市合伙人