以服务于中国广大创业者为己任,立志于做最好的创业网站。

标签云创业博客联系我们

导航菜单

nlp包括哪些,nlp创业公司

按照雷锋的说法,深度学习的出现在NLP技术上取得了很大的突破,但总的来说,NLP在浅层特征提取和分类方面已经成熟,深层语义理解是当前的研究热点。目前,自然语言处理技术在文本处理中的主要应用包括智能搜索引擎、机器翻译、文档摘要自动生成、文本分类等。语音方面主要有智能客服、多媒体信息提取和文本转换。

与此同时,国内NLP领域的创业公司也在不断探索其商业化。成立于2012年的NLP技术供应商Bolson Data就是这样一个例子。到目前为止,公司找到了一个重点产品:冯宝,据公司CTO赵迎斌介绍,公司现在的现金流比较健康。

据赵迎斌介绍,冯宝是一个基于NLP技术的企业智能系统。通过收集大量的政府公共信息和媒体信息包括工商、诉讼、税务、行政处罚等。在整个网络中,利用NLP技术从不同角度探索实体之间的关系,为企业提供风险控制和情报分析。“冯宝在企业智能行业相当于百度,是收集信息的渠道。”赵迎宾告诉雷锋。com认为,通过NLP技术,Wind Report可以帮助企业和个人在海量信息中挖掘有效信息,节省大量人工查询时间和第三方调查成本投入。

NLP技术与风控

2016年,博森数据携手钢铁行业B2B电商“独角兽”寻找钢铁网络,并在其供应链金融业务中使用wind报表。找钢网成立于2012年,到了2015年,已经成为行业独角兽。与此同时,以撮合买卖双方起家的找钢网,已经开始布局供应链金融,风险控制自然不可或缺。

供应链金融长期以来一直是贸易领域最常见的融资模式之一,但随着人工智能的发展,新的分支正在该领域延伸。与消费金融风险控制不同,供应链金融最大的风险在于企业运营风险,商品价格波动相对稳定。即使存在“产能过剩”,也可以依托大型B2B平台,基于历史交易数据进行相应的风险控制。大数据风险控制的有效前提是掌握尽可能多的数据。一般来说,数据源包括自有平台数据、外部抓取数据和与合作机构的数据交换。获取这些数据后,进行去噪和清洗,建立风险控制模型。

但是,通过NLP技术,将网络上的非结构化数据结构化并接入到金融领域的风险控制模型中,可以大大节省数据整理的时间。

博森数据CEO李臻认为,对于金融领域的大数据风险控制模型,wind报告可以做到两点:一是企业信息过于狭窄的问题,通过对wind报告系统的判断文档和信息公告协会的结构化分析挖掘,拓展数据来源;第二,快速获取信息的问题。作为风报系统核心的NLP技术、法院公告和事件信息,可以帮助企业从海量信息中实时获取所需信息,实现对交易对手的动态监控。

找钢网金融事业部副总经理,他告诉雷锋。com认为,钢铁网络平台中存在大量的企业交易数据,而与此同时,大量的数据也在网络上被抓取。“对我们来说,有效的数据样本自然更多。对wind报告的访问越好,就越能扩展数据源。”“外部采集的数据比较分散,通过NLP技术对这些分散的数据源进行结构化和二次处理要方便得多。”

至于产品体验效果,总体来说还是不错的,“但希望数据源越多越好,数据源可以更结构化。”

风报背后的NLP技术

据了解,从信息获取到企业情报,wind报告背后有四个步骤:

检索数据

表单信息(使用NLP技术从非结构化文本中提取核心语义)

生成情报(分解和分析新闻,通过数据挖掘对事件进行分类,呈现企业情况

报信息)


  • 得到认知(可视化呈现企业和个人关联)。


  • 在形成信息的过程中,涉及如何对句子进行正确拆分;如何进行实体识别,识别出相关人员和群体;以及通过机器学习的方法,对每项内容进行标签化处理。为了向雷锋网解释NLP技术在此的应用,赵迎宾举了这样一个例子:


    A跟B正在进行一场离婚诉讼,在其证据中提到B在中国农业银行的一个账户,这与中国农业银行其实并没有关系,需要用到语义分析技术,来判断到底谁是案件中的当事人。


    雷锋网根据公开资料了解到,目前中国与“企业信息服务”相关的公司有2000多家,风报、启信宝、企查查等均属这一类。


    在数据来源上,知名度较高的企信宝是通过征信中心与连接相关征信网站数据接口的获取,风报则是聚焦在散落在全网中的企业外部文本数据,从海量的企业事件角度切入。玻森数据公司CEO李臻认为,有 80% 的商业情报都以非结构化的自然语言文本形式存在于网络的各个角落,但没人处理这些信息。雷锋网对公司CEO李臻的采访中也提到,“相比其他产品,风报的核心是分析能力。企业信息涉及很多裁判文书等非结构化文本,提炼关键信息要进行去重、实体抽取、分词、清洗及分析等,这些不是信息汇总就能完成的。”



    玻森数据的商业化

    事实上,企业信息服务行业并不是玻森数据一开始就扎根的领域。


    据赵迎宾介绍,2012~2014年的这段时间,玻森数据寻求的是与咨询机构的合作,咨询公司进行行业调研时会用到大量数据,玻森数据的NLP技术则可对其进行分析和结构化,节省查阅资料的时间。“希望通过十几个案例积累,找到一种互联网数据分析的通用化方式,但发现这种尝试行不通。”“咨询行业是一个创意驱动的行业,不同报告分析角度不一样。”


    而2015年后,随着大量政府信息公开,玻森数据开始做企业信息服务,并于同年九月发布了风报这款产品,2016年,开始对外销售。到目前为止有一年多的时间,公司已经积累了120家客户。


    风报主要采用合同销售的形式,按照使用量收费,公司的客户群体可大致分为3类:


    第一类是泛金融,包含保险、融资租赁等。


    第二类是政府,政府会对所在区内的企业进行风险调查。风报是其一种搜集信息的渠道。


    第三类客户,介于B端与C端之前,是投资人、媒体等,这些人需要了解很多的公司背景信息。


    “在风报开始销售之后,公司就有一个比较健康的现金流。”赵迎宾对雷锋网讲道,据了解,波森数据已经有过三轮融资,最近在做B轮。


    赵迎宾介绍说,风报每周都会有新版本发布,主要集中在几个方面:第一方是在系统中集成新的数据来源,对企业相关的公开未挖掘数据进行结构化以及数据分析;第二,希望对互联网上56000多家政府网站全覆盖,做一个相当于政府网站方面的百度,并且需要比百度做得更深。


    那么,玻森数据的未来向哪里走呢?赵迎宾用玻森的定位告诉雷锋网答案。


    玻森数据以NLP技术为核心,在该平台上搭建各种商业化应用,专注于SAAS领域,聚焦在风报这个产品上。


    有价值的数据、有竞争力的算法、有商业场景和围绕着这个商业场景的产品化能力,这三者是保证公司竞争力的法宝,他补充道。