主页 > 云市场 > > 正文

域名备案_腾讯云续费_免费

来源:胜利云 发布时间:2021-05-01 00:08 标签:备案免费腾讯域名续费
浏览:

我要感谢Amit Nagar、Sai Kishore Petla和Michael Roth的贡献,他们帮助我开发了算法并起草了博客文章。

商业文档是任何商业交易的基石。发票、收据、租赁协议、提单就是此类单据的一些例子。这些文档中包含的信息对于维护基础业务交易的神圣性和下游流程至关重要。直到最近,从这些文档中提取数据并将其输入业务系统还是一个手动过程。近年来,服务器云服务器,机器学习模型已经被开发出来,以自动的方式提取这些数据。对艰苦努力的快速解决办法。但是,没有免费的午餐!这样的模型需要大量的数据。必须为模型培训提供数千个带注释的文档。这对业务用户造成了瓶颈,因为他们需要等待很长时间才能积累足够的文档并为机器级培训做好准备。这一要求通常会阻碍自动化此手动流程的努力。

通常,业务文档由几个组件组成,例如页眉、页脚、段落、表格、键值对、数字等。大多数文档(如发票、提单、采购/寄售订单)都存储了关键信息以键值对的形式。IBSO数据科学小组开发了一种从各种业务文档中提取键值对的新方法。这种方法无需对成千上万的单据进行注释和培训。

提单单据上的键值对示例

要了解更多有关业务单据处理和信息提取过程的需要,请跟帖。希望到最后,我会让你相信所提出的方法。

注1:本博客文章中提单数字中描述的所有内容都是完全虚构的,是基于实际提单创建的,同时保持相同的字母数字文字格式

注2:本博客旨在说明一种可行的信息提取方法,但不是为了详细说明流程中的所有细节或问题,解决下面讨论的某些步骤总是需要图像处理方面的专业知识。

简介

毫无疑问,信息是全球所有企业的油。共享信息的常见方式是文档、图像、视频。无论您从事什么业务,都离不开业务流程中的物理文档。直到几年前,从图像中提取信息在工业过程自动化中还不多见。借助于能够比以往更快地处理数据的图像处理算法和硬件,我们越来越问自己是否能够从非结构化文档(如图像和PDF)中提取信息,并以结构化格式将提取的数据制成表格,以方便下游处理。

布局、内容,跨文档的信息结构差别很大,特别是当业务流程涉及多个业务伙伴时。大量的信息以非结构化的形式存在,如果使用得当,这些信息可以驱动公司从中受益的信息和数据驱动的决策。根据国际数据公司(IDC)的一项研究,到2025年,全球80%的数据将是非结构化的。大多数组织已经到了这一步。这就引出了一个问题:我们如何设计信息提取过程来有效地从公司将要接收的大量非结构化数据中过滤掉不需要的信息(噪声)?

当今企业如何提取信息?

为了从文件中提取信息,传统上,公司采用手工流程来审查和分析文件,识别相关字段,大数据是干什么的,并在计算机系统中输入数据。虽然存在从半结构化的"真PDF"(例如电子发票)文档中提取信息的解决方案,但这些解决方案无法满足完全非结构化或"仅图像"文档类型的需要。

下面的几个示例说明了问题的严重性:

这家公司是一家全球性食品公司,从事采购、存储、销售和销售,在收获季节,交易谷物每天会收到数千辆卡车。这些卡车从美国多个地区运送谷物和其他农产品,运往该公司的仓储工厂。卡车司机携带秤票、提货单、费率确认文件等。储存厂设施人员收集这些文件,交叉核对供应商信息和商定的费率,以便向司机付款。储存厂在一天内会收到数千份这样的文件。然后需要及时手动处理这些文件以进行支付。这是一项艰巨的任务。

另一个例子,一家制药公司采购生产药品的原料。交货后,卡车司机将材料交付给工厂人员,由工厂人员收集秤票、原产地证书、材料含水量、分析证书、可能随行程时间变化的化学成分等文件。文件中的信息需要立即进行处理,以决定是否接受交货。因此,必须及时处理生物燃料,这目前是一种手动过程。

另一个例子是石油和天然气公司定期购买生物燃料,数据统计,与其他石油燃料混合。在此交易过程中,他们会收到一份产品转让文件(简称PTD),证明双方之间的燃料转让。PTD可能包括提单、发票、合同、计价器票、铁路清单等。这些文件必须经过环境保护局(EPA)的检查,并且需要准确地处理和获取。每天都有成千上万的这些文件被收集和处理。

上述过程只是各个行业的公司必须处理来自不同类型文件的大量信息的一些例子。手动按键过程是一项耗时、易出错、平凡的任务,有时也是一项法律义务。

业务挑战

发表评论
验证码: 点击我更换图片

注:网友评论仅供其表达个人看法,并不代表本站立场。

热门文章

  • 移动大数据_云服务器一般要多少钱
    <strong>移动大数据_云服务器一般要多少钱</strong>

    移动大数据_云服务器一般要多少钱

    高速互联网和功能强大的应用程序使得几乎所有有办公桌工作的人都可以在家工作。然而今天,大多数公司仍然坚持要求员工忍受有时令人心碎的上下班路...

  • 华为服务器_便宜的_大带宽服务器租用
    <strong>华为服务器_便宜的_大带宽服务器租用</strong>

    华为服务器_便宜的_大带宽服务器租用

    作者:马库斯·瓦纳关于2017年趋势的讨论正在迅速而激烈地展开,职场也不例外。随着新的一年即将到来,职场趋势专家们正在为2017年列出自己的预测清单...

  • 云计算企业_物联网应用领域
    <strong>云计算企业_物联网应用领域</strong>

    云计算企业_物联网应用领域

    正如Facebook和Twitter首席运营官(COO)上周在美国国会作证时所说,出现的一个突出主题是,这些公司在保护其平台免受网络攻击方面所扮演的角色。这些公...

  • 大数据库_怎么购买_云计算信息安全
    <strong>大数据库_怎么购买_云计算信息安全</strong>

    大数据库_怎么购买_云计算信息安全

    类别工作日新闻与文化财务人力资源规划技术创新分析与见解客户和社区行业金融服务政府保健高等教育款待媒体和娱乐专业和商业服务零售技术更多播客...

  • 大淘客网-2024年巴西可回收运输包装市场
    <strong>大淘客网-2024年巴西可回收运输包装市场</strong>

    大淘客网-2024年巴西可回收运输包装市场

    下载Technavio公布了其最新的市场研究报告,题为《2020-2024年巴西可回收运输包装市场》(图片:商业通讯)Technavio公布了其最新的市场研究报告,题为《...

云储存

更多 >
  • 域名解析_数据库的设计步骤_排行榜
    域名解析_数据库的设计步骤_排行榜

    考虑到最近努力维持工厂运转,制造商继续感受到供应链不稳定的影响。不断波动的需求正引发巨大的压力,要求快速调整生产设备、调整设计和创新新产...

  • 负载均衡_云主机云服务器_排行榜
    负载均衡_云主机云服务器_排行榜

    本文的主要内容是本文的第二幅图。是的,你可以只看那张图片而忽略文字。SA–CCR:交易对手信用风险敞口的标准化方法。 作为巴塞尔协议III的一部分,...

云储存分布式存储_mysql数据库指令_学生机
云储存服务器_阿里云压测_年度促销
云储存云存储_数据库的优化方法_优惠券
云储存企业邮箱_阿里云免费邮箱个人版_评分榜
云储存分布式存储_cdn和分布式_0元