【原】AI时代来临，如何把握住文档处理及数据分析的机遇

敲代码的小Y 2023-03-29 发布于上海

展开全文

AI时代来临，如何把握住文档处理及数据分析的机遇

在这里插入图片描述

前言

在3月18日，由中国图象图形协会（CSIG）主办，合合信息、CSIG文档图像分析与识别专业委员会联合承办的“CSIG图像图形企业行”活动将正式举办，特邀来自上海交大、厦门大学、复旦、中科大的顶尖学府的学者与合合信息技术团队一道，以直播的形式分享文档处理实践经验及NLP发展趋势，探讨ChatGPT与文档处理未来。

所以本篇文章就来对此次直播内容做一个整理复盘，谈一谈直播的主要内容及观点探讨。

一、生成式人工智能与元宇宙

展会开场主要介绍了生成式人工智能与元宇宙相关的内容。

主要分为元宇宙生成式人工智能的思考、生成式世界模型 及 生成式模拟数字人几部分。
在这里插入图片描述

核心内容可以参考下面整理的脑图：

请添加图片描述

该部分主要介绍了生成式人工智能为构建基于视觉直觉的物理世界模型和虚拟数字人提供了可行的途径。

看完这部分让我感受最深刻的地方就是现在人工智能的发展的势头已经愈发不可收拾，自从OpenAI 发布的人工智能模型ChatGPT发布之后，在此让人工智能站在了风口之上。所以在当前这个背景下，我们要对这部分的内容多做研究，如果把握住这个机遇，未来肯定会对自身及社会的发展都有一个极大的好处。

未来，我们可以期待ChatGPT在更多领域得到应用，例如金融、医疗、法律等。这将有助于推动人工智能技术的发展，促进人机交互和智能化生产的进一步发展。

同时通过数学、物理、信息论、脑认知、计算机等学科交叉，进一步巩固生成式人工智能的基础理论。
“物理+数据”联合驱动。“虚拟+现实”深度融合。生成式AI直觉有望加速科学发现、物理合成、元宇宙构建。

二、面向图像文档的复杂结构建模研究

这部分主要介绍了文档智能结构化研究背景，基于部首建模的汉字识别、生成与测评，基于SEM的表格结构识别，基于文档预训练模型的篇章级文档结构化。
在这里插入图片描述
文档智能结构化研究背景部分

基于部首建模的汉字识别、生成与测评部分

基于SEM的表格结构识别部分
在这里插入图片描述
基于文档预训练模型的篇章级文档结构化

通过这部分内容可以让我们了解到在人工智能领域遇到图像文档时需要怎样处理，以及在面对复杂的结构时该怎样实现具体的功能逻辑等。

同时也让我们了解到一些汉字识别、文表格结构识别及文档结构化训练模型的原理和概念，这对于以后在使用人工智能与文档处理时有极大的意义。

三、大型语言模型的关键技术和实现

大型语言模型如今已经引起了公众的注意，短短五年内，Transforme等模型几乎完全改变了自然语言处理领域。此外，它们还开始在计算机视觉和计算生物学等领域引发革命。

而在说到语言模型时，那就不得不提到ChatGPT了。
在这里插入图片描述

ChatGPT 介绍

该段介绍来自“百度百科”
ChatGPT是美国人工智能研究实验室OpenAI新推出的一种人工智能技术驱动的自然语言处理工具，使用了Transformer神经网络架构，也是GPT-3.5架构，这是一种用于处理序列数据的模型，拥有语言理解和文本生成能力，尤其是它会通过连接大量的语料库来训练模型，这些语料库包含了真实世界中的对话，使得ChatGPT具备上知天文下知地理，还能根据聊天的上下文进行互动的能力，做到与真正人类几乎无异的聊天场景进行交流。ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

ChatGPT是一种基于人工智能技术的自然语言处理模型，它是由OpenAI公司开发的。它可以模拟人类的对话，并根据用户输入的问题进行回答。它使用了深度学习和自然语言处理技术，可以理解并生成自然语言。
这个模型的潜力是巨大的，未来可以在各个领域产生深远的影响。

ChatGPT的三个关键技术

情景学习（In-context learning）
大模型的涌现能力，改变传统学习范式。
改变了之前需要把大模型用到下游任务的范式。对于一些 LLM 没有见过的新任务，只需要设计一些任务的语言描述，并给出几个任务实例，作为模型的输入，即可让模型从给定的情景中学习新任务并给出满意的回答结果。这种训练方式能够有效提升模型小样本学习的能力。
思维链（Chain-of-Thought，CoT）
大模型的涌现能力，打破模型参数约束。
对于一些逻辑较为复杂的问题，直接向大规模语言模型提问可能会得到不准确的回答，但是如果以提示的方式在输入中给出有逻辑的解题步骤的示例后再提出问题，大模型就能给出正确题解。也就是说将复杂问题拆解为多个子问题解决再从中抽取答案，就可以得到正确的答案。
自然指令学习（Learning from Natural Instructions）
人在环路增强，对齐人类意图。
早期研究人员希望把所有的自然语言处理任务都能够指令化，对每个任务标注数据。这种训练方式就是会在前面添加一个“指令”，该指令能够以自然语言的形式描述任务内容，从而使得大模型根据输入来输出任务期望的答案。该方式将下游任务进一步和自然语言形式对齐，能显著提升模型对未知任务的泛化能力。

在这里插入图片描述

对话式大型语言模型（类ChatGPT模型）的定义如下：
在这里插入图片描述
ChatGPT无疑是语言模型中最亮眼的那颗星，其充分的满足对大型语言模型的各项定义。

构建一个大语言模型前可以先从下面四个维度来衡量大语言模型的能力：

Know Knowns：LLM 知道它知道的东西。
Know Unknowns：LLM 知道它不知道哪些东西。
Unknow Knowns：LLM 不知道它知道的东西。
Unknow Unknowns：LLM 不知道它不知道的东西。

说到这里，不得不提国内首个对话式大型语言模型 MOSS，从 2 月 21 日发布至公开平台，便引起高度关注。“对话式大型语言模型 MOSS 大概有 200 亿参数。和传统的语言模型不一样，它也是通过与人类的交互能力进行迭代。

MOSS 是基于公开的中英文数据训练，通过与人类交互能力进行迭代优化。目前 MOSS 收集了几百万真实人类对话数据，也在进一步迭代优化，也具有多轮交互的能力，所以对于指令的理解能力上，通用的语义理解能力上，和ChatGPT 非常类似，任何话它都能接得住，但它的质量没有 ChatGPT 那么好，原因在于模型比较小，知识量不够。

且ChatGPT的出现对人工智能的影响是不言而喻的，所以也被称为人工智能的里程碑。
在这里插入图片描述