当前位置: 民进网站 > 民进风采 > 开明视点

张宏伟:人工智能大模型赋能文化数字化

发布时间: 2024-04-24
【字体:

  3月28日,国家文化大数据体系建设工作推进会在湖北省武汉市举行,会议的主题是学习贯彻习近平文化思想,推动国家文化数字化战略落地落实,加快推进国家文化大数据体系建设,为建设中华民族现代文明打牢数字化基础。在大会发言环节,同方知网数字出版技术股份有限公司总经理张宏伟以《人工智能大模型赋能文化数字化》为题发表演讲。以下是发言全文(根据现场速记整理)。

  习近平总书记强调“人工智能是新一轮科技革命和产业变革的重要驱动力量,加快发展新一代人工智能是事关我国能否抓住新一轮科技革命和产业变革机遇的战略问题”,并指出“数据基础制度建设事关国家发展和安全大局,要维护国家数据安全,保护个人信息和商业秘密,促进数据高效流通使用、赋能实体经济,统筹推进数据产权、流通交易、收益分配、安全治理,加快构建数据基础制度体系”。

  今年政府工作报告首次明确提出,“深化大数据、人工智能等研发应用,开展人工智能+行动”,“健全数据基础制度,大力推动数据开发开放和流通使用”。这是全球人工智能竞争升级背景下,推动中国向“人工智能时代”迭代升级的前瞻性、整体性政策设计。

  当前国内人工智能大模型产业呈现蓬勃发展态势,也面临着高质量中文知识文化语料短缺等问题。贯彻落实国家文化数字化战略和全国两会精神,加快推进中华文化数据库建设,释放中华知识文化数据价值,赋能人工智能产业发展的时机已成熟。

  高质量知识文化数据是人工智能的基石

  从去年的ChatGPT到今年初火爆的Sora,生成式人工智能大模型技术快速迭代、持续演进。ChatGPT通过博览群书,拥有了持续的上下文对话和创作能力,作为一个变革性的知识生产与人机交互工具,达到了中级知识型脑力劳动者的文字组织和表达能力。Sora更进一步,可基于文本生成视频,有望成为“世界模拟器”,自动构建仿真虚拟世界。

  当然我们也不必过于焦虑,这一波人工智能发展从通用人工智能角度来讲才刚刚起步。生成式人工智能大模型融合了连接主义和贝叶斯主义两大学派的优点,实现了性能跃迁,但本质上还是统计学习,是从海量数据中做各种统计分析,而对内在的逻辑、因果关系并没有完全的理解。统计学习的“Garbage in Garage out”原则,决定了高质量训练数据的重要性。

  人工智能是大模型、大算力、大数据三大要素综合应用的大系统工程。基础大模型的建设门槛极高,千亿大模型的单次训练成本大概是上千万,一千张卡一天耗电就是几十万,因此基础大模型建设注定是大国的游戏、巨人的较量。马斯克讲,大模型竞争的尽头是算力和电力,但其实数据才是大模型竞争的胜负手。

  大模型需要海量数据支撑,大模型建设从基础模型预训练到上一层模型的增量训练再到微调、价值对齐,每一步都需要基础知识、行业领域知识的数据支撑,可以说数据是人工智能的基石,数据的数量、质量与多样性最终决定了人工智能水平高低。

  知网华知大模型建设和应用的初步探索

  同方知网是业界领先的数字出版和知识服务商,拥有海量高质量中文语料数据库。在大模型建设方面,知网和华为建立了战略合作伙伴关系,携手成立人工智能联合创新实验室,强强联合、优势互补。基于海量高质量知识数据与华为联创了全栈自主可控专业基础大模型——华知大模型。华知大模型定位为L0+专业基础大模型,重点解决现有通用基础大模型知识记忆错误、信息时效性不足、逻辑推理错乱、缺乏专业知识等问题,突出专业、安全、可信等特色,赋能知识密集型行业领域,并提供私有化定制服务。华知大模型官网(huazhi.cnki.net)近日已上线。

  首先,华知大模型的专业不仅仅体现在技术能力上,更体现在对知识的深度挖掘和应用。华知大模型注入了知网全学科、海量高质量的专业知识数据,使得生成的内容更为全面、更具深度,更能够满足各种专业领域需求。

  其次,安全是华知大模型的核心优势之一。我们拥有全栈自主可控的技术架构,确保从硬件到操作系统,再到运行的应用软件,以及数据处理和存储全栈自主可控。可以根据用户的需求和战略进行灵活调整和优化,运行安全稳定。我们注入的大模型语料符合出版规范标准,质量可靠、导向正确。

  第三,可信是我们对用户的承诺。我们提供知识增强和可信溯源服务,能够最大程度地抑制和消除大模型的幻觉,让用户可以放心使用。

  知网、华为基于盘古基础大模型L0和知网海量高质量知识数据,形成华知专业基础大模型L0+的研发和应用受到了业界的广泛关注。近三个月快速迭代演进为2.0版,凭借其专业、安全、可信等突出优势,入选国资委人工智能产业焕新相关行动方案,并已在教育、科研、政务、医疗、企业等领域得到广泛应用落地。如应用于政务领域,打造政府工作报告全生命周期的政知通智能辅政系统;应用于法治领域,打造服务法律咨询业务的律境大模型;应用于医疗领域,打造辅助诊疗大模型、药物分子大模型;应用于文化领域,打造博物馆导览助理数字人;应用于企业管理,打造财务大模型、制度大模型等。

  华知大模型已全面升级知网现有产品服务,从数字出版、加工标准到知识服务,开发了科普百科知识问答、智能写作、智研助手、学术搜问、AIGC检测等原生产品和方案。

  应用华知大模型后的知网数据治理平台,实现了全流程、多维度、细粒度的多文种数据标注、自动分类、自动文摘、智能审读等,大幅提高数据加工处理的效率和准确性,为大规模的数据治理、开发文化大数据提供了可行的技术方案。

  大模型赋能文化大数据建设的一点思考

  去年开始,千模大战,国内企业紧跟国际前沿,相继推出200多个大模型,展现蓬勃发展势头。但是我国大模型发展仍然面临很多挑战,包括算力紧张、高质量数据短缺、低水平重复建设,以及文化安全威胁、国外开源模型价值观等问题。

  中国有数千年文明,但丰富的文化沉淀绝大多数并未数字化,更谈不上用来训练大模型。建设中华文化数据库的时机已经成熟,亟需加快建设步伐,高度重视文化数据的开发和利用。

  知网在数据加工标注、交易流通方面拥有丰富的经验,也具备大规模数据标注工程服务能力和数据要素资产化综合服务能力,涵盖数据加工、治理、交易、流通等各环节。知网和上海数据交易所联合建设了知识资源数据交易行业中心,知网愿意与在座的各家单位通力合作,开展文化类数据交易,让数据“供得出、流得动、用得好”,真正成为人工智能发展的催化剂。

  在文化领域的应用上,同方知网基于华知L0+专业基础大模型,与行业协会和文化机构联合打造文化行业大模型及场景垂直大模型,已有许多成功案例。同方知网与武汉大学文化遗产智能计算文科实验室和云冈石窟研究院联合研制开发的文化遗产大模型,通过构建细粒度的文物、展览、图书、社教课程、考古简报,以及海量研究文献的高质量语料库,利用华知大模型技术,提供基于自然语言的智能问答、检索增强、文白对照、图片增强、考古回溯、智慧研创、文物推荐等功能;此外还建设了长江文化大数据服务中心、一系列红色文化大数据平台等多个项目。

  依托自身的大规模数据标注工程服务能力和数据要素资产化综合服务能力,同方知网将继续通过AI+文化的数据治理和数据要素资产化综合服务,赋能高质量文化数据要素价值释放。期待与大家携手共同推进实施国家文化数字化战略,知网将持续为文化数字化建设提供高质量的支撑服务!

  (张宏伟系民进中央出版和传媒委员会委员、同方知网总经理、中国音像和数字出版协会常务理事、中国工业与应用数学学会大数据与人工智能专业委员会委员)

作者: 张宏伟
责任编辑: 叶炜
>