大模型难过“幻觉”关?谁解决幻觉能力强,谁就掌握产业落地主动权

来源:中国涪陵网 网址:http://www.baby17go.cn/a/www.1mt.cn/

播报:

            截至9月5日,银保监普惠口径贷款投放余额实现亿元,较年初增加亿元,投放完成率名列全市前茅。  山东水波尔家居有限公司董事长公茂霞致辞,对参加会议的各级领导、各界朋友以及广大经销商表示最热烈的欢迎!向长期关心和支持水波尔发展的各级领导、各位朋友,向敢争敢拼、锐意进取的水波尔全体同仁,致以崇高的敬意和由衷的感谢!  山东省家具协会会长牛广霞向水波尔颁发“中国十八省市家具行业2022年‘诚信’企业”。  研究发现,在青春期早期(大约12—13岁)转变为“夜猫子”的青少年更有可能在几年后出现行为问题,包括更大的攻击性、违反规则和反社会行为,但他们发生情绪问题的风险并没有增加,比如焦虑或情绪低落。

              龟蒙景区作为沂蒙山区的核心景区,在喜迎国庆的同时,开启门票特惠预售通道,设计打造了诸多精彩内容。  临报融媒记者李建

                破题方法二:让工笔牡丹画立足时代大潮    在巨野书画院的大厅里面,张贴着一幅长16米、高米的巨幅工笔牡丹画《盛世中华》,截至目前,这是中国乃至世界上最大的工笔牡丹画。经过专业评选机构及权威媒体的选拔,中国人寿保险股份有限公司(以下简称“中国人寿寿险公司”)荣获“年度社会责任贡献企业”奖项。

            指导帮助受灾食品生产经营者复产复市,在许可备案、检验检测等方面依法依规为其提供便利。主攻工笔花鸟、人物,写意花鸟、山水;涉列水彩、油画。

          重点推荐:TableAgent:首个国产可私有部署的企业级Code Interpreter   山东省互联网传媒集团党委委员、副总经理姜长勇在致辞中表示,临沂是沂蒙精神发源地、红色基因富集区。在某种意义上,正是这样一种契机,成为他创作“镜像”系列作品的潜在动力。

          TableAgent:首个国产可私有部署的企业级Code Interpreter

          随着深度学习技术的不断进步和模型规模的扩大,“智能涌现”为大模型赋予了触类旁通的能力,也带来了日益凸显的幻觉问题。

          首先,我们要思考一个问题,什么是大模型的“幻觉”?

          所谓大模型幻觉,主要指的是模型输出了和现实世界不一致的内容,例如捏造事实、分不清虚构与现实、相信谣言和传说等,也就是我们常说的“一本正经的胡说八道”。在实际应用场景中,幻觉问题不仅影响了模型的准确性和稳定性,还制约了大模型在真实场景中的广泛应用的可靠性。因此,如何解决大模型幻觉一直是大模型走向全面产业应用的关键课题。

          近日,复旦大学联合上海人工智能实验室构建了大模型幻觉评估数据集HalluQA,数据集涵盖了30个领域,数据集关注大模型在实际应用中可能面临的问题。其中诱导(Misleading)和知识(Knowledge)两部分问题着眼于模型的模仿性谎言(Imitative Falsehoods)和事实性错误(Factual Errors)。

          在HalluQA幻觉评测数据集中,复旦大学团队用“无幻觉率”这一指标来评估模型的能力。无幻觉率的高低(越高越好)不仅直接反映了展示了不同模型在解决幻觉问题上的优劣,与事实准确性密切相关,也为模型在实际应用中的可行性提供指导。

          最近评测,谁解决幻觉能力最好?

          HalluQA评测集的出现,为行业提供了一个更加专业的方法,能够看到在攻克大模型技术的演进过程中,哪些是真正的“有备而来”,哪些是死读书的“做题家”,还有哪些是“裸泳者”。

          值得注意的是,HalluQA团队还在报告中对业界主流的24个大模型进行了大模型幻觉评估。结果显示,仅有6个大模型取得了高于50%的非幻觉率,仅有所有参测模型的1/4。其中,百度文心一言(Baidu ERNIE-Bot)在评测中以69.33%的无幻觉率成为榜单中的第一名。GPT-4的整体无幻觉率为53.11%,排名第六。

          中文大模型幻觉评测数据集HalluQA对24个主流大模型进行评测

          大模型幻觉问题的产生主要归因于模型复杂性和数据质量。随着模型规模的不断扩大,模型的复杂度也相应增加,容易导致过拟合现象,使得模型过于依赖于训练数据中的细节和噪声,难以泛化到新的数据上,进而产生幻觉。另外,数据质量对于大模型性能的影响也不可忽视。如果训练数据存在偏见、噪声或不足以覆盖真实场景的多样性,模型就难以学习到准确的数据分布,从而出现幻觉问题。

          目前,行业主要解决大模型幻觉的方式,除了通过预训练、微调等模式,夯实的大模型的理解与泛化能力之外,主要的方法一个是利用对齐技术可以显著减少回答误导性问题时出现的幻觉;另外一个则是通过对大模型引入检索增强,可以大幅提高模型在长尾知识类问题上的非幻觉率。

          模型具体需要怎么做来降低幻觉问题呢?从复旦大学发表的论文来看,首先,模型要拥有强大的基础能力。比如,文心一言所基于的是百度的文心大模型4.0版本,已知的信息是它基于数万亿数据和数千亿知识进行预训练,提升模型的泛化能力和事实准确性,通过有监督精调、人类反馈强化学习等手段,保证模型更好地与人类的判断和选择对齐,来降低模型产生幻觉的风险。另外检索增强技术特点也为解决幻觉问题提供了重要支持。比如文心一言基于语义理解与匹配的新一代搜索架构来提高输出内容的准确性和时效性,进一步降低幻觉问题的出现。

          谁能更好地解决大模型幻觉问题,谁更易被企业应用

          大模型幻觉问题的产生根植于语言模型的复杂性。这些模型通过训练大量的数据和知识来生成文本,但在实际应用中,如果大模型会笃定地说出错误的答案,可能会产生不准确或有误导性的结果,这对于客户服务、金融服务、法律决策和医疗诊断等多个对于专业度与准确率要求极高的领域,会导致大模型难以胜任实际场景中的任务。

          可以说,大模型产业落地,已经苦“幻觉”久矣。哪家大模型能够率先降低大模型幻觉的影响,就能够在如今“百模大战”的角力中取得先机。

          更低的幻觉正在成为了更多企业选择大模型的重要原因。

          大模型之家相信,随着大模型幻觉评测标准的出台,将会为大模型能力发展打开全新的维度,让更加可信、可靠的人工智能得以向产业普及。我们也看到越来越多在解决幻觉问题上的技术创新,推动解决大模型幻觉问题。在技术与标准并行发展的格局之下,大模型将在各个领域发挥出更大的价值,为人类生活带来更多便利与惊喜。

          (0)
          上一篇 2023年11月17日 17:26
          下一篇 2023年11月17日 21:08
          分享:

          收藏

          --

          --

          无障碍浏览