2025-07-13 01:14:30
122cc太阳成集团信息管理
近日✿ღ✿◈ღ,中国科学技术大学本科校友✿ღ✿◈ღ、美国哈佛大学博士生陈勇超和所在团队以 Qwen-3B/7B/14B 为初始模型, 用多步监督微调(SFT✿ღ✿◈ღ,Supervised Fine-tuning)和群体相对策略优化(GRPO✿ღ✿◈ღ,Group Relative Policy Optimization)让模型在 144 个推理和规划的任务上进行训练✿ღ✿◈ღ。训练过程中模型可以自由多次使用代码执行器来帮助推理✿ღ✿◈ღ,这些任务都有符号计算的成分✿ღ✿◈ღ,但是文字推理和符号计算哪个更合适以及如何相互配合其实需要模型自主学会✿ღ✿◈ღ。
研究团队发现✿ღ✿◈ღ,训练代码执行器(Code Interpreter)受限于模型的能力太阳集团城官网✿ღ✿◈ღ。比如极品惊天动地✿ღ✿◈ღ,很多模型在过度的文字推理训练后✿ღ✿◈ღ,代码生成能力反而会下降✿ღ✿◈ღ。这种能力下降在 Leetcode 这种特定代码基准上很难体现出来太阳集团城官网✿ღ✿◈ღ,因为下降的能力是在解析具体抽象问题到代码或者符号计算这一步✿ღ✿◈ღ。现实生活中很多问题也是这样✿ღ✿◈ღ,尽管存在符号计算的因素✿ღ✿◈ღ,但是想要抽象成符号计算的问题需要有很多思考✿ღ✿◈ღ。
任务的多样性则是另一个挑战✿ღ✿◈ღ。训练单个任务的代码执行系统很容易✿ღ✿◈ღ,但是研究团队发现当任务种类繁多情况下✿ღ✿◈ღ,模型就很难学会根据不同任务来决定策略✿ღ✿◈ღ,很多任务对于策略的偏好性甚至是相反的✿ღ✿◈ღ。鉴于此✿ღ✿◈ღ,研究团队发现单纯靠强化学习很难达到很好的效果✿ღ✿◈ღ,这和在数学任务或检索任务上使用强化学习就能完成训练存在不同之处✿ღ✿◈ღ。“所以✿ღ✿◈ღ,SFT 阶段在我们研究团队的任务上还是非常重要的✿ღ✿◈ღ。”陈勇超表示✿ღ✿◈ღ。
陈勇超认为✿ღ✿◈ღ,未来基于大模型的代理或者具身智能系统在很多任务中都需要融入符号计算✿ღ✿◈ღ,就像很多机器人领域的学者认为“未来的模型不是从视觉语言到动作极品惊天动地✿ღ✿◈ღ,而是视觉语言到控制”✿ღ✿◈ღ。可以预见的是✿ღ✿◈ღ,最先应用的是虚拟世界✿ღ✿◈ღ,比如旅行规划✿ღ✿◈ღ、网页任务以及各种科学问题求解✿ღ✿◈ღ。同时✿ღ✿◈ღ,虽然很多任务并不需要符号计算✿ღ✿◈ღ,但是仍需要代码执行✿ღ✿◈ღ,例如任务过程中需要画图来可视化太阳集团城官网✿ღ✿◈ღ,这些场景也亟需训练模型融入代码执行器太阳集团城官网✿ღ✿◈ღ。
据介绍✿ღ✿◈ღ,R1-Code-Interpreter 工作是研究团队整个大课题的一部分✿ღ✿◈ღ:把符号计算与基于大模型的推理规划结合起来(Neuro-Symbolic Foundation Models for Reasoning and Planning)极品惊天动地✿ღ✿◈ღ。现在的大模型推理规划基本都是直接基于纯神经网络以及文字推理来进行✿ღ✿◈ღ。但是✿ღ✿◈ღ,有很多任务都是需要基于符号来计算优化的✿ღ✿◈ღ,比如要让大模型帮用户规划旅行路线✿ღ✿◈ღ,整个机票✿ღ✿◈ღ、酒店✿ღ✿◈ღ、时间✿ღ✿◈ღ、地点和交通的选择都是在预算✿ღ✿◈ღ、偏好✿ღ✿◈ღ、行程和价格等因素下的优化与规划问题✿ღ✿◈ღ。再比如✿ღ✿◈ღ,机器人中典型的任务与移动规划✿ღ✿◈ღ。前段时间特别火的“9.9 和 9.11 比大小”还有“strawberry 里面有几个 r”等问题✿ღ✿◈ღ,让大模型生成代码来解决这些问题比直接文字推理要简单容易得多✿ღ✿◈ღ。
在这个工作之前✿ღ✿◈ღ,研究团队在 ICRA 2024 发表的 AutoTAMP[1] 和在 NAACL 2025 发表的 TravelPlanner[2] 利用其预先设计好的框架和算法把大模型与符号计算的工具相结合, 来做机器人和旅行中的规划问题✿ღ✿◈ღ。这样做能带来很好的效果✿ღ✿◈ღ,但是泛化性会有局限性✿ღ✿◈ღ。比如✿ღ✿◈ღ,面临不同任务需求时✿ღ✿◈ღ,所需要的算法以及框架会不一样✿ღ✿◈ღ,这时若为每个场景设计一个框架会显得十分局限✿ღ✿◈ღ。现在大模型之所以这么火✿ღ✿◈ღ,一大原因就是因为它超强的泛化性✿ღ✿◈ღ。所以✿ღ✿◈ღ,研究团队一直思考如何在让大模型能够在符号计算的同时✿ღ✿◈ღ,又不损失大模型的泛化能力✿ღ✿◈ღ。
2024 年✿ღ✿◈ღ,陈勇超在微软研究院实习的时候✿ღ✿◈ღ,首先想到的就是以代码为载体✿ღ✿◈ღ,来融合各个算法✿ღ✿◈ღ、控制器和规划器✿ღ✿◈ღ。一方面✿ღ✿◈ღ,因为符号计算就是在人为预先设定的规则语言下调用各种算法✿ღ✿◈ღ,比如编程语言✿ღ✿◈ღ、控制器以及规划搜索方法等✿ღ✿◈ღ。另一方面✿ღ✿◈ღ,当前的大模型在经过训练后✿ღ✿◈ღ,天然具备代码编程的能力太阳集团城官网✿ღ✿◈ღ。所以研究团队认为✿ღ✿◈ღ,如果大模型能够自然高效运用代码执行器✿ღ✿◈ღ,然后在文字推理和符号计算之间灵活调动✿ღ✿◈ღ,那么在处理各种推理规划任务时会非常高效✿ღ✿◈ღ。同时✿ღ✿◈ღ,因为是否调用代码以及选择什么样的算法都是大模型自主完成✿ღ✿◈ღ,所以对泛化性没有损失✿ღ✿◈ღ。
明确了这个方向之后✿ღ✿◈ღ,研究团队先测试了一下目前 OpenAI 的 Code-Interpreter✿ღ✿◈ღ,借此发现目前 OpenAI 训练的 GPT-4o+代码执行器有很多问题✿ღ✿◈ღ,比如有些任务很明显使用生成代码来解决会更好✿ღ✿◈ღ,但是其实模型仍然会选择自己用文字推理✿ღ✿◈ღ,然后导致出错✿ღ✿◈ღ。研究团队还发现✿ღ✿◈ღ,即使通过调整提示词引导模型生成代码来解决任务✿ღ✿◈ღ,生成的代码也会经常包含无效的代码✿ღ✿◈ღ,未能充分利用符号计算✿ღ✿◈ღ。最新的推理模型 o1✿ღ✿◈ღ、o3 还有 DeepSeek-R1 也被发现存在这些问题✿ღ✿◈ღ。后来✿ღ✿◈ღ,研究团队把所发现的现有 Code-Interpreter 的问题总结成论文✿ღ✿◈ღ,并以《在代码执行与文本推理之间引导大型语言模型》(Steering Large Language Models between Code Execution and Textual Reasoning)为题发表在 2025 国际学习表征会议(ICLR✿ღ✿◈ღ,International Conference on Learning Representations)[3]✿ღ✿◈ღ。
而为了解决这些不足✿ღ✿◈ღ,研究团队尝试训练模型来提高自如运用代码执行器的能力✿ღ✿◈ღ。其中涉及到两个方向✿ღ✿◈ღ:一是额外训练一个辅助的模型来指导主模型的生成✿ღ✿◈ღ,好处是辅助模型的尺寸和训练难度都要小很多✿ღ✿◈ღ,而且可以通过用最强的主模型来探测现在能达到的最强能力✿ღ✿◈ღ。二是直接微调单个模型来兼顾纯文字推理以及符号计算的能力✿ღ✿◈ღ,这对基础模型的能力要求比较高✿ღ✿◈ღ。研究团队一开始尝试的是第一种方法✿ღ✿◈ღ,训练出来的 CodeSteer[4] 能够让 GPT-4o 在 8B 模型的指导下极品惊天动地✿ღ✿◈ღ,充分利用符号计算来解决很多推理规划问题✿ღ✿◈ღ,甚至在很多任务上比 o1 和 DeepSeek-R1 的表现还好✿ღ✿◈ღ。第二种方法就是研究团队在此次 R1-Code-Interpreter 工作中所探究的✿ღ✿◈ღ。
陈勇超认为✿ღ✿◈ღ,未来的大模型做推理和规划任务的时候✿ღ✿◈ღ,应该在三种方法模态直接自由选择和衔接✿ღ✿◈ღ:1)自己直接生成答案✿ღ✿◈ღ,大模型文字推理或者机器人里面 VLA 生成控制信号✿ღ✿◈ღ;2)调用外部的工具(tool use)✿ღ✿◈ღ;3)生成代码来创造合适的工具✿ღ✿◈ღ。后续✿ღ✿◈ღ,他计划探索一些方法把这三种模式都结合起来✿ღ✿◈ღ。同时✿ღ✿◈ღ,也打算在具体实际的应用任务上达到更好的效果✿ღ✿◈ღ,来验证想法的可行性✿ღ✿◈ღ。
石昊也动了✿ღ✿◈ღ,以银月追击✿ღ✿◈ღ,劈向那一动不能动的鼠王✿ღ✿◈ღ,可“当”的一声大响✿ღ✿◈ღ,竟没能劈开✿ღ✿◈ღ。小不点吃惊的瞪圆了大眼✿ღ✿◈ღ,叫道✿ღ✿◈ღ:“咿呀✿ღ✿◈ღ,再来✿ღ✿◈ღ!”
(二)动真来实✿ღ✿◈ღ,查摆问题✿ღ✿◈ღ。指出✿ღ✿◈ღ,找不出问题本身就是问题✿ღ✿◈ღ。各村(社区)两委班子真心诚意听取意见✿ღ✿◈ღ,带头查摆问题✿ღ✿◈ღ,紧紧抓住“照镜子✿ღ✿◈ღ、正衣冠✿ღ✿◈ღ、洗洗澡✿ღ✿◈ღ、治治病”的总要求✿ღ✿◈ღ,以谈认识✿ღ✿◈ღ、谈思想✿ღ✿◈ღ、查问题✿ღ✿◈ღ、找出路为切入点✿ღ✿◈ღ,聚焦“四风”✿ღ✿◈ღ,对照在党的群众路线教育实践活动第一批总结暨第二批部署工作会议上✿ღ✿◈ღ,罗列的乡镇(街道)和村(社区)存在7个问题✿ღ✿◈ღ,立足于从班子及跟人本身找问题✿ღ✿◈ღ、查根源✿ღ✿◈ღ、晒不足✿ღ✿◈ღ。组织群众有序参与活动的各个环节✿ღ✿◈ღ,切忌“自说自话✿ღ✿◈ღ、自弹自唱”✿ღ✿◈ღ,尤其要落实好“六必听”(工作对象和服务对象必听✿ღ✿◈ღ,基层干部和群众必听✿ღ✿◈ღ,离退休老同志必听✿ღ✿◈ღ,党外干部必听✿ღ✿◈ღ,本单位职工必听✿ღ✿◈ღ,困难多矛盾突出的地方必听)的要求✿ღ✿◈ღ,从活动一开始就要扎下去听取群众意见和建议极品惊天动地✿ღ✿◈ღ,做到每个环节都组织群众有序参与✿ღ✿◈ღ,畅通群众反映意见的渠道✿ღ✿◈ღ,让群众监督和评议✿ღ✿◈ღ,充分调动群众参与活动的积极性✿ღ✿◈ღ,确保活动不虚✿ღ✿◈ღ、不偏✿ღ✿◈ღ、不走过场✿ღ✿◈ღ。查摆的问题找得越具体越好太阳集团城官网✿ღ✿◈ღ,绝不能笼而统之✿ღ✿◈ღ、大而化之✿ღ✿◈ღ,防止避重就轻✿ღ✿◈ღ、不痛不痒✿ღ✿◈ღ。
06月28日,鬼屋✿ღ✿◈ღ、密室……“娱乐性恐惧”可减轻身体炎症?,虽然父母对于李龙的决定并不理解极品惊天动地✿ღ✿◈ღ,仍旧选择了支持✿ღ✿◈ღ。妻子则特意为他准备了紫色运动裤✿ღ✿◈ღ,谐音为东北话“指定对”✿ღ✿◈ღ,希望能有一个好彩头✿ღ✿◈ღ。在李龙出发前✿ღ✿◈ღ,妻子还将一张写有鼓励话语的小纸条放进他的行李里✿ღ✿◈ღ,希望能为他加油打气✿ღ✿◈ღ。,威尼斯人在线app下载,和记娱乐最新地址,乐博入口✿ღ✿◈ღ。
大家早上好!今天我讲话的题目是✿ღ✿◈ღ:消防安全,从我做起✿ღ✿◈ღ。世界上最宝贵的是什么东西?毫无疑问✿ღ✿◈ღ,是人的生命✿ღ✿◈ღ。生命对于我们只有一次✿ღ✿◈ღ,我们要倍加珍惜✿ღ✿◈ღ。
第三✿ღ✿◈ღ,重抓城市建设✿ღ✿◈ღ,是加快嘉荫发展的需要✿ღ✿◈ღ。近几年来✿ღ✿◈ღ,我们沿江县份的发展特别是城市建设可以说是百花齐放✿ღ✿◈ღ、异彩纷呈✿ღ✿◈ღ:东宁县注重依山傍水的独特优势✿ღ✿◈ღ,做足山✿ღ✿◈ღ、水文章✿ღ✿◈ღ,着力打造具有现代品位✿ღ✿◈ღ、人文内涵✿ღ✿◈ღ、山水特色✿ღ✿◈ღ、边陲知名的旅游生态城市✿ღ✿◈ღ,整个县城的建设力度✿ღ✿◈ღ、建设品位令人耳目一新✿ღ✿◈ღ。漠河县紧紧围绕“人在绿中✿ღ✿◈ღ,楼在花中✿ღ✿◈ღ,城在林中”的目标定位✿ღ✿◈ღ,积极开展最佳人居环境的生态城市创建活动✿ღ✿◈ღ,全面加快现代化城市建设步伐✿ღ✿◈ღ,城区基础设施配套功能日益完善✿ღ✿◈ღ。萝北县按照建设“宜居城市”和边陲明星县的目标定位✿ღ✿◈ღ,全民动员✿ღ✿◈ღ,全员参与✿ღ✿◈ღ,城市建设大有起色✿ღ✿◈ღ。周边县市蓬勃开展的城市建设极品惊天动地✿ღ✿◈ღ,还有我们没有说到的南方发达县市的成功模式✿ღ✿◈ღ,既给我们发展城市经济带来了有益的启示✿ღ✿◈ღ,更给我们提出了更大的挑战✿ღ✿◈ღ。面对沿江县份城市建设你追我赶✿ღ✿◈ღ、争先恐后的发展态势✿ღ✿◈ღ,我们必须进一步坚定信心✿ღ✿◈ღ,加快赶超✿ღ✿◈ღ,充分借鉴这些地区城市建设方面的成功经验✿ღ✿◈ღ,扬长避短✿ღ✿◈ღ,奋力向经济发达✿ღ✿◈ღ、环境优美✿ღ✿◈ღ、秩序井然的边陲名城✿ღ✿◈ღ、文明型县城迈进✿ღ✿◈ღ。
进一步加强信息✿ღ✿◈ღ、督查✿ღ✿◈ღ、政策研究材料的报送工作✿ღ✿◈ღ。地委办公室承办的信息✿ღ✿◈ღ、督查和政策研究工作既是各某地某✿ღ✿◈ღ、各部门向地委乃至自治某地党委工作的主渠道✿ღ✿◈ღ,也是地委掌握各某地某✿ღ✿◈ღ、各部门贯彻落实党委决策和各项工作部署情况的重要手段✿ღ✿◈ღ。近年来✿ღ✿◈ღ,各某地某✿ღ✿◈ღ、各部门积极报送各类信息✿ღ✿◈ღ、督查和政策研究材料✿ღ✿◈ღ,做了大量工作✿ღ✿◈ღ。某某✿ღ✿◈ღ、巴里坤某地✿ღ✿◈ღ、伊吾某地✿ღ✿◈ღ、经贸委✿ღ✿◈ღ、发展计划委员会✿ღ✿◈ღ、统计局✿ღ✿◈ღ、农业局✿ღ✿◈ღ、林业局✿ღ✿◈ღ、建设局✿ღ✿◈ღ、公安局✿ღ✿◈ღ、安全局✿ღ✿◈ღ、劳动保障局等单位在这些方面做得较好✿ღ✿◈ღ。希望继续发扬成绩✿ღ✿◈ღ,再接再厉✿ღ✿◈ღ,力争各项工作能再上新台阶✿ღ✿◈ღ。其他单位也要认真查找不足✿ღ✿◈ღ,努力赶上来✿ღ✿◈ღ。与此同时✿ღ✿◈ღ,我们也要清醒看到✿ღ✿◈ღ,目前党委的信息✿ღ✿◈ღ、督查和政策研究工作与新形势✿ღ✿◈ღ、新任务的发展需要相比✿ღ✿◈ღ,同各级党委的要求相比太阳集团城官网✿ღ✿◈ღ,还有一定的差距✿ღ✿◈ღ,还存在一些问题和不足✿ღ✿◈ღ。主要表现在✿ღ✿◈ღ:一是信息✿ღ✿◈ღ、督查和政策研究的整体水平还不高✿ღ✿◈ღ,报送的材料有的针对性不强✿ღ✿◈ღ、文字质量不高✿ღ✿◈ღ、数据不准确;有的简单停留在现象表层✿ღ✿◈ღ,缺乏深度思考和分析✿ღ✿◈ღ,也没有提出操作性较强的应对措施✿ღ✿◈ღ,能上升到地委领导决策视野的偏少;二是部门一些重要信息✿ღ✿◈ღ、紧急信息的报送还不够及时✿ღ✿◈ღ,甚至有迟报✿ღ✿◈ღ、漏报✿ღ✿◈ღ、瞒报的现象✿ღ✿◈ღ。三是机构改革以后✿ღ✿◈ღ,督查机构进行了新的设置✿ღ✿◈ღ,有的部门对党委督查工作缺乏足够的重视✿ღ✿◈ღ。这里我要强调指出的是✿ღ✿◈ღ,党委督查的机构设置虽然有变化✿ღ✿◈ღ,但督查工作的重要性没有变✿ღ✿◈ღ,督查工作的内容✿ღ✿◈ღ、手段✿ღ✿◈ღ、要求没有变太阳集团城官网✿ღ✿◈ღ。希望大家切实利用好信息✿ღ✿◈ღ、督查和政策研究工作这一渠道✿ღ✿◈ღ,知不足而思进✿ღ✿◈ღ,采取切实有效的措施✿ღ✿◈ღ,认真加以解决✿ღ✿◈ღ。
新闻信息服务许可证音像制品出版许可证广播电视节目制作经营许可证网络视听许可证网络文化经营许可证机房规划✿ღ✿◈ღ。tyc太阳成集团✿ღ✿◈ღ,suncitygroup太阳新城✿ღ✿◈ღ,大数据管理✿ღ✿◈ღ!suncity太阳官方网站✿ღ✿◈ღ,太阳成集团✿ღ✿◈ღ,大阳城官网入口