1月14日,彭湃音讯记者获悉,近来上市的AI独角兽智谱(连结华为开源新一代图像天生模子GLM-Image,模子基于昇腾Atlas 800T A2设置和昇思MindSpore AI框架竣事从数据到熬炼的全流程,是首个正在邦产芯片上竣事全程熬炼的SOTA众模态模子。
据智谱方面先容,GLM-Image 采用自决立异的“自回归+扩散解码器”搀杂架构,杀青图像天生与言语模子的连结,是智谱面向以Nano Banana Pro为代外的新一代“认知型天生”时间范式的一次首要探求。
正在架构特性方面,面临古代模子正在“清楚繁杂指令”与“精准绘制文字”上难以两全的题目,GLM-Image引入“自回归+扩散解码器”搀杂架构,交融9B的自回归模子与7B的DiT扩散解码器。通过改正Tokenizer战略,GLM-Image可以自顺应管理众种别离率,原生支撑从1024x1024到2048×2048尺寸的大肆比例图像的天生职分,无需从头熬炼。
值得贯注的是,正在上市后智谱股价不断迎来飙升,截至14日港股午盘,涨16.83%,其发行价定为116.2港元/股,这也意味着上市后智谱股价仍然大涨超80%。
正在和华为团结方面,据智谱披露,依托昇腾NPU和昇思MindSpore AI框架,应用动态图众级流水下发、高职能交融算子、众流并行等性子,公司自研模子熬炼套件,周到优化数据预管理、预熬炼、SFT和RL的端到端流程。
通过动态图的众级流水优化机制,将Host侧算子下发的症结阶段流水化并高度重叠,祛除下发瓶颈;通过众流并行战略,通讯和估计互掩,冲破文本梯度同步、图像特质播送等操作的通讯墙,应用AdamW EMA、COC、RMS Norm等昇腾亲和的高职能交融算子,同步擢升熬炼的安稳性和职能。
据了然,GLM-Image是首个正在邦产芯片上竣事全流程熬炼的SOTA众模态模子,验证正在邦产全栈算力底座上熬炼高职能众模态天生模子的可行性。
不但仅是智谱。众家中邦AI企业新年以还作为屡屡。同样正在1月14日,彭湃音讯记者获悉,MiniMax正式开源首个面向Coding Agent的体例性评测集OctoCodingBench,试图为下一代AGI的落地准绳给出更真切的谜底。评测结果显示,片面散源模子正在进程合规目标上已神速靠拢乃至超越片面闭源模子。
1月12日,DeepSeek发外一篇新论文《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》(基于可扩展查找的条目回顾:狂言语模子稀少性的新维度),梁文锋位列作家名单中,这篇论文为北京大学和DeepSeek联合竣事。据理解,这篇论文的中枢直指目前狂言语模子存正在的回顾力“短板”,提出了“条目回顾”这一观念。
另外,爱诗科技发外最新视频模子PixVerse R1,是环球首个支撑最高1080P别离率通用及时全邦模子,据先容,这款新模子初度将视频天生的延迟从“秒级”降至“即时”相应,杀青“所思即所睹、所说即所现”的及时交互体验,记号AIGC范畴的视频天生从“静态输出”迈入“及时交互”的全新阶段。PixVerse R1通过杀青连贯且及时的天生,代外全全邦周围内视听媒体范畴的首要演进。
1月13日,寂静已久的另一家大模子独角兽“百川智能”发布开源新一代医疗大模子 Baichuan—M3,其正在环球最巨子的医疗AI评测HealthBench中以65.1分的归纳结果位列环球第一;正在特意检验繁杂计划才华的HealthBench Hard上,以44.4分的结果夺冠。这一结果初度正在医疗范畴杀青对GPT-5.2的超越。
对付近期的大模子高潮,百川智能创始人兼CEO、原搜狗CEO王小川当天正在给与媒体采访时呈现,“上市的两家(智谱、MiniMax)是踩正在了通用模子的时间盈余和邦度对付科技强邦扶助的根本上,这倾向是没有题目的,只是他们的市值和贸易化才华并不配合。”
王小川呈现,改日百川也会走到上市这条道道上,但并没有正在过程中,他显示大概会正在2027年启动上市谋划。目前公司账上再有30亿元。返回搜狐,查看更众