星洲网
星洲网
星洲网 登入
Newsletter|星洲网 Newsletter 联络我们|星洲网 联络我们 登广告|星洲网 登广告 关于我们|星洲网 关于我们 活动|星洲网 活动

ADVERTISEMENT

ADVERTISEMENT

大型语言模型

光是2024年,OpenAI净亏损就已高达50亿美元;目前我们所看到的AI技术,绝大多数都尚未实现商业价值。   人工智能(AI)可以说是时下最火的话题,无论你是否相关从业者,对AI持乐观还是悲观立场,你都会从各类平台接触它,无可避免。 投资界里,AI似乎也成了最热门的词汇。只要你的公司有AI,估值就会增加,融资金额也更高。一堆大型投资机构捧着钞票追着你跑,深怕你不给他们加入。 但,当一个池塘里的饲料增加了,就会出现鱼目混珠的情况。比如“伪AI”。许多公司会将自己的产品和服务包装成 AI,但并非真实技术。 日前,有家印度公司声称能让AI生成程序码,许多大公司(包括微软)都纷纷投钱。结果,这家公司并非真的用AI来生成程序码,而是聘请大批人力,收到用户的指令(prompt)后,再转用其他AI软件生成程序码。 也就是说,这家公司的服务听起来是很智能,不过他们就只是传递信息而已。客户大可绕过他们,自己用软件来生成程序码。 我们看看OpenAI那样的真玩家。即便OpenAI看似已成为业界扛霸子,实际上日子也并不好过,因为他们推出的技术再厉害,都无法回避连年亏损的事实。 光是2024年,OpenAI净亏损就已高达50亿美元。请看清楚,是一年亏50亿美元。 用一个不是太恰当,但全马来西亚人都能深切体会的类比——1MDB丑闻所涉及金额约40亿美元。换句话说,OpenAI一年的亏损,就相当于重演一场1MDB丑闻。 大家要明白一个事实,那就是目前我们所看到的AI技术,绝大多数都尚未实现商业价值。当然,有人可能不认同地说,2024年OpenAI营业额高达37亿美元,这些钱难道不是商业价值吗? 但是,如果一门生意要不断贴钱,而且越做越亏,那它就谈不上商业价值,就是纯粹的亏损。如果每1令吉的生意需要贴上2令吉成本,那我何不将这2令吉直接记录到公司账本里?至少,我的营业额是2令吉,扣除2令吉的 “成本” ,我也能够达到 “收支平衡” 。 换言之,现在的AI市场就像大家在玩着一个游戏。在这个游戏里,大家都有个共同的想象情景:彼此已经完成厮杀,优胜劣汰,赢家只有两到三位,绝大多数市场份额都被第一名拿下。 这就是所有AI从业者,或者说许多创业者的梦想。 但,这个梦想何时来临?没有人知道。 会不会有实现的一天?恐怕也没有人知道,更不怎么敢问,生怕会醒过来。 因此,是不是所有公司都要拥抱AI?从生产力考量,确实应该,这是个很好的学习契机。我相信很多企业老板为公司加入自动化元素时,就会发现 [vip_content_start] 原有的作业流程有大量改善空间。或许,部分公司会发现,他们未必需要AI,光是从简化流程出发,就能找到优化企业的关键。 那么,如果公司预算充裕,是不是就能直接进攻AI领域呢?比如研发自家LLM(Large Language Model,大型语言模型),推出类似DeepSeek那样的产品?我觉得未必。 LLM极其考究训练资料量,许多企业都是靠 “笨功夫” 来解决——给资料备注,提升机器学习效率。这种做法往往需要极高的模型参数,但换了更高的精准度。 另一种方式,是类似DeepSeek那样的蒸馏法——通过其他LLM训练出自己的逻辑。这类方式所需的模型参数比较低,运作起来也更快,而且精准度大概率也不会打太多折扣。 还有一种方式,是减少参数,但用极高质量的资料来训练,例如教科书资料。通过这类资料训练后,LLM所需的参数不会太大,精准度也能大幅提升。 其实,这些方式和人类的学习过程相当类似。不过,人类有较强的联想力,以及对抽象概念的辨认。 因此,我们可以得出结论:训练资料不是要够多,就是要够好。当然,资料越多,高质量样本的比例也越高;反之,资料不足,就难以训练出理想的LLM。 这也是为什么目前最强的LLM都是以中英文,其中以英文最强,因为英文资讯最多。如果我们要研发马来文为主的LLM,可以说是极其困难,因为马来文只在马来西亚通用,马来文的资料量也难以和英文比肩。 故此,一家公司是不是一定要搞AI技术?能不能做得成功?这,真的有很多需要看清楚的事。有些事情,大家还是不要太认真。
4月前
10月前
当OpenAI发布了ChatGPT,那个月简直不要太疯狂。事实上,业内早有大型语言模型在测试中,但都等待着一个先行者。OpenAI勇敢地走在了前列,行业巨头如谷歌都hold不住了,紧随其后发布了自家的Bard模型。 在Bard的示范中,它回答了这样一个问题:“如何向我的9岁孩子解释詹姆士·韦伯望远镜的某个发现?”Bard说:“韦伯望远镜拍下了第一张太阳系外行星的照片。”虽然听起来感觉没问题,但如果Bard读过《星洲日报》的专栏,就会知道这是错的。尽管韦伯望远镜主要用来研究太阳系外的行星和它们的大气,并拥有高清成像功能,但首张行星照片的记录其实是20年前的事。(20年前,“自适应光学”Adaptive Optics开始在天文领域流行,尤其应用在8-10公尺的大望远镜上。这技术为望远镜提供了“降噪”功能,通过调整镜片消除大气扰动,使我们能更清楚地观测远方的行星。) 当Bard的这一错误被揭露后,资本市场对谷歌这类大模型的信心大受打击,谷歌市值蒸发了千亿。 深入机器学习:训练大型语言模型的机制 那么,为何Bard会犯下这种“幻想”(即一本正经胡说八道)的错误呢?要理解这一点,我们首先得了解这些模型的训练机制。前文曾经提过,机器学习和传统编程不同的地方在于:我们不再逐个给机器下命令,而是让机器自己从数据中发现规律。 实际上,机器学习语言的方式跟我们小学的文字游戏很像,即从网络上的大量文本中挖掉一些词,然后尝试填补空白。例如,“(某某)是马来西亚的第十任首相”,或“(某某)是马来西亚的传统美食”。在这过程中,每个句子里的关键词都有可能被隐藏,模型的任务就是要猜测这些空格的内容。有时候,一个空格可能有多个合适的答案,因此机器不仅要给出答案,还要给出各种答案的可能性。 看起来简单,但是模型可以通过这种方式学习到很多东西。就像我们小时候在各种科目做的填空题,虽然填空,但每门课教给我们的东西是不同的,比如语文教我们语法;历史教史实;数学教逻辑。同样的,机器也在大量数据中努力学习,仿佛不停地刷题。 大型语言模型就像云顶高原的老虎机,每次“摇动”都产生不同的输出。通过大数据训练,我们就像在老虎机上作弊,使得它的输出更符合我们的预期。 超越ChatGPT:开源模型的多样化应用 了解这个概念后,你就能明白为什么Bard突然短路了。詹姆士·韦伯望远镜有很多“第一”,它确实重点研究太阳系外行星并拥有先进的成像技术,但把这些信息组合起来却反而不对,这就像有人问你在马来西亚应该吃什么,你回答“Roti Canai夹榴梿配 Laksa。” 虽然当前的AI仍然会犯一些低级错误,但是大语言模型的应用不仅仅局限于简单地使用ChatGPT,要知道ChatGPT只是众多大型语言模型中的其中一个。虽然OpenAI已经不再 Open(开源),但众多模型包括脸书Meta的LLaMa模型系列仍是开源的,而这些开源的模型允许我们在这些训练模型的基础上进行微调,进而释放更多潜力。 这好比你已经有一群优秀的大学毕业生,虽然他们不一定会有特定领域的专长,比如说天体物理的一些特定知识,但如果可以让这些模型再“进修”,那么它就可以发挥更大的能量。 这正是我的研究团队正在探索的其中一个方向。 让AI看懂30万篇天文论文 最近我们的团队对这些开源模型进行了微调,利用过去30年天文科学期刊发布的大约30万篇文章对其进行训练,训练方法和上述说的文字填空和接龙是一样的。当然,这里对于模型的训练还包括我们的一些小巧思。比如说让两个语言模型“对战”,其中一个模型扮演学生回答天文问题,另一个则扮演教授点评学生的答案,两者互相竞争。(这里就不谈技术细节了) 其实我们一开始也没底,就觉得可以试一试。模型的表现确实让大家很震惊,比如说我们尝试用AI生成天文学博士论文的研究方向,并请天文物理学家评分。评分结果显示,AI生成的论文题目在专家眼中甚至优于一般天文物理博士生能够提出的论文方向,一些同事不禁戏称:“真的不能让你继续搞下去,不然我们都失业了。” 必须说明的是,我们的目标并非取代人类工作,但我们必须接受的是,在这个新的时代里,AI生成的答案已俨然成为了评价的基线,只有超越AI的答案才被视为有价值。虽然这么说感觉有点残忍,但这未尝不是好事,因为AI把所有人的基准能力都拔高了一个纬度。要知道每个人都有自己的特长,而这些特长大概率还是比目前的模型更好,但是模型却可以补足每个人在其他方面的短板。 比方说,我以前觉得自己做研究还可以,但比较苦恼的是如果要我用英文写期刊文章,我就觉得对我这种非英语母语的人特别吃亏。虽然现在的模型不见得能写出媲美狄更生和王尔德的大作,但我却可以享受着类似用母语写作的畅快。 AI:平等的桥梁与公正的裁判 从宏观角度来看,我乐观地认为无论是回顾历史还是展望未来,这些AI模型将促进人与人之间的平等,并为弱势群体创造更多机会。 比如说,以前我们时常依赖某些指标,例如论文的被引用次数来评估一个人对于某个领域的贡献,但学术界其实并非完全公正。有时候,一些普通的论文莫名火起来,而其他有价值的论文却可能因为种种原因被埋没,所以这些指标往往并不能很公平地去评断一篇学术论文的价值。而我们的研究团队正在研究的其中一个方向,就是用我们微调后的模型去读遍所有论文,忽略人为的主观评价,客观地分析所有文章,从而找出任何一个能推进这个领域的真正先驱。 至于展望未来的部分,AI也只会让科技更加平等与开放。以天体物理为例,这是一个高投资的研究领域,可惜绝大部分的人再有才识也可能只屈就于一些岗位上,找不到人去交流。但微调后的大型模型可以独当一面,能力未必比各个领域的博士们差,可以成为弱势研究者的研究伙伴,不让个人际遇妨碍他们的成就。这也是我们团队做这项研究的最大初衷,而我们的团队也逐步在网上公开所有AI生成的天体物理博士论文方向。 还记得IBM的深蓝吗? 有人说,AI的出现是人类的消亡,可是要知道这种论述在历史上从来没有断过,但是也从来没有预言成真过。 还记得IBM的超级电脑深蓝曾经击败国际象棋大师卡斯帕罗夫吗?当时有人悲观地认为国际象棋已经结束了,但在二十多年后的今天,人们反而可以在任何地方、任何时间和AI对弈及学习,我们看见的是国际象棋更加昌盛,在很多非传统强国也是遍地开花。 更多相关文章: 【代码之外】丁源森/做AI时代里的 六边形战士 【代码之外】丁源森/论AI的养成与黯然销魂饭  【代码之外】丁源森/AI、ChatGPT与我妈的扫地机器人
2年前