星洲网
星洲网
星洲网 登入
Newsletter|星洲网 Newsletter 联络我们|星洲网 联络我们 登广告|星洲网 登广告 关于我们|星洲网 关于我们 活动|星洲网 活动

ADVERTISEMENT

ADVERTISEMENT

GPT-4o

7月前
在测试过程中,GPT-4o真的有很强大的能力,如果你是付费用户,会更加爱上它。我在ChatGPT平台测试了①风格转换、②四格漫画、③图像编辑、④制作海报和贴图等功能。 AI文生图领域迎来新对手! 以前,许多人可能将ChatGPT视为一个搜索引擎、文案生成器或翻译工具。然而,随着AI技术发展,今后可要改观了。因为在3月下旬,OpenAI为ChatGPT和Sora新增了“GPT-4o图像生成工具”(GPT-4o image generation,简称GPT-4o),让用户自由发挥创意,运用AI生成图片、海报、贴图、四格漫画等等。换言之,在设计内容、收集灵感时,它可以成为一个非常得力的助手,提供各种形式的平面视觉效果。 据悉,OpenAI一开始仅限给ChatGPT付费用户,而免费用户每天只能生成3张图片。后来,在愚人节当天,OpenAI首席执行员奥特曼决定向免费用户全面开放GPT-4o,但不是有求必应,还是会有使用限制。另外,由于GPU面临过载压力,他也在社交媒体平台“X”发文透露,服务可能会出现中断,AI的回复速度会变慢,接下来也会影响OpenAI的新产品发布进度。 与此同时,OpenAI的Sora产品负责人Rohan Sahai早前也曾提到,GPU几乎快“接近崩溃”,用户在使用Sora生成视频时,会需要更长的等待时间或面临服务器负载问题。 AI助你创作4样玩意儿 在测试过程中,GPT-4o真的有很强大的能力,如果你是付费用户,会更加爱上它。我在ChatGPT平台测试了①风格转换、②四格漫画、③图像编辑、④制作海报和贴图等功能。 ❶风格转换 若你经常在刷脸书和Instagram,估计已经看到一波吉卜力风格的AI图片。这就是GPT-4o的风格转换功能,能够将你上传的照片转换成其他风格,比方说赛博朋克、皮克斯动画、80年代美漫等等。 ❷四格漫画 我先请ChatGPT(或Deepseek)生成一个四格漫画的分镜和内容,再依据自己的需求去修改。随后,在对话框那里,点击“…”,选择“Create Image”,贴上漫画的内容,并在文末输入“请依照以下的内容大纲生成一个四格漫画”即可。 ❸酒楼菜单 OpenAI称,GPT-4o是一个超越DALL·E系列模型的图像生成技术。它可以精准地执行复杂的指令,包括生成图像里面的文字。所以,我提高难度,要求GPT-4o生成一份传统香港酒楼的菜单,然后要有中英文。最后,它顺利生成一份精简的菜单,且精准地呈现英文字体,但在识别中文字体方面有待加强。接着,我继续测试编辑功能,要求AI添加餐馆名字,并制定要采用楷体和金色色调。结果,它一样顺利完成任务。 ❹海报和贴图 在AI文生图领域里面,这两个是“基本功”,我请GPT-4o生成一张80年代美漫风格的海报,大标题得写上“ChatGPT最好”。AI成功生成了海报,但却将标题自动翻译成英文“ChatGPT is the best”。在贴图方面,我上传了一张舞狮照片,要求AI制作3张不同内容的贴图。不过,恰好遇到额度满了,只来得及生成一张。 如果平时需要制作社交媒体或网页内容,GPT-4o真的很好用,无需复杂操作,就能快速生成海报、插画或者配图,提高整个工作效率。 我的制图指令,供你参考: ①风格转换 请将我上传的照片生成仿“吉卜力”风格,要有温暖细腻的色调,充满童话和自然元素,角色表情要生动,背景的细节要丰富一些。 ②四格漫画 我需要一个四格漫画,故事大纲如下: 第一格:决心 [画面] Peter站在体重计上,一脸震惊,数字显示“90kg”。 [台词] Peter(握拳):“不行!我要减肥!从今天开始,健康饮食!” 第二格:坚持 [画面] Peter在超市,认真挑选蔬菜,购物篮里全是西兰花、胡萝卜。 [台词] Peter(严肃):“只吃天然食物,拒绝加工食品!” 第三格:诱惑 [画面] Peter走过甜品区,橱窗里摆着巨大巧克力蛋糕,闪闪发光。 [台词] 蛋糕(拟人化,眨眼睛):“帅哥~来一口嘛~” 第四格:崩溃 [画面] Peter瘫坐在沙发上,满脸奶油,手里拿着空蛋糕盒。 [台词] Peter(流泪):“……明天再开始减肥!” ③酒楼菜单 请帮我制作一份传统香港酒楼的菜单,要有各种粥品、港式面食,主打餐点是烧鹅,必须要有菜品的概述和价格,最好有中英文。排列必须精美,配合一些传统中华色彩的图案,菜品的图片必须非常美味。 ④WhatsApp贴图 请根据我上传的图片,制作5张Q版有趣的漫画风格贴纸,然后加入各种夸张表情和以下的文字。 1. Hor Seh Liao 2. 实在够力 3. Steady Bom Bibi 4. On你啦! 5. 还要等多久? 相关文章: 【科技Talk】AI绿色转型潜力无穷,81%大马企业却担心电费爆表…… 【科技Talk】10大“时代的眼泪” 你见过几个?
8月前
编按:AI无疑是最近的热门话题,但它究竟会对我们的生活产生怎样的变化?在今年5月问世的GPT-4o与AI嵌入式电脑(Copilot+PC)又是何物?面对日渐成熟的AI技术,未来是否会诞生全能AI助手? 文:藤光(拉曼大学数据科学硕士系助理教授) 过去疯狂的5月,各种大事件接踵而至——GPT-4o问世,Gemini 1.5Pro发布,一位新认识的作家朋友举行婚礼(恭喜),随后微软宣布了首款AI嵌入式电脑(Copilot+PC)的诞生。看完那场发布会,我浑身起了鸡皮疙瘩,它带来的震撼远超过GPT-4o。 如果说GPT-4o让我看到了AI在未来生活中的潜在应用场景,那么微软的这部AI嵌入式电脑让我见识到了实实在在的“未来”。 当时我的第一个想法是——这不正是我一直期待的全能AI助手吗?我相信那些需要处理大量资料和信息的朋友和同事,一定会深有同感。 GPT-4o简析 赶在谷歌I/O开发者大会前夕,OpenAI策略性地抢先发布了首个单网络架构的多模态语言模型。与前代GPT-4的堆叠式多模态模型相比,基于单网络架构的GPT-4o能够更迅速、无缝地处理和生成语音信息,达到近似人类的对话效果。端到端模型有助于解决堆叠式结构中常见的压缩信息丢失问题,直接学习人类语音,不仅掌握自然语言(natural language),还能识别非语言特征(paralanguage),如音调、速度、节奏、音色和笑声,甚至包括呼吸等声音,从而分析出对话者的情绪和状态,并做出相应反应。这并不代表AI具有自我意识,只是表现出仿自我意识的效果。目前市面上的AI模型无法产生自主意识,未来亦然,除非从底层重新设计一套全新的机器学习原理。因此,尽管GPT-4o智慧超群,理解人类,懂得察言观色,但本质上仍然只是一个拥有上兆字节记忆载体的演算法,只有在接收到人类的输入时才会产生对应输出。 打个比方说,若今天所有人都不去访问ChatGPT网页,它就仅是一个沉默的大模型,静悄悄地待在服务器里,不会反过来主动向世界呼唤:“嘿!大家怎么都不来关注我?” Copilot+PC为何物? Copilot+PC是微软在Build 2024 5月开发者大会上推出的首款AI嵌入式电脑(简称AI PC)。它已经脱离一般传统型电脑,完全可把它定义为新一代电脑。Copilot原名为Bing Chat,是微软于去年2月发布的聊天机器人,基于当时的GPT模型并赋予联网功能,显著提升了对话准确度和可信度。后来其功能延伸至Office全家桶,融入Windows 11操作系统,成为内建软体,最终在11月品牌重塑后易名为Copilot。 那么何谓AI嵌入式电脑?它与如今Windows 11系统中的Copilot又有何区别?AI嵌入式电脑,顾名思义就是把AI模型直接“嵌入”到电脑系统中。工程不像把一个软体安装到电脑里那么简单,而是从晶片架构设计开始着手,后把四十多个大大小小的AI模型(包括GPT-4o)整合到Windows操作系统里。硬体上,Copilot+PC放弃了目前电脑常规的x86处理器架构,改用ARM架构的高通Snapdragon X Elite,内建NPU(Neural Processing Unit,神经处理器),更适用于AI运算。明确点说,我们可以直接在本地电脑上高效运行如130亿参数量级的Llama2语言模型,这是目前市面上多数桌上型电脑难以办到的。 Copilot+PC将如何改变我们的生活? 直接把Copilot嵌入Windows操作系统能给用户体验和电脑操作带来两大革命性变化。有史以来,电脑数据跟人类记忆是两种截然不同的存储系统:前者按照文件格式和应用程序做归类存储,文件储存于文件夹里,邮件储存在邮箱内,打开的网页堆积在浏览器中,因此无法达到跨程序或跨文件之搜寻;后者则习惯以时间或关系联结来记住一件事情,比如我们会记得几天前看过某某某的一张照片,一个礼拜前打开过关于某一则新闻的网页,几个月前读过某一封关于工作的邮件或者讯息,但我们不会去记得那些文件、邮件,和讯息究竟被储存在哪个地方。一旦累积上大量的信息,查询或回顾资料经常是一件费劲的事。 而Copilot+PC中的Recall则是一套完全依据人类记忆模式设计的回溯系统。它透过间隔式截图,记录下电脑的视窗画面,后对画面进行分析,再依据语意关系储存到向量库(vector store)中。简而言之,Copilot+PC拥有跟用户同步的图像记忆和相似的记忆模式,用户只需输入相关词或描述记忆中的操作画面,它就能从向量库中调出相关资料。这意味着我们不再需要创建各式各样的文件夹来归类文件,给邮件制定各种标签以便日后搜寻,也无需在浏览器囤积下上百网页。当我们工作过程中有查询或调用资料之需,直接以对话形式跟Copilot互动即可,这大大增加了工作效率。 当然,Copilot的功能不仅限于记忆回溯、帮忙调用资料那么单调,它也具备聊天、分析数据、文章摘要、实时翻译、修图、绘图、修复旧图等功能,甚至能引导用户完成自己不熟悉的电脑操作,还能根据用户使用习惯来建议系统优化。从今而后,我们将拥有一个属于自己的AI私人助理,父母可在电脑中客制化孩子的教程,同时也是不擅长使用电脑的长辈们的福音。 Copilot+PC的兼容性问题 除了微软的Copilot+PC,目前已面市其他AI PC皆采用非x86架构处理器。但几乎现有的Windows操作系统中的软件都基于x86处理器架构设计,这意味着大部分软体都无法与AI PC操作系统兼容,除了官方告知的Office全家桶、Adobe大部分软件、Chrome浏览器等。针对兼容性问题,微软已提出可能替代或解决方案,比如Prism模拟器,让x86版本软体能在ARM架构的处理器中运行。除此之外,微软全球资深副总裁暨消费者首席行销长Yusuf Mehdi也在Build 2024开发者大会上呼吁开发者加入Windows Copilot Runtime平台,共同打造新新的生态系统。相信不久将来,AI PC很快会拥有自己完整的生态系统。 Copilot+PC会带来隐私安全问题? Recall系统透过间隔式截图来“记住”电脑操作历史,包括用户的全部使用过程,聊天记录,甚至输入的密码,全都难逃Copilot的眼睛,不由得让人担忧隐私保障。Windows和Surface负责人Pavan Davuluri在开发者大会上强调,Copilot+PC所纪录的所有数据都将保留在电脑中,所有AI模型也都在本机上运算,无需上传到服务器,也保证不会利用个人数据来训练模型。同时,用户对各自的使用记录有百分百的掌握权,如同WhatsApp的聊天记录或浏览器的浏览记录,我们可以随时删除掉过去的记录。另外,我们也能客制化Copilot的实时跟踪,限制其在某段时间或程序中进行跟踪,因此AI PC并不会衍生出用户隐私问题。 “生成式AI”之初到所向披靡的“通用型人工智慧” 在机器学习圈内,一般场合不太常听到“生成式AI”,更普遍的术语为“生成式模型”,“生成式AI”更像是一个面向大众的行销用词。“生成式模型”又分为如GPT和Gemini的“语言模型”,与Midjourney和DALLE的“文生图模型”或“图生图模型”。2021年,我在台湾首次接触到“生成式模型”,仿佛发现了新大陆。也在那时候我认识到GPT-1、2和3语言模型。 2022年末,刚入冬,OpenAI的ChatGPT(基于GPT-3.5模型的聊天机器人)正式对一般大众开放,周围同学和弟弟分别都在第一时间发来测试结果,于是我也抱着问倒模型的目的,加入当时疯狂试验的前线。当然,结果毫无悬念,对模型原理有一定了解的我们很快便找出当时的许多破绽。在GPT-4o刚上线那天,因为工作关系,我再次对其进行了测试——一系列客制化难度的伦理、推理和数学题下来,结果让我从心底感叹:“高中甚至大学老师这下搞不好真的会失业……” 我们即将告别传统型电脑时代 在微软发布Copilot+PC笔记型电脑后不出24小时,许多电脑企业也相继推出基于Copilot+PC基础的AI嵌入式笔记型电脑。这意味着我们即将告别传统型电脑的时代,从人机交互的双向互动模式,迈进“从”机交互(“从”意指“人工智慧”与“人类”)的三方互动时代。2024上半年,三星和谷歌分别在各自的旗舰手机上置入分门别类的AI功能,更有传言苹果公司将在后半年或明年推出首款AI手机。以目前趋势来看,AI嵌入式电脑与手机无疑会成为未来主流。如果说2023年是大部分人认识到AI的开年,那么2024年,随着AI嵌入式电脑与手机普及化,这将会是AI嵌入我们生活的真正元年。 更多【新教育】: 民众不熟社会企业 马来西亚DiD众筹之路步步艰辛 内陆小学教师肖恩史丹利/用创意教学方式,让孩子看见更广阔的世界 克服阅读困难 自学者在舞台发光
1年前
2年前
2年前