尊敬的邬贺铨和王国法院士,很高兴跟大家交流一下大模型最新发展。我本人读研究生的时候就是学人工智能,后来因为不太好找工作,我就转型去做互联网研究了,没有想到几十年之后,又回来去做回人工智能,但是今天的人工智能看起来是神经网络。
(资料图片仅供参考)
我们也可以看到过去几十年的时间,人工智能在多个领域取得了突破性的进展,虽然它依然会犯错,但是错误率已经低于人类的平均水平,也就是说比大多数人在这些方面的水平要高了。
从技术角度来说,人工智能已经发展了60多年了,60多年来技术路线是千奇百怪,今天似乎在大模型,预训练的大模型,意味着一个新的产业正在形成当中。
这几年从通信基础设施,搞算力的基础设施开始,接下来未来几年我们要搞智力的基础设施,所以我们说智商原来是不在线的,现在看起来智商是要在线的,把智商放到网上去了,这个方向看起来已经确立了。
第三个是TOB还是TOC,通用还是专业的问题,以前讨论很多是对标ChatGPT通用场景的大模型,更多的是要解决基础模型方面的工作,这是一个非常重要的事情。主要是大型科技公司有这种财力和数据实力去做这一方面的事情,可以认为TOC是面向公众,下面很多的方向转向垂类的,一定要聚焦特定领域,面向企业TOB,主要是围绕产品和解决方案来做。如何做垂类的模型,国内外不一样,在硅谷针对特定场景的微调做实验,因为通用大模型还没有出来,不可能围绕它做生态,很多企业是全站式的,自上而下在做垂类的模型。这个生态在国内还需要一些时间,可能要求的门槛稍微低一点,这一类可以理解成私有的,或者专用的,其实就把云计算十年前的一些做法和一些口号,还有一些套路,往人工智能和大模型一靠,就差不多了。可以很明显,基础大模型和通用大模型的优点和不足,行业垂类大模型也有各自的优势和缺点,下一步很可能是走向融合,走向混合。
我们要做垂类行业大模型,为了数据的安全,这些数据不能拿出来,很多数据是非常敏感的,肯定大模型要做私有化的部署。过几年的时间,我个人的判断,就像今天的云肯定是一个混合云和混合AI的模式。
还有讨论今年的闭源大模型和开源大模型,ChatGPT出来是必然的,这个必然是有各种各样的原因。所以接下来对这个行业来说,因为这个行业的特点是赢家通吃,剩下的企业只能抱团取暖,必须抱一个开源社区,大家一起把开源的事情做起来。我们可以认为开源大模型正在刚刚兴起,这个浪潮刚刚开始,谁能胜出还不知道。当年移动互联网里面,苹果手机出来之后,接下来是安卓生态的建设,这一幕会重演,围绕着开源社区的生态,开源大模型面临着很多的挑战,一个重要的是它反向影响对开源的定义。我们对开源的定义是在25年前出现的,当年定义做的开源规则,针对的是软件,针对的是代码,今天人工智能这个开源针对的是模型,针对的是权重,里面很多数据集,大模型的开源和软件的开源,和代码的开源确实不太一样,所以我们需要在人工智能这个时代重新定义开源,今天面对模型,加了很多的数据,至少我看有三个方面的区别,加了很多科技伦理,所以这一块有AIGC产生一些新的内容,它是一个自循环了,会出现无数的问题。
整体来看,国外做了很多的榜单,但是从学术到产业还需要做更多的工作,学术界和产业界关注不一样,产业界主要关注性能,还有可靠性,稳定性,场景适应性怎么样,维护性怎么样,或者你的工程能力怎么样,要用工程化和标准化去做这个工作,所以不能单单以学术界的榜单来判断大模型做的好还是不好。
目前面临着很多一些新的风险和挑战,有技术、心理和社会方面的风险,模型里面有大量的参数是垃圾,到ChatGPT4到了上万亿,大模型大量的参数是垃圾,问题是你不知道谁是垃圾,你知道公司有人在摸鱼,可是你不知道谁在摸鱼,肯定很多参数在摸鱼,你需要做优化,完全是可以做优化。几年前我们讨论的深度学习的时候,做出的决定是一个黑箱,不能做出解决。深度学习到今天,大模型更不可解释的,因为出现了涌现的现象,突然开窍了,突然开悟了,为什么会开悟了,没法解释。但是用于现实和社会,它必须是可解释的,只有可解释以后,才能跟我们的法律、道德伦理和社会的游戏规则匹配起来,还有算力资源的部署有关系,还有人工智能出现了谜之自信的问题,AI的幻觉,对某些知识非常自信,跟人一样有时候也是谜之自信。
在文字方面,人也犯错,所以不要那么苛求,继续努力。在图片方面也相对比较成熟了,美术方面很不错,还有人声合成,对生成音乐和声音相对比较成熟了,模仿一个人的声音时间并不长,现在很多UP主就是用数字化+人工智能训练出来,还有一些视频的,还有编程已经达到了初级程序员的水平,编程就是文字对文字的翻译。还有在科学领域,科学院用的仪器和仪表,也需要人工智能来辅助,还有生物学和材料学等广泛的使用。
还有编程,今天的编程是在训练程序,不是在编写程序。算法要完整,数据只要有结构,算法,框架+数据,对算法细节的重要性没有那么重要了,不仅数据要有结构,还要整个输出。所以从编程序变成了训练程序。
前几年的移动优先和云优先,我们要优先考虑人工智能对我们的影响。我就讲这些。谢谢!
(文章来源:证券日报)
关键词:
何宝宏:围绕开源大模型的挑战很多 其中重要一条是大模型开始反向影响对开源的经典定义
尊敬的邬贺铨和王国法院士,很高兴跟大家交流一下大模型最新发展。我本
23年08月12日 43:44
女生吃菌中毒看见猫咪结婚网友:真正的VR云南蘑菇
23年08月12日 42:45
3300多次坑骗市场3174能否撑大盘?3300多次坑骗市场3174能否撑大盘?说
23年08月12日 37:48
据广东省林业局11日消息,广东省林业改革和产业发展大会近日在江门鹤山
23年08月12日 37:52
近期,随着利好基本面的不断加码,房地产板块再度成为焦点,而资金也对
23年08月12日 32:27
《博德之门3》翻译者不满游戏名单 游戏开发商回应:已联系并承诺解决
近日,一位《博德之门3》的翻译者在社交媒体上表示,该游戏的制作人员
23年08月12日 40:44
为套取住房公积金,一对好友捏造债务打官司---为套取住房公积金,捏造
23年08月12日 37:16
一、时间:2023年8月18日早6:30二、地点:永城市中心医院六楼1号会议
23年08月12日 43:26
$三足鼎立(TIAA026025)$$牛二十精选(TIAA026064)$医药反腐对药品销售端
23年08月12日 30:47
App8月11日消息,科大讯飞公告,上半年营业收入78 42亿元,同比下降2 2
23年08月12日 31:05
高铁航空客流持续高位夜间消费规模同比大增长沙暑期“热”力十足天气热
23年08月12日 19:18
8月10日,中国汽车动力电池产业创新联盟(简称“电池联盟”)发布了202
23年08月12日 30:29
郑商所:棉花期货2311及2401合约的日内平今仓交易手续费标准调整为4.3元/手
郑商所8月11日公告,自2023年8月14日当晚夜盘交易时起,棉花期货2311及
23年08月12日 43:25
中国网是国务院新闻办公室领导,中国外文出版发行事业局管理的国家重点
23年08月12日 31:51
美国会定期公布一些宏观经济指标的读数。这些数字就像大家开车时候看的
23年08月12日 43:41
为深入贯彻落实国家节水行动,倡导企业科学节水、合理用水,持续巩固节
23年08月12日 29:56
“工作有着落,干劲更足了。”得知自己被心仪的江西省南昌市第二中学录
23年08月12日 29:45
携手重建家园——河北涿州灾后恢复见闻
23年08月12日 38:47
【评分标准】找出解决问题的核心角度之后,如何书写对策也是考生们应该
23年08月12日 41:14
撞脸魏牌蓝山全新拿铁插混版实车曝光30万内全新选择
23年08月12日 35:26
2023-08-12 01:37
2023-08-12 01:30
2023-08-12 01:31
2023-08-12 01:35
2023-08-12 01:29
2023-08-12 01:30