AI日报:张文宏被AI假冒直播带货;Kimi视觉思考版上线;微信打击AI仿冒知名人士行为;Pika2.0可操控视频内容元素

来源:AIbase基地 更新时间2024-12-16 15:23:37 点击数:

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

1、微信:将打击利用AI仿冒知名人士进行营销宣传行为

微信珊瑚安全近期发布公告,明确表示将严厉打击利用AI技术仿冒知名人士进行不当营销的行为。平台致力于维护网络环境的安全与健康,已对532条违规内容进行处理,并关闭209个相关账号。未来,微信将继续加大对这类行为的打击力度。

微信截图_20241216081617.png

2、月之暗面Kimi视觉思考版上线:基于k1模型打造 可识别图片内容

月之暗面旗下的人工智能助手Kimi最近推出了视觉思考版功能,能够对用户发送的图片进行深入分析和观察。该功能基于k1视觉思考模型,使Kimi能够智能识别图片内容并提供准确反馈。用户可以直接向Kimi提问,例如关于照片拍摄地点或请求解答图中的问题。

微信截图_20241216083354.png

3、阶跃星辰Step-1o Audio千亿参数端到端语音大模型上线 将接入跃问App

阶跃星辰推出的Step-1o语音大模型是国内首个千亿参数的端到端语音模型,标志着语音技术的一次重大进步。该模型不仅能够实现语音理解与生成的高度整合,还具备情商和智商的双重优势,能够理解复杂的语义和情绪信息,提供高质量的专业建议。Step-1o的广泛应用前景将为各行业的语音交互技术带来新的可能性。

微信截图_20241216081425.png

4、Pika2.0发布:改进文本对齐功能 可随意操控视频内容元素

Pika近日推出了其最新的AI视频生成工具Pika2.0,标志着该平台在创意AI领域的进一步发展。新版本提供了更多的控制权和可定制性,尤其是在文本对齐和运动渲染方面的显著提升,使得用户能够更轻松地创建高质量视频内容。Pika2.0的设计旨在满足个人创作者和小型品牌的需求,预计将吸引更多用户加入。

image.png

5、阿里通义实验室语音生成大模型CosyVoice升级2.0版本

阿里巴巴通义实验室的CosyVoice语音生成大模型已升级至2.0版本,显著提升了语音生成的准确性、稳定性和自然体验。新版本通过双向流式语音合成技术,降低了合成延迟,并在发音准确性上取得了显著进展。CosyVoice2.0还增强了音质与情感匹配,支持多种方言和角色扮演功能。

image.png

6、张文宏被 AI “冒名” 带货

近日,一段关于张文宏的直播带货视频引发广泛关注,实际上是通过AI技术合成的深度伪造。许多网友误以为张文宏在带货,尤其是一些年长观众深信不疑并转发信息。张文宏对此表示已多次投诉,提醒公众对AI合成信息的警惕。此事件凸显了公众对新技术的认知滞后,尤其是老年人群体容易受到误导。

image.png

7、无问芯穹发布首个端侧全模态理解开源模型Megrez-3B-Omni,融资接近10亿元

无问芯穹在AI领域取得了重要进展,推出了全球首个端侧全模态理解开源AI模型Megrez-3B-Omni,标志着其在技术创新上的领先地位。同时,公司还推出了纯语言版本的模型,进一步丰富了产品线。无问芯穹致力于高效的AI计算优化,已支持多种主流模型,并成功完成近5亿元的A轮融资。

image.png

8、百度文库APP上线「AI考研宝典」支持AI拍图写作等众多功能

随着考研初试的临近,百度文库APP推出了全新的「AI考研宝典」,为考研学子提供高效学习和备考支持。该平台运用人工智能技术,通过创新工具帮助考生提升复习效率和考试分数。功能包括AI拍图写作、智能问答、英语作文美化等,极大便利了考生的学习过程,使他们能够更好地应对考研挑战。

image.png

9、马斯克X平台Grok AI升级:三倍速提升,来源引用传统媒体更精准

xAI最近对其Grok AI聊天机器人进行了重大升级,推出了Grok-2版本,显著提升了性能,速度是前版本的三倍,并在准确性和语言支持方面有了明显改善。新版本不仅能处理X平台上的帖子信息,还能引用外部网站的信息,特别是新闻来源,增强了回答的可靠性。此外,新增的Grok按钮为讨论提供了上下文,帮助用户更好地理解对话内容。

image.png

10、武汉大学成立人工智能学院,小米集团期待深化合作

武汉大学人工智能学院的成立标志着该校在人工智能领域的研究和教育迈上了新台阶。学院将专注于数理基础、机器学习、智能自然科学和社会科学等领域。2025年将开始招收本科生及硕博研究生,致力于推动多领域交叉创新。同时,小米集团期待与学院深化合作,共同推动人工智能技术的发展。


11、Nexa AI 发布 OmniAudio-2.6B:用于边缘部署的快速音频语言模型

Nexa AI最近推出的OmniAudio-2.6B音频语言模型,专为边缘设备的高效部署而设计。该模型通过将多个组件整合到一个统一框架中,显著提升了处理速度和资源效率,适应了计算资源有限的环境。其在准确性和灵活性方面也表现出色,能够满足转录、翻译等多种任务的需求。

12、OpenAI发布ChatGPT宕机故障详细报告:只因一个小更改导致

上周,OpenAI的ChatGPT和Sora等服务经历了长达4小时10分钟的宕机事件,影响了大量用户。故障的根本原因是一个小的遥测服务变更,导致Kubernetes API操作过载,最终使得服务瘫痪。工程师们在关键时刻被锁在控制面之外,无法及时处理问题。经过多轮努力,包括缩减集群规模和增加资源,最终恢复了服务。

image.png

13、谷歌 Chrome F12开发者工具新增 AI 功能 助力快速调试网页代码

谷歌在其 Chrome 浏览器的 F12开发者工具中新增了一项 AI 功能,旨在提升开发者的网页调试效率。这一功能允许开发者在调试过程中随时提问,AI 会根据代码和上下文提供相关的解决方案。通过简单的设置,开发者可以快速启用这一功能,支持多种编程语言,极大地便利了开发者的工作。

image.png


首页 AI对话 资讯 我的