全球新消息丨腾讯云发布AI原生向量数据库,提供10亿级向量检索能力,已支撑腾讯视频等业务
智东西
作者 | ZeR0
(相关资料图)
编辑 | 漠影
智东西7月4日报道,今日下午,腾讯云发布AI原生(AI Native)向量数据库Tencent Cloud VectorDB。该数据库能够被广泛应用于大模型的训练、推理和知识库补充等场景,是国内首个从接入层、计算层、到存储层提供全生命周期AI化的向量数据库,将于8月正式登陆腾讯云。
向量数据库专门用于存储和查询向量数据。如果把大模型比作人的大脑,那么向量数据库就如同海马体,能够为大模型提供长期记忆。向量数据库可以突破时间和空间上的限制,助力企业广泛挖掘数据价值。据悉,腾讯云向量数据库最高支持10亿级向量检索规模,延迟控制在毫秒级,相比传统单机插件式数据库检索规模提升10倍,同时具备百万级每秒查询(QPS)的峰值能力。
一、腾讯云定义AI原生向量数据库,加速企业在大模型时代的AI化进程
腾讯云数据库副总经理罗云谈道,向量数据库是企业数据和大模型之间的桥梁,能够弥补大模型在时间和空间上的限制。
向量数据库能够解决大模型预训练成本高、没有“长期记忆”、知识更新不足、提示词工程复杂等问题,加速大模型落地行业场景。
企业拿到非结构化数据后,通过神经网络进行向量化,进而存储到向量数据库中,进行存储和查询,这样可以极大地提升效率和降低成本。
罗云认为,AI原生时代已经到来,“向量数据库+大模型+数据”,三者将产生“飞轮效应”,共同助力企业步入AI原生时代。
在AI原生时代,数据的使用范式如下图所示,比如处理大段PDF文件,会先经过文本分割,把文字分解成小段文字,然后计算层会将这些文字通过向量化(embedding)算法变成浮点数数组,再调用向量数据接口,将数据存放到存储层数据库。
用自然语言提出问题后,应用开发者后台会计算“问题”向量,进行基于向量的知识检索,找到最相关的20个片段,整理后推给一个大模型,让大模型帮它得出最终的答案。可以看到,客户的数据加工流程非常复杂,要解决分段、embedding、二次embedding等问题。
对此,腾讯云重新定义了AI原生的开发范式,提供了接入层、计算层、存储层的全面AI化解决方案,让用户在使用向量数据库的全生命周期都能应用到AI能力。
在接入层,腾讯云向量数据库支持自然语言文本的输入,同时采用“标量+向量”的查询方式,支持全内存索引,最高支持每秒百万的查询量(QPS)。
计算层在数据库内部提供分割、embedding、精排、聚合等AI计算的算子,简化客户使用数据的成本。AI原生开发范式可实现全量数据AI计算,一站式解决企业在搭建私域知识库时的文本切分、embedding等难题。
在存储层,腾讯云向量数据库支持数据智能存储分布,助力企业存储成本降低50%。腾讯云内部按照AI方式进行预训练,产生一些数据和算法,能够更好帮助客户动态构建索引。
腾讯云向量数据库有助于加速企业在大模型时代的AI化进程。
统计显示,将腾讯云向量数据库用于大模型预训练数据的分类、去重和清洗相比传统方式,可以实现10倍效率的提升。如果将向量数据库作为外部知识库用于模型推理,则可以将成本降低2-4个数量级。企业原先接入一个大模型需要花1个月左右时间,使用腾讯云向量数据库后,3天时间即可完成,极大降低了企业的接入成本。
二、多年存储引擎和AI算法积淀,助力数据接入效率提升10倍
上述成绩源自腾讯云多年积累的存储引擎和AI算法。此前腾讯云向量数据库的向量化能力曾多次获得权威机构认可,2021年曾登顶MS MARCO榜单第一、相关成果已发表于NLP顶会ACL。
腾讯云向量数据库基于腾讯集团每日处理千亿次检索的分布式向量数据库引擎Olama。该引擎已经广泛应用于大语言模型、推荐搜索广告系统、音视频和图片审核以及去重等领域。
Olama从2019年开始在PCG业务团队技术孵化,如今已面向腾讯全部业务,覆盖腾讯6个BG、接入腾讯视频、QQ浏览器、QQ音乐等30多款国民级产品,日均搜索请求超千亿,调用成功率达100%,搜索成功率达99.995%。
当前Olama能够支持的单索引行数达到10亿行,单实例QPS达100万,全网P99响应时延小于20ms。经过腾讯内部海量场景的实践,使用腾讯云向量数据库,数据接入AI的效率比传统方案提升10倍,运行稳定性高达99.99%。
腾讯云向量数据库能有效助力产品提升运营效率。使用腾讯云向量数据库后,QQ音乐人均听歌时长提升3.2%、腾讯视频有效曝光人均时长提升1.74%、QQ浏览器成本降低37.9%。
腾讯PCG大数据平台部搜索推荐Senior Tech Lead郑伟分享了腾讯内部应用腾讯云向量数据库的三个案例。
游戏知几是腾讯自研的游戏智能AI产品机玩家互动运营解决方案,应用在超过200款游戏上。它相当于是一个游戏智能客服应用,能够对玩家的个性化问题给出答案。
在游戏领域,可以先把所有游戏问题和答案建成标准问答库,然后通过深度学习技术把问答库变成一个个向量,存储到Olama引擎,当用户输入问题,也把这个问题变成向量,再将该向量存储到Olama引擎的数据库里做检索,检索后就可以得到标准的问题和答案,然后把标准问题做一层排序,将分数最高的问题推荐给用户。
第二个案例是QQ浏览器信息流推荐。这些推荐业务大量使用腾讯云数据库Olama引擎。用户在推荐系统里看到的新闻、视频,以及带推荐的物品推荐池,都输入到大模型层,大模型有三大类(DSSM模型、图数据库、序列模型),通过一个个序列大模型,将带推荐的物品推荐词变成一个个向量,放到Olama引擎里。当用户来到推荐系统,就可以根据用户过去看过哪些新闻和视频,将用户相关行为变成向量,到数据库进行检索,把检索结果合并,推荐出最终感兴趣的新闻和视频。
另一个案例是腾讯视频视频关系中台。Olama引擎能用在视频判重和音频判重。具体做法是把一个个视频库里的视频变成图片帧、音频抽出成音频帧,或者把音频通过转化成文本的方式,通过深度学习技术,变成音频向量和文本向量。当用户输入视频时,就能将视频向量、音频向量、文本向量进行召回聚合,然后输出结果,告诉用户视频的相似关系。
结语:助攻大模型普及,AI原生向量数据库将成企业数据处理标配
在大模型热潮的催化下,向量数据库进入飞速发展期。据东北证券预测,到2030年,全球向量数据库市场规模有望达到500亿美元,国内向量数据库市场规模有望超过600亿人民币。
向量数据库能够帮助企业更高效、便捷地使用大模型,将数据的价值释放到最大。随着大模型的不断发展和普及,AI原生向量数据库将成为企业数据处理的标配。而腾讯云向量数据库希望走在AI原生时代的前排。
标签:
相关推荐:
最新新闻:
- 卡塔尔面积有多大_卡塔尔相当于中国哪个省的面积 天天观察
- 机构预计DRAM均价跌幅将收窄,但最佳入手时机还未到
- 华硕破晓 Air 轻薄本正式开售,14 寸 2.8K OLED 高色屏_滚动
- 世界热讯:华安保险“消保投诉防控系统”入选2022年度中国银行业保险业服务创新案例
- 当前热讯:大众ID.7 Tourer电动旅行车路测图曝光:比SUV还好看
- 全球新消息丨腾讯云发布AI原生向量数据库,提供10亿级向量检索能力,已支撑腾讯视频等业务
- 快看:暴雪直播公布《暗黑破坏神4》第一赛季 新职业来了
- 全球快讯:48小时免费试驾凡尔赛C5 X 先试后买活动上线
- 华夏中证光伏产业指数发起式C月度点评
- 今日观点!盛达资源:公司2022年度拟不派发现金红利,不送红股,不以公积金转增股本,未分配利润结转至下一年度
- 全球动态:五星体育今日直播表(五星体育直播表)
- 表白的句子
- 65岁老玩家玩了15年《COD5》:击杀敌人50万!_环球实时
- 环球滚动:解谜游戏《征服者》Steam页面上线 10月20日发售
- 摔角动态外媒爆料有意签约独立界一位大咖 他的来历不简单
- 万智牌30周年纪念活动9月1日举行 原哲夫亲绘原画世界首度公开_天天热文
- 全球热门:国产把高频内存价格打下来了!32GB DDR5最低679元
- 世界热推荐:2023河北保定市直属部分学校引进高层次人才综合成绩及体检、考核有关事宜公告
- 全球今亮点!小米k30耗电快
- 荣耀官宣首款“Magic”系列平板 荣耀平板MagicPad定档7月12日|环球要闻
- 笔记本电脑比手机都便宜了:玄派笔记本发车,i5-12500H 版 2799 元!
- 索尼PS5原型机登拍卖网站:4万元人民币起拍_天天播资讯
- 天天日报丨599元 全贴合+全网通4G,酷比魔方 iPlay 50 mini平板电脑杀疯了!
- 淘宝天猫总裁蒋凡现状还在_卸任淘宝董事长的蒋凡
- 2023广东省高考志愿填报将在7月4日16:00截止 天天速看料
- 世界即时看!夏日热浪来袭!小米1.5匹巨省电空调跌至1599元
- 全球快播:太极生两仪的仪(太极生两仪两仪是什么)
- 温网首日战报:德约科维奇轻松晋级,阿利亚西姆遭遇一轮游
- 浙江“千项万亿”重大项目集中开工 总投资6789亿元 新消息
- V观财报|神开股份收监管函:业绩预告不准确
- 【世界报资讯】江苏盐城发布首份《集体协商内容(议题)指引清单参考》
- 中国驻英国使馆发言人:敦促英方有关政客停止干涉中国内政和香港事务
- 全球热点评!王楚钦超越樊振东!首登世界第一
- 每日热门:重庆万州遭遇大暴雨袭击 驻地武警官兵紧急驰援
- 全球快消息!韩剧TV如何领取积分 韩剧TV领取积分的方法
- 视讯!全新Windows QQ发布下载:64位NT架构 全新UI界面
- 裁判界人士谈费莱尼进球被吹:海港未获控球,犯规为同一进攻过程
- 开罗经营游戏《创意咖啡店物语》Steam页面上线 支持简繁体中文|天天新要闻
- 全球快资讯:小个子女生穿搭攻略,短款上衣配高腰裤,显高又显瘦
- 中国跳水队厉兵秣马备战世锦赛
- CAD是什么?CAD转换工具_独家焦点
- 《原神》4.0版本枫丹前瞻序曲PV「致终幕的欢宴」
- 江苏银保监局连开7张罚单 多家保险公司被罚
- 蓝黛科技:汽车新能源减速器及新能源传动系统零部件是公司新能源业务重点布局板块_全球球精选
- 2023天津泡泡岛音乐与艺术节志愿者工作岗位及要求
- 广东高考2023专科批次录取时间定于8月1日至13日 焦点滚动
- EBC外汇商品股指快讯 空头干预无效 日元跌至近8个月低位
- 浙江金华:光伏配建工商业储能参与虚拟电厂负荷调控将给予补贴 快报
- 1200公里续航,比亚迪全新硬派越野SUV豹5正式命名_焦点播报
- 截至今年5月,我国“互联网协议第六版”IPv6活跃用户数达到7.63亿
- 教人炒股有多赚钱?揭秘九方财富“炸裂”的生意经_世界百事通
- 刚刚,“乌克兰无人机再袭莫斯科” 世界视点
- 截至今年5月,我国“互联网协议第六版”IPv6活跃用户数达到7.63亿
- 澳大利亚央行再次暂停加息
- 浙江现罕见46度日晕 太阳像戴了美瞳
- 全球聚焦:苹果官方文章被批毁三观:女生卖掉男生送的礼物去创业
- 印度一国有炼油厂用人民币结算俄罗斯进口石油,另一家石油公司也在探索用人民币支付|焦点快报
- 苹果13感觉屏幕不清楚(为什么苹果13屏幕说看着难受)|世界要闻
- 加速AI发展 英特尔Arrow Lake-S及Lunar Lake支持AVX_天天资讯
- 《Apex英雄》17赛季约20%玩家达到大师级别 官方表示下季必会调整-今日关注
- 新经济观察丨代遛狗城市热度图发布,超5万大学生愿意“押学生证遛狗”
- 拉丝哥和平精英 德国健身网红拉丝哥离世 基本情况讲解
- 最新发布!中国化工新材料行业发展壁垒及趋势预测_世界即时看
- 知己知彼 从世联赛看中国女排奥运资格赛前景_全球实时
- 全球观热点:路不拾遗什么意思(路不拾遗意思)
- 焦点精选!分享桑葚酒的制作方法
- Cloudera扩展开放式湖仓一体,赋能可信的企业人工智能-热议
- 全球即时看!比豪华,比智能!长安启源A07竞争力几何?
- 世界通讯!佳能计划推出 EOS R5 Mark II 旗舰款相机
- 每日看点!7月8日全国80家ROG官方旗舰店同步开展《我的世界》联动活动
- 快看点丨红魔游戏手机官宣再次联名变形金刚,7月5日正式登场
- 天天速看:两部门公布部分成品油消费税政策执行口径
- 澳弘电子7月4日快速上涨-焦点简讯
- 北京消协点名黄记煌、沪上阿姨、星巴克-每日消息
- 辽宁沈阳发现一例猴痘病例
- 志特新材:公司目前暂无建筑机器人领域的业务 世界微速讯
- 关注:西藏药业7月4日快速反弹
- 团员年龄限制在多少岁(快播被限制)
- 夏天玩PS5弹出过热警告!这次不能怪游戏了
- iPhone 15新配色被吐槽没创新 荣耀赵明:不会有本质变化
- 天天要闻:姚记科技7月4日打开跌停
- 帕金斯:佩林卡是自由市场MVP 他留住了核心阵容还进行了补强 环球热消息
- 全球资讯:不断改善用户体验,TA们全力保障夏季高峰供水平稳有序
- 脱袖标+罢赛!山东泰山1-1上海海港,李圣龙:1分的平局可以接受
- 全球消息!全新揽胜极光内饰革新,畅享智能驾驶与奢华体验