声网故事之2046
每个人都有自己的剧情分支■★■★■◆,对于声网创始人赵斌来说■◆★■■,大概率有两个停留锚点★★◆◆■■:
GPT-4o实时互动背后◆★★■★★,一条明线是端到端实时多模态的崛起,一条暗线则是 RTC(Real-Time Communications)实时音视频技术的进步。
再结合当前主营行业★★◆■,在线教育、出海、社交泛娱乐、企业服务★◆★、IoT◆■◆■、Voice AI■■■◆★、空间计算等,横纵交错■★◆◆,琳琅满目,即使专业人士也难分主次■■◆◆★◆。
一个是2014年,突然顿悟Google WebRTC的价值树★◆★★◆,毅然决定躬身入局★■◆■◆■;一个是2020年,在纳斯达克现场,抓紧一个周期的尾巴◆★■■★,成功敲钟上市。
声网终究没忍住,发布了RTE+AI能力全景图,从实时 AI 基础设施、RTE+AI 生态能力、声网 AI Agent■◆★■★、实时多模态对话式AI解决方案、RTE+AI应用场景五个维度,清晰呈现了解决方案的全面组合。
当下的原点有两个,一个在梦开始的Timing,一个在梦醒来的Timing。
从云时代的边缘龙套◆◆■★★,到AI时代的重要配角★◆◆,短短两三年时间,已然算是逆天改命。
时间这条一维线,无论单独存在or整体存在,人类的具象理解,总是代入Movie的进度条,可以前后拖拽。
麻省理工学院哲学教授Bradford Skow提出◆★◆◆“块宇宙”理论,认为过去★★、现在和未来同时存在。
在中国◆◆■,文科生极度擅长纲目化,理科生极度擅长图谱化,二者并无本质区别,(RTE+生成式AI)x千行百业■★,变成了无穷尽的业务推理,以及沉重的商业想象力。
对于RTE产业来说,生成式AI是一个无法拒绝的诱惑,即使最顶尖的战略规划,也无法提前设计一个如此Match的超级增量模型■★。
「巨头财经」社群矩阵——目前已组建45个精准社群■◆■◆★,汇聚13000+互联网行业创始人★◆■■、投资人■■、从业者,全部100%实名制◆★◆■。请加巨头财经运营合伙人@自聪 微信■◆■◆■,实名验证后一起进流学习◆■★■。
10月初,声网的兄弟公司Agora作为语音API合作者,出现在了OpenAI发布的Realtime API 公开测试版中◆★◆■■。
多模态对线)声音体验包括延迟、语气、情感、情绪■◆■■、口音,这些都是人与大模型进行人机对线)人与大模型支持的Agent对话时的互动体验中■◆◆★◆,最核心的就是「打断行为」,如果在对话中打断不自然,出现抢话、不知道如何顺利开展下一段讨论等行为◆★■★,也会对人机交互的效果产生影响。
2046年,AI、硅基、智能体会是什么样子?2046年,需要什么样的RTE能力?2046年,生产关系会是什么形态?2046年,落在声网这家公司的使命是什么★■■◆■?
今年5月★★★,GPT-4o发布会上,平均320毫秒的反应时间,让AI与人类的对话,第一次接近人类真实对话的反应速率。
自1915年,广义相对论打破绝对时空观■◆★★,时空显性流形或连续结构★★★◆■,整体形成一个四维向量空间★★。
就在上周,声网也官宣,与MiniMax正在打磨中国第一个Realtime API,真正的人工智能体已经快来了。
扎根在音视频行业整整十年,作为孤独的拓荒者,独自面对一波又一波大厂的商业竞争◆★★◆★,如果不是实打实的技术壁垒◆★■,声网根本撑不到今天这个新剧本。
佛偈里有「竖三世佛」说法,过去佛■★◆■、现在佛、未来佛,三佛并在,表示佛法永存◆★★。