2024-11-07

声网故事之2046

　　每个人都有自己的剧情分支■★■★■◆，对于声网创始人赵斌来说■◆★■■，大概率有两个停留锚点★★◆◆■■：

　　GPT-4o实时互动背后◆★★■★★，一条明线是端到端实时多模态的崛起，一条暗线则是 RTC（Real-Time Communications）实时音视频技术的进步。

　　再结合当前主营行业★★◆■，在线教育、出海、社交泛娱乐、企业服务★◆★、IoT◆■◆■、Voice AI■■■◆★、空间计算等，横纵交错■★◆◆，琳琅满目，即使专业人士也难分主次■■◆◆★◆。

　　一个是2014年，突然顿悟Google WebRTC的价值树★◆★★◆，毅然决定躬身入局★■◆■◆■；一个是2020年，在纳斯达克现场，抓紧一个周期的尾巴◆★■■★，成功敲钟上市。

　　声网终究没忍住，发布了RTE+AI能力全景图，从实时 AI 基础设施、RTE+AI 生态能力、声网 AI Agent■◆★■★、实时多模态对话式AI解决方案、RTE+AI应用场景五个维度，清晰呈现了解决方案的全面组合。

　　当下的原点有两个，一个在梦开始的Timing，一个在梦醒来的Timing。

　　从云时代的边缘龙套◆◆■★★，到AI时代的重要配角★◆◆，短短两三年时间，已然算是逆天改命。

　　时间这条一维线，无论单独存在or整体存在，人类的具象理解，总是代入Movie的进度条，可以前后拖拽。

　　麻省理工学院哲学教授Bradford Skow提出◆★◆◆“块宇宙”理论，认为过去★★、现在和未来同时存在。

　　在中国◆◆■，文科生极度擅长纲目化，理科生极度擅长图谱化，二者并无本质区别，（RTE+生成式AI）x千行百业■★，变成了无穷尽的业务推理，以及沉重的商业想象力。

　　对于RTE产业来说，生成式AI是一个无法拒绝的诱惑，即使最顶尖的战略规划，也无法提前设计一个如此Match的超级增量模型■★。

　　「巨头财经」社群矩阵——目前已组建45个精准社群■◆■◆★，汇聚13000+互联网行业创始人★◆■■、投资人■■、从业者，全部100%实名制◆★◆■。请加巨头财经运营合伙人@自聪微信■◆■◆■，实名验证后一起进流学习◆■★■。

　　10月初，声网的兄弟公司Agora作为语音API合作者，出现在了OpenAI发布的Realtime API 公开测试版中◆★◆■■。

　　多模态对线）声音体验包括延迟、语气、情感、情绪■◆■■、口音，这些都是人与大模型进行人机对线）人与大模型支持的Agent对话时的互动体验中■◆◆★◆，最核心的就是「打断行为」，如果在对话中打断不自然，出现抢话、不知道如何顺利开展下一段讨论等行为◆★■★，也会对人机交互的效果产生影响。

　　2046年，AI、硅基、智能体会是什么样子？2046年，需要什么样的RTE能力？2046年，生产关系会是什么形态？2046年，落在声网这家公司的使命是什么★■■◆■？

　　今年5月★★★，GPT-4o发布会上，平均320毫秒的反应时间，让AI与人类的对话，第一次接近人类真实对话的反应速率。

　　自1915年，广义相对论打破绝对时空观■◆★★，时空显性流形或连续结构★★★◆■，整体形成一个四维向量空间★★。

　　就在上周，声网也官宣，与MiniMax正在打磨中国第一个Realtime API，真正的人工智能体已经快来了。

　　扎根在音视频行业整整十年，作为孤独的拓荒者，独自面对一波又一波大厂的商业竞争◆★★◆★，如果不是实打实的技术壁垒◆★■，声网根本撑不到今天这个新剧本。

　　佛偈里有「竖三世佛」说法，过去佛■★◆■、现在佛、未来佛，三佛并在，表示佛法永存◆★★。

分享至