从向量ID到细胞出现:重新定义输入输出映射,不是准确的预测,而是意识的涌现。

当我们讨论细胞模拟器时,一个根本问题往往被掩盖:细胞的身份究竟是什么?是传统模型里那个固定的序列索引(input[0]永远是像素0),还是某种更本质的东西?这篇文章想讲清楚一件事:我们如何让100亿个可能的细胞中,那些有输入输出意义的细胞真正活起来。

ID的构成:向量即身份和细胞,高维组合。

每个细胞的身份不再是一个整数,而是一个10维向量:

cell_id = [类型, 参数1, 参数2, ..., 参数9]

这个设计带来100亿种组合(10^10个细胞,稀疏激活10k个,每次10k个细胞中可能有动作细胞,同时序列会被出现的感官细胞的替换)。
我们给其中4096个视觉细胞(64×64像素网格)和约1024个运动细胞赋予明确的物理意义,合计5k多个。实际配置时可能会增加,这个数字是人为设定的,关键在于理解:这些ID是向量空间中的特定点,而非序列位置。

输入映射:物理世界如何激活ID

想象一个简单场景:机器人感知到像素(5,7)亮度为9,同时关节2的角度是45度。传统方法会把这些数据塞进固定张量,但这里我们做的是生成ID向量:

def encode_sense(pixel_data, servo_data, memory_data):
    buffer = []
    
    # 每个像素激活一个视觉ID
    for x, y, brightness in pixel_data:
        # ID由坐标和亮度共同定义
        cell_id = [0, x//10, y//10, brightness, 0, 0, 0, 0, 0, 0]
        buffer.append(cell_id)
    
    # 每个关节激活一个运动ID
    for joint_id, angle in servo_data:
        cell_id = [1, joint_id, angle, 0, 0, 0, 0, 0, 0, 0]
        buffer.append(cell_id)
    
    # 滑动填充序列空间,让模型知道自己的错误

几个关键点:

  1. 像素(5,7)的ID永远是[*,*,*,*,...],不管它出现在序列的哪个位置
  2. 如果某帧像素(5,7)没点亮,这个ID和细胞完全不激活
  3. 5k多个功能ID可能在10000个序列槽中动态出现,位置无关

输入输出词表查询:与10^10词表不同

给定一个ID向量,词表将其转换为128维信号:

词表内部还维护着两个优化目标:

  1. 共现损失:如果两个维度经常同时出现,它们的向量表示会自然靠近
  2. 时间一致性:词表参数不会剧烈抖动,保持对同一ID的稳定响应

输出与动作的映射:在10k个细胞中识别有动作细胞意义的id(查输入输出表)

核心逻辑是检查向量的内容,而非位置。无论[1, 5, 45, ...]这个运动ID出现在第100个槽还是第9876个槽,只要它出现,动作就被触发。

  • 冗余性:同一ID可能意外出现两次,进行累加强度
  • 鲁棒性:模型无需精确控制位置,只需保证功能ID在集合中
  • 动态分配:10000个槽是公共资源,输入输出功能ID按需占用

系统运行时的状态转移很清晰:

# 第t帧:
active_ids = {[0,5,7,9,...], [0,12,3,5,...], [1,2,45,...]}

# 第t+1帧(环境变化):
active_ids = {[0,5,7,9,...], [1,2,45,...]}  # 像素(12,3)熄灭,ID消失

# 第t+2帧(模型决策):
active_ids = {[0,5,7,9,...], [1,2,45,...], [1,5,30,...]}  # 新增动作

这种设计让时间维度真正等价于批次维度。5k多个ID在不同帧的出现模式,构成了模型的监督信号。模型不是学习"第i个位置该是什么值",而是学习"给定当前活跃的ID集合,下一个集合应该包含谁"。

可扩展性:更多的输入感受器和输出感受器

虽然文章聚焦5k多个功能ID,但这个设计天然支持扩展。想增加一个温度传感器阵列?只需要多定义一些细胞的输入输出表就行了。

同时5k只是起点,实际可配置到1万、10万个感官细胞,只要不超过10^10的细胞容量。

本文输入输出映射的核心在于三点:

  1. ID是向量,在100亿空间中稀疏分布
  2. 输入是集合,只包含当前活跃的ID
  3. 输出靠扫描,在10k个细胞中是否有5k多个细胞的出现

这里没有固定的IO端口,没有预分配的序列位置,只有出现与消失这种最基础的生命现象。

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐