\zihao{-4}\songti
\noindent 作者：Yu Zheng, Yuming Lin, Liang Zhao, Tinghai Wu, Depeng Jin,Yong Li\\
\noindent 出处：Nature Computational Science volume 3, pages 748–762 (2023)
\vspace{2ex}

\begin{center}
    \zihao{4}\textbf{基于深度强化学习的城市社区空间规划}
\end{center}

\noindent\textbf{摘要：} 有效的城市社区空间规划在城市可持续发展中起着至关重要的作用。尽管地理信息系统和计算机辅助设计带来了便利，但确定土地利用和道路布局仍然很大程度上依赖于人类专家。在这里，我们提出了一种人工智能城市规划模型，用于生成城市社区的空间规划。为了克服城市地理的多样性和不规则性，我们构建了一个图来描述城市的任意形式的拓扑结构，并将城市规划表述为在图上进行顺序决策的问题。为了应对庞大解空间的挑战，我们开发了一种基于图神经网络的强化学习模型。对合成和真实社区的实验表明，我们的计算模型在客观指标上优于人类专家设计的规划，并且可以生成适应不同情境和需求的空间规划。我们还提出了一种人工智能与人类协同工作的城市规划工作流程，在这个过程中，人类设计师可以从我们的模型中受益匪浅，提高工作效率，用更少的时间生成更高效的空间规划。我们的方法展示了计算城市规划的巨大潜力，并为在城市科学中利用计算方法解决具有挑战性的现实问题提供了更多探索的途径。

\section{方法}
\subsection{问题建模}
我们将社区空间规划问题建模为一个序列的马尔可夫决策过程（MDP），这是规划智能体与环境之间的交互过程。在这个过程中，智能体观察“状态”（社区的当前状况），在每一步采取“动作”（放置城市功能），并接收环境发出的“奖励”（计划结果的影响），环境根据智能体的动作进行“转换”（布局的变化）。我们利用深度强化学习（DRL）来学习一个有效的策略，将状态映射到动作，使用参数化的神经网络。神经网络通过在MDP下进行大量训练进行空间效率的优化，训练样本包括数百万个4元组（状态、动作、奖励和转换）。如图1所示，我们的MDP由两个连续的阶段组成：

\begin{itemize}
    \item 土地利用规划。在给定初始道路条件的情况下，智能体逐一放置功能块，可以是靠近现有道路或靠近先前放置的土地利用边界。在分配所有功能和开放空间之后，将关于土地利用效率的奖励返回给智能体，智能体将不同的土地利用视为一个整体系统。最终的土地利用计划成为道路规划的初始条件。
    \item 道路规划。已规划土地利用的边界是道路建设的可行位置。智能体迭代地建造道路，将一个边界转化为一个道路段。在预定义的终止步骤处停止时，将考虑交通效率的奖励返回给智能体。
\end{itemize}

奖励仅在每个阶段的最后一步进行计算，以总结土地利用规划和道路规划的性能，各自的所有中间步骤都获得奖励为0。我们基于15分钟城市的概念，强调空间效率以促进步行和骑行等积极交通，而不是依赖汽车。这两个奖励项的计算如下：
\begin{equation}
    r_L = \alpha Service +Ecology,
\end{equation}
\begin{equation}
    r_R = Traffic,
\end{equation}
其中，Service 衡量了在15分钟城市中社区生活循环指数，Ecology 衡量了绿地和公园的覆盖率，Traffic 是道路密度和连通性的组合（详见方法部分），$\alpha$是一个超参数，表示服务性能在土地利用奖励中的权重。通过计算的奖励值，我们使用近端策略优化来更新值网络和策略网络的参数。我们首先对智能体进行土地利用规划任务的训练，直到收敛，然后使用在第一阶段获得的最优土地利用计划对智能体进行道路建设的训练。经过两个阶段的训练，AI智能体能够设计出具有高效空间布局的社区，包括土地利用和道路。

\textbf{图模型。}与先前的步行和区域设计任务不同，城市规划更具挑战性，因为它在问题形式上具有更大的自由度。具体而言，先前任务的条件是规则的，例如在一个19×19的棋盘上放置石头或将矩形宏单元放置在网格芯片画布上，这可以用像素（栅格）表示。相比之下，社区空间规划的条件是多样且不规则的，因为道路的拐角和土地块通常不是正交的。为了准确描述城市地理元素，包括土地块（L）、道路和土地利用边界的段（S）以及道路和土地利用边界之间的交叉口（J），我们使用向量表示。在城市规划中，与栅格表示相比，向量表示已被证明具有显著优势，并由以下三个几何元素组成：
\begin{itemize}
    \item ‘Polygon’，描述待规划的空地（例如，图2a右侧的L1）或已规划的土地块（例如，图2a右侧的L2），其包含土地边界的坐标；
    \item ‘LineString’，表示道路段（例如，图2a右侧的S3）或土地块的边界边缘（例如，图2a右侧的S9），其包含起点和终点的坐标；以及
    \item ‘Point’，代表道路和土地块边界之间的交叉口（例如，图2a右侧的J2和J7），具有它们的坐标。
\end{itemize}

我们将所有地理元素转换为上述三类几何形状，然后将整个社区表示为一个图，其中节点是几何形状，边表示这些几何形状之间的空间相邻关系，即如果底层的两个几何形状相互接触，则连接两个节点。每个节点将其地理信息存储为节点特征，包括几何形状的类型、坐标、宽度、高度、长度和面积。通过这种方式，空间规划可以被转化为在动态图上进行选择的问题（图2），其中图根据智能体的动作演变。

在土地利用规划任务中，智能体选择连接空地和交叉口的一个L-J边，将给定的功能放置在相应L和J指定的位置（图2a）。在每一步中，由于新放置的功能会生成新的节点和边，因此相邻图的拓扑结构会发生变化。新节点包括新功能本身、其边界、新的交叉口和分割段。新的边表示新建立的空间相邻关系。类似地，在道路规划任务中，智能体选择当前是边界的一个S节点，并将其构建为一个道路段（图2b）。尽管拓扑结构保持不变，但由于所选节点的类型从边界变为道路，图的属性发生变化。通过使用图模型对问题进行重新构建，我们现在可以处理不规则的城市块，并在一个单一的图上统一地处理土地利用和道路规划这两个看似不同的阶段。

\textbf{行动空间设计。}城市规划的另一个主要挑战是庞大的行动空间，原始连续空间中几乎是无限的，在减小的离散图空间中仍然过大。随着每一步放置一个功能，相邻图将不断增长，导致一个具有数千个节点和边的大型图。一个2 km × 2 km社区的典型空间规划在每个阶段可能需要100个规划步骤，相邻图可能具有4,000个边和1,000个节点，使得两个阶段的行动空间分别为$4,000^{100}$和$1,000^{100}$。此外，在空间中，有效的行动非常稀疏，而且大部分行动的质量较低，可能导致不合理的结果，比如在空地中央放置设施而不连接道路。因此，减小行动空间并避免不合理的行动至关重要。

为了解决这一挑战，我们提出了一个通用的深度强化学习（DRL）框架，在这个框架中，智能智能体在一个减小的图空间中感知并做决策，而环境则处理原始地理空间中的城市元素，并根据地理空间布局生成图状态。与此同时，我们将整个行动空间分解为三个子空间的笛卡尔积，包括要规划什么、在哪里规划以及如何规划，让DRL智能体专注于核心问题——在哪里规划。通过领域知识，可以通过固定不同土地利用类型的规划顺序来消除第一个要规划的子空间，允许更依赖于初始道路网络的土地利用类型较早规划（详见方法）。为了避免明显不当的规划行动，在哪里规划上，我们对智能体的行动施加规划约束，使用一个行动掩码阻止不合理的选项，即在两个规划阶段，只有L-J边和S节点是候选的。在选择给定土地利用类型的一个L-J边之后，功能被放置在相应的土地块（L节点）上，位于相应交叉口（J节点）的位置，其形状和大小由预定义的规则确定，以最大化对现有道路和边界的重用（详见方法）；因此，有效地消除了如何规划的最后一个子空间。通过这些设计，我们将行动空间缩小到可解决的规模，并过滤掉大多数不合理的行动，为DRL算法提供了有效的优化。总之，空间规划的原始问题成功地转化为具有适度行动空间的标准序列决策过程。

\textbf{框架。}在进行上述问题重构和行动空间设计后，我们提出了一个深度强化学习（DRL）框架，其中一个AI智能体通过与空间规划环境的交互学习布局土地利用和道路，如图3所示。序列MDP（图3e，f）包含以下关键组件：

\begin{itemize}
    \item 状态（States）总结了包含丰富节点特征的先前引入的相邻图的当前空间计划，以及其他信息，例如不同土地利用类型的统计数据。
    \item 动作（Actions）指示放置当前土地利用或构建新道路段的位置，这些位置是从相邻图中选择的边缘或节点转换而来的。
    \item 奖励（Rewards）在所有中间步骤为0，除了每个阶段的最后一步，其中它评估土地利用和道路的空间效率。
    \item 转移（Transitions）描述了在给定所选位置的情况下布局的变化，转移发生在原始地理空间（地图上的新土地利用和道路）和转换后的图空间（图的新拓扑和属性）中。
\end{itemize}

在每一步中，智能体通过使用图神经网络（GNN）对图进行编码，表示状态。通过多次消息传递和非线性激活层，GNN状态编码器生成边、节点和整个图的有效表示（图3a），这将被值网络和策略网络利用（图3b–d）。具体而言，由于为土地利用选择位置等同于在图上选择边缘，土地利用策略网络使用边缘嵌入，并使用边缘排序MLP为每个边缘评分，如图3b所示。对于每个边缘，获得的分数表示相应边缘的采样概率，该概率返回给环境，并成为在该边缘指定的位置放置土地利用的概率。类似地，在道路规划中，道路策略网络使用节点嵌入，并使用节点排序MLP为每个节点评分（图3d），输出选择一个土地块边界并将其构建为道路段的概率。最后，值网络接收总结整个社区的图嵌入，并使用全连接层预测规划奖励（图3c）。为了掌握空间规划的技能，在训练过程中，由提出的模型完成数百万个空间计划，以在大规模解空间中进行搜索，并用作实时训练数据来更新神经网络的参数。

\subsection{详细方法}

\textbf{框架。}如论文中介绍的，我们使用矢量几何，包括多边形（Polygon）、线串（LineString）和点（Point）来描述城市地理元素。具体而言，有十种土地块类型被表示为多边形，包括待规划的初始空地，以及九种不同的功能类型，分别是住宅（RZ）、学校（SC）、医院（HO）、诊所（CL）、商业（BU）、办公室（OF）、娱乐（RE）、公园（PA）和开放空地（OP）。此外，有两种由线串表示的段（道路和土地利用边界）和一种由点表示的交叉口（道路和土地利用边界之间的交叉点）。因此，一个社区通过几何形状表格忠实地表示，其中每一行都是一个带有ID、类型和几何形状三列的地理元素。社区的初始条件包括所有原始土地块、道路和交叉口，其准确坐标由几何形状表格中的相应几何形状记录。在合成的网格社区中，我们对一个尺寸为2.4 km × 2.4 km的基本社区进行实验，其中包含16个矩形空地、40个水平或垂直的初始道路段和25个道路交叉口，如图1的第一步所示。在真实的社区中，我们使用 OSMnx30 和 geopandas 从 OpenStreetMap 复制了北京的 HLG 和 DHM 社区的道路网络，保留住宅区块，并将其他区域留作待整修的空地。最终，我们获得了两个约为4 km²的社区，如图1a和图11a所示。

\textbf{规划需求和要求。}在进行实际空间规划之前，我们需要确定规划的需求和要求，这充当规划环境的配置。规划需求描述了每种土地利用类型必须达到的数量，可以是面积或数量，例如，住宅区块占社区面积的50\%和三个医院。与此同时，我们还对每个规划块的最小面积（以平方米为单位）有要求；例如，一个学校的面积至少为10,000 m²。表3显示了一个社区规划需求和要求的示例，其中社区面积的15\%需要规划为公园；因此，它作为一个绿色社区。仅考虑满足所有需求和要求的空间规划作为成功的实例，并将其保留为训练样本，而失败的实例则被丢弃。在我们的框架中，规划需求和要求是环境的配置，使得我们的模型在生成空间规划时非常灵活。具体而言，一旦我们在一个配置下获得了一个训练良好的模型，我们可以简单地更改配置，并直接进行模型推断而无需重新训练，以生成满足不同规划需求和要求的计划，例如图1c、d中不同服务供应的社区规划。

\textbf{土地利用类型的规划顺序。}正如论文中介绍的，为了减小庞大的行动空间，我们基于领域知识固定了不同土地利用类型的规划顺序，并使智能体专注于选择位置的核心任务。由于可行的位置都在现有的交叉口附近，先规划的土地利用将更靠近初始道路，交通更为便利。因此，我们首先规划更依赖道路的设施，包括医院（诊所）、学校和娱乐设施。同时，在土地利用规划的后期步骤，可行的空地形状趋向更加不规则和分散，这对通常占据整个地块的住宅区块不太适合；因此，在规划了以上依赖道路的设施后，我们分配住宅区块。最后，我们安排那些在土地形状上要求不高的土地利用类型。在满足所有规划需求之后，剩余的空地被分配为开放空地。总之，在我们的框架中，规划顺序固定为：医院、学校、诊所、娱乐、住宅、公园、办公室、商业和开放空地。让智能体确定土地利用类型的顺序可能是一种替代方法。然而，这会使问题变得更加复杂，因为行动空间会急剧增加。在实践中，我们固定的顺序生成了合理的空间规划。

\textbf{土地切割。}在土地利用规划中，环境接收来自智能体的动作，即所选的L-J边，然后在相应的土地块（L节点）上在相应交叉口（J节点）的位置切割出一块新的土地。我们开发了一个基于规则的系统，其中融入了专家知识，以确定新土地的形状和大小。基于规则的系统大致由三个步骤组成：（1）确定J和L之间的关系，比如在道路中间或在角落。 （2）确定沿着从交叉口J延伸的现有边界的参考线，可以是I形、L形和U形。 （3）确定从参考线向块L内部延伸的长度，形成最终切割的新土地。这三个步骤根据专家知识进行，以满足规划要求并尽可能贴近当前规划。

\textbf{状态。}我们的状态包含三个部分：（1）城市相邻图，（2）当前要放置的对象和（3）社区统计。我们构建一个图来表示当前社区信息，如图2所示，其中节点是城市地理元素，边表示空间相邻关系。我们计算丰富的地理属性作为节点特征，包括基础城市元素的类型、坐标、面积、长度、宽度和高度。边由稀疏邻接矩阵表示。至于当前要放置的对象，其类型由环境根据规划需求和规划顺序确定，即，环境将遍历规划顺序，并在前一类型的规划需求满足后转移到下一类型。我们将当前对象视为一个虚拟孤立节点，其类型特征由环境提供，其他节点特征保留为默认值。最后，社区统计包括当前计划中不同土地利用类型的面积和数量，以及规划需求，总结了当前空间规划的状况和进展。

\textbf{动作。}如图2a所示，土地利用规划被重新定义为一个序列MDP，智能体在动态图中选择一条边。因此，土地利用规划的动作空间是从N条边中选择的概率分布，我们从这个分布中采样以获得动作。类似地，道路规划是一个序列MDP，如图2b所示，智能体选择节点；因此，道路规划的动作空间是对M个节点的概率分布，从中采样以生成节点选择动作。此外，如前面介绍的，我们对动作空间施加了约束；例如，智能体只能选择L-J边（连接空地和交叉口）和S节点（土地利用边界），以避免不合理的空间规划。因此，我们在每一步计算一个掩码，指示可行的选项，概率分布将乘以该掩码，只允许可行的边或节点作为采样动作。

\textbf{策略和价值网络。}如图3b–d所示，我们开发了独立的策略网络，分别在策略和价值阶段采取行动，以及一个价值网络来预测空间规划的性能。这三个网络共享相同的状态编码器，以获取状态表示，充分利用图神经网络（GNN）。策略网络通过对图中的边和节点进行评分生成概率分布，然后从该分布中采样以采取行动。与此同时，价值网络评估整个图以预测空间效率，为社区规划提供反馈。在本节中，我们介绍这三个网络的详细设计。

\textbf{土地利用策略网络。}在土地利用规划中，智能体将当前对象放置在由选定边指定的位置。边的选择效果与边和当前对象都有关系；例如，在已规划医院旁边放置另一家医院可能导致服务效率较低。因此，土地利用策略网络将边和当前对象都视为输入。如图3b所示，我们开发了一个前馈网络，即边排序的MLP，用于评分每条边：
\begin{equation}
    s(e_{ij})=FF_{land}(e_{ij}^L||v_c||e_{ij}^L-v_c||e_{ij}^L·v_c),
\end{equation}
其中$e^L_{ij}$ 和 $v_c$ 的差异和内积也被连接起来，以强调当前要规划的对象与已经规划的土地利用之间的关系。分数通过 softmax 转换为所有边上的概率分布：
\begin{equation}
    Prob(e_{ij})=\frac{e^{S(e_{ij})}}{\sum_{s,t\in E}e^{s(e_{st})}},
\end{equation}
其中通过采样选择一条边。

\textbf{道路策略网络。}在道路规划中，智能体选择一个边界节点并在其位置规划一条道路。与土地利用规划不同，图的拓扑结构是稳定的，没有新节点需要添加。因此，无需包含当前对象。同时，道路策略网络以节点嵌入作为输入，这些嵌入已经通过GNN的消息传递包含了邻近的地理信息。如图3d所示，采用另一个节点排序的前馈MLP来评分每个节点：
\begin{equation}
    s(v_i) = FF_{road}(v_i).
\end{equation}
分数也通过 softmax 运算符转换为概率：
\begin{equation}
    Prob(v_{ij})=\frac{e^{S(v_{ij})}}{\sum_{j\in N}e^{s(v_{j})}},
\end{equation}
然后从该概率分布中采样以选择一个节点。

\textbf{价值网络。}如图3c所示，我们开发了一个价值网络来评判当前的规划状况并预测规划的性能。因为这是对整个社区的整体评估，我们将图级表示作为价值网络的输入。同时，我们还包括社区统计信息。具体来说，我们将图表示和统计信息嵌入连接在一起，并采用全连接层来预测性能：
\begin{equation}
    \hat{v} = fa(g^L||h_s),
\end{equation}
其中 $\hat{v}$ 是当前计划的估计值。

\textbf{奖励。}我们训练策略网络以优化空间布局的效率，涉及到服务、生态和交通。正如本文的方程(1)和(2)所示，我们定义了奖励函数，对上述指标进行综合评估。同时，奖励值可以在几十毫秒内快速计算给定一个空间计划，从而有可能收集大规模的样本来训练DRL模型。在本节中，我们介绍了如何计算这三个指标。值得注意的是，我们的框架是灵活的，可以扩展以包含更多的奖励指标。

\textbf{服务。}我们采用了15分钟生活圈的概念，该概念要求社区的基本服务在15分钟内可步行或骑自行车到达。具体而言，如图1b、c所示，我们考虑了五种不同的基本服务，每种服务与一个或两个设施相关，即教育（学校）、医疗（医院、诊所）、工作（办公室）、购物（商业）和娱乐（休闲）。因此，15分钟生活圈意味着设施和居住区之间的距离需要小于15分钟的步行距离，我们的实验中设置为500米。我们将服务度量定义为500米范围内可达服务的比例，并将该度量值平均到所有居住区。形式上，给定社区的空间规划$p$，服务度量的计算如下：
\begin{equation}
    d(i,j) = \min\{EucDis(RZ_i,FA_1^j),\dots,EucDis(RZ_i,FA_{n_j}^j)\},
\end{equation}
\begin{equation}
    Service_i = \frac{1}{5}\sum_{j=1}^{5}\mathbbm{1}[d(i,j)<500],
\end{equation}
\begin{equation}
    Service = \frac{1}{n_{RZ}}\sum_{i=1}^{n_{RZ}}Service_i,
\end{equation}
其中$EucDis$是欧几里得距离，$d(i,j)$是第$i$个居住区$RZ_i$访问由设施$FA^j$提供的第$j$个服务的最小距离，$n_j$是设施$FA^j$的总数。$Service_i$是第$i$个居住区的15分钟生活圈度量，我们对所有$n_{RZ}$个居住区进行平均，以获得整个社区的最终服务度量。这个服务度量引导智能体以更为分散的方式安排设施，并使其靠近居住区，这对于增强社区服务的能力至关重要。

\textbf{生态。}社区的生态环境对居民的身体和心理健康至关重要；因此，我们包括了一个生态度量，用于衡量公园和开放空间的布局效率。一般而言，公园和开放空间为居住在附近的居民提供服务，我们希望它们能为尽可能多的居住区提供服务。形式上，我们将生态服务范围定义为距离公园或开放空间300米内的区域，生态度量衡量了被生态服务范围覆盖的居住区的比例。度量的计算如下：
\begin{equation}
    \begin{aligned}
        ESR = & Union\{Buffer(PA_1,300),\dots,Buffer(PA_{n_{PA}},300),\\
        & Buffer(OS_1,300),\dots,Buffer(OS_{n_{OS}},300)\},
    \end{aligned}
\end{equation}
\begin{equation}
    A_{RZ} = \sum_{i=1}^{n_{RZ}}Area(RZ_i),
\end{equation}
\begin{equation}
    A_{RZ}^e = \sum_{i=1}^{n_{RZ}}Area(Intersection(RZ_i,ESR)),
\end{equation}
\begin{equation}
    Ecology = \frac{A_{RZ}^e}{A_{RZ}},
\end{equation}
其中$Buffer(PA_i,300)$和$Buffer(OS_i,300)$表示将公园和开放空间向外延伸300米的区域，这是它们的服务范围，$ESR$是所有公园和开放空间服务范围的组合。生态度量鼓励智能体最大化$A^e_{RZ}$；因此，社区规划的绿化程度得到提升。

\textbf{交通。}对于道路规划的第二阶段，我们从三个角度评估交通效率，包括密度、连接性和间距。道路密度是指道路总长度与土地面积的比率。连接性是反映网络不同部分如何相互连接的网络特性，我们选择连接组件的数量和死胡同道路的数量。为了实现适当的道路间距，我们还包括两个项目，对过大的（>600 米）和过小的（<100 米）间距进行惩罚。形式上，给定道路规划$p_R$和从规划的道路网络转换而来的图$g_R$，交通度量计算如下：
\begin{equation}
    T_{density}=\frac{Length(p_{R})}{A_c},
\end{equation}
\begin{equation}
    T_{connectivity}=\frac{1}{NCC(g_R)}+\frac{1}{1+\sum_{v \in g_R}\mathbbm 1[Degree(v)=1]'},
\end{equation}
\begin{equation}
    T_{spacing}=\frac{1}{1+\sum_{r \in p_R}\mathbbm 1[Length(v)>600]}+\frac{1}{1+\sum_{r \in p_R}\mathbbm 1[Length(v)<100]'},
\end{equation}
\begin{equation}
    Traffic=\frac{1}{3}*(T_{density}+T_{connectivity}+T_{spacing}),
\end{equation}
其中Length计算道路段的长度，$A_c$是社区的面积，$NCC$计算网络中连接组件的数量，Degree计算图中节点的度数。结合这三个角度，交通度量鼓励智能体规划更密集的道路，同时确保连接性和适当的间距，避免产生死胡同道路或规划过长或过短的道路段。

\textbf{模型训练。}我们对模型进行数百次迭代的训练，以学习空间规划的技能。在每次迭代中，我们收集几千个情节的训练样本，并使用近端策略优化来更新我们模型的参数。具体而言，损失函数是策略损失、策略熵和值损失的组合。策略损失是一个替代的被修剪的目标，通过安全的探索来改善策略，计算如下：
\begin{equation}
    r_t(\theta) = \frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)},
\end{equation}
\begin{equation}
    L_{policy} = \min\left(r_t(\theta)\hat{A_t},\text{clip}\left(r_t(\theta),1-\epsilon,1+\epsilon\right)\hat{A_t}\right),
\end{equation}
\begin{equation}
    \hat{A_t} = Q(s_t,a_t)-V(s_t),
\end{equation}
其中$\theta$是我们模型的参数，$r_t(\theta)$是新策略概率与旧策略概率的比率，$\hat{A_t}$是优势函数，\text{clip}将更新限制在不太大的范围内。熵损失控制开发和探索之间的平衡，计算如下：
\begin{equation}
    L_{entropy} = \text{Entropy}\left[\text{Prob}(a_1),\dots,\text{Prob}(a_{n_a})\right],
\end{equation}
其中$n_a$是不同规划阶段中等于$M$（边缘）或$N$（节点）的总动作数，而\text{Prob}是根据方程（12）和（14）由策略网络获得的。我们使用均方误差损失来监督值的预测：
\begin{equation}
    L_{value} = \text{MSE}(\hat{v_t},R_t),
\end{equation}
其中$R_t$是来自地面实况的回报值，$\hat{v_t}$是根据方程（15）由值网络估计的。最终的损失函数是上述三个项的加权和：
\begin{equation}
    L = L_{policy}+\beta L_{entropy}+\gamma L_{value},
\end{equation}
其中$\beta$和$\gamma$是我们模型中的超参数。

\textbf{模型推断。}在我们获得一个训练良好的模型之后，我们进行模型推断以生成社区规划。我们使用策略网络，根据方程（12）和（14）计算不同动作的概率分布，即选择不同边缘和节点的概率。然后选择最有可能的动作在指定的位置放置用地或道路：
\begin{equation}
    a = \text{argmax}\{\text{Prob}(a_1),\dots,\text{Prob}(a_{n_{a}})\},
\end{equation}
其中$n_{a}$对于土地使用规划和道路规划分别为$M$或$N$。值得注意的是，我们可以在不重新训练的情况下直接进行模型推断，并且结果如图1c、d所示。

\textbf{与手工设计的规划概念集成。} DRL框架并非旨在替代人类设计师，而是作为智能助手，提高人类设计师的生产力。具体而言，人工智能模型擅长在大型解决方案空间中优化空间效率，而人类设计师擅长概念原型设计。因此，我们设计了一种新的工作流程，其中人类和人工智能共同完成城市规划任务，并发挥各自的专业知识。如图7a所示，我们提出了一个包含概念化、规划、调整和评估四个关键步骤的工作流程，其中人工智能负责规划步骤。在这个工作流程中，人类设计师可以将繁重和具体的规划工作交给人工智能，他们只需提供相对抽象的概念规划，并对人工智能生成的空间规划进行调整。我们将规划概念表示为两种主要类型，即中心和轴，每个概念与一个或多个用地功能相关。例如，在图7b的左侧，HLG社区的RE中心表示鼓励在指定位置附近设置休闲区的概念。类似地，在图7b的右侧，DHM社区的BU＆OF轴表示期望在指定的带状区域设置商业和办公核心的概念。我们将社区的初始条件和规划概念输入模型，然后训练我们的DRL模型以实现规划概念，同时优化空间效率。
由于中心和轴的概念本质上是特定用地功能与预定义位置之间的空间关系，因此它可以很容易地集成到我们的框架中。具体而言，我们使用定制的奖励函数来实现规划概念，即我们添加奖励以反映与规划概念的一致性程度。对于中心概念，我们计算靠近指定中心位置的区域内与概念相关的用地功能的比例如下：
\begin{equation}
    r_c = \frac{1}{n_c}\sum_{j=1}^{n_c}\mathbbm{1}[T_j\in T_c],
\end{equation}
其中$L_a$是轴的长度，$L^p_a$是轴上概念相关用地功能的投影点距离，$n_a$是距离预定义轴100m以内的用地块数量，$T_a$是与概念相关的用地功能。此奖励鼓励DRL智能体在轴周围的带状区域均匀地放置与概念相关的用地功能。概念奖励与效率奖励（包括服务和生态）通过加权和组合在一起。通过共同优化效率和概念奖励，DRL智能体学会在实现预定义规划概念的基础上提高空间效率。