基于 R 与 Python 的序列 Motif 差异可视化 (Two-Sample Logo)

在生物信息学分析中，尤其是在激酶结构域（如 SH2, SH3）的底物特异性研究中，传统的 Sequence Logo 只能展示单一数据集的保守性。为了直观地比较前景集 (Foreground) 与背景集 (Background) 之间的氨基酸分布差异，我们需要引入 Two-Sample Logo 算法。

🔬 1. 底层统计学原理

在绘制差异 Logo 之前，我们需要对每个位置的每个氨基酸频率进行假设检验。通常我们使用二项式检验 (Binomial Test) 或 t-检验 (t-test) 来计算 P-value。

如果某一位置的氨基酸 $X$ 在前景集中出现的概率为 $p_1$ ，在背景集中为 $p_2$ ，其相对富集程度的对数几率可以表示为：

LogOdds = \log_{2}\left( \frac{p_1}{p_2} \right)

💡 实验室笔记： 只有当 $P-value < 0.05$ 时，该氨基酸才会被认为是显著富集或缺失，并绘制在中心基准线的上方或下方。

💻 2. R 语言实现方案 (ggseqlogo)

R 语言在统计作图方面拥有无可比拟的优雅感。借助 ggplot2 生态，我们可以轻松渲染出高精度的 PDF 矢量图。

# 加载必要的 Bioconductor 包
library(ggplot2)
library(ggseqlogo)

# 假设我们已经有了计算好显著性的矩阵差异数据 diff_matrix
# 绘制 Two-Sample Logo
p <- ggseqlogo(diff_matrix, method = 'custom', seq_type = "aa") + 
  theme_minimal() + 
  ggtitle("SH3 Domain Binding Motif Differences") +
  theme(plot.title = element_text(hjust = 0.5, face = "bold"))

print(p)

🐍 3. Python 语言实现方案 (Logomaker)

如果你正在搭建包含 GUI 或者是深度学习流水线的分析系统（比如结合 Qwen 大模型），Python 显然是更好的胶水语言。使用 logomaker 库可以快速生成可定制化的 Logo 图。

import pandas as pd
import logomaker
import matplotlib.pyplot as plt

# 读取差异矩阵数据
# diff_df 是一个 DataFrame，index 为位置，columns 为氨基酸
diff_df = pd.read_csv('motif_diff_matrix.csv', index_col=0)

# 初始化 Logomaker 对象
logo = logomaker.Logo(diff_df,
                      font_name='Arial Rounded MT Bold',
                      color_scheme='chemistry',
                      vpad=.1,
                      width=.8)

# 自定义图表样式
logo.style_xticks(rotation=90, fmt='%d', anchor=0)
logo.ax.set_ylabel('Information Content (bits)')
logo.ax.set_title('Two-Sample Logo via Python')

plt.show()

🚀 4. 下一步计划

目前我已经通过 Python 实现了一个基础的本地 GUI 工具，用于批量处理 PSM (Peptide-Spectrum Match) 鉴定后的多组学序列。接下来，我计划将这套统计检验引擎集成到我的大模型 RAG 决策系统中。

相关项目进展，请关注我的 🔬 实验室项目页面。