README_CN.md 35.5 KB
Newer Older
raojy's avatar
first  
raojy committed
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
810
811
812
813
814
815
816
817
818
819
820
821
822
823
824
825
826
827
828
829
830
831
832
833
834
835
836
837
838
839
840
841
842
843
844
845
846
847
848
849
850
851
852
853
854
855
856
857
858
859
860
861
862
863
864
865
866
867
868
869
870
871
872
873
874
875
876
877
878
879
880
881
882
883
884
885
886
887
888
889
890
891
892
893
894
895
896
897
898
899
900
901
902
903
904
905
906
907
<div align="center">

# SenseNova-SI: 探索空间智能在多模态基座模型上的尺度效应

</div>

<div align="center">


[English](README.md) | 简体中文

<p align="center">
    <a href="https://arxiv.org/abs/2511.13719" target="_blank">
        <img alt="arXiv" src="https://img.shields.io/badge/arXiv-SenseNova_SI-red?logo=arxiv" height="20" />
    </a>
    <a href="https://huggingface.co/collections/sensenova/sensenova-si" target="_blank">
        <img alt="SenseNova-SI" src="https://img.shields.io/badge/%F0%9F%A4%97%20_SenseNova_SI-Models-ffc107?color=ffc107&logoColor=white" height="20" />
    </a>
    <a href="https://huggingface.co/datasets/sensenova/SenseNova-SI-8M" target="_blank">
        <img alt="SenseNova-SI-8M" src="https://img.shields.io/badge/%F0%9F%A4%97%20_SenseNova_SI_8M-Data-ffc107?color=ffc107&logoColor=white" height="20" />
    </a>
    <a href="https://modelscope.cn/collections/SenseNova-SI-a1d78333be8d42" target="_blank">
        <img alt="SenseNova-SI" src="https://img.shields.io/badge/🤖 ModelScope-Models-blue" height="20" />
    </a>
    <a href="https://easi.lmms-lab.com/leaderboard/" target="_blank">
        <img alt="Leaderboard" src="https://img.shields.io/badge/%F0%9F%A4%97%20_EASI-Leaderboard-ffc107?color=ffc107&logoColor=white" height="20" />
    </a>
    <a href="https://github.com/EvolvingLMMs-Lab/EASI" target="_blank">
        <img alt="Code" src="https://img.shields.io/badge/EASI-Code-100000?style=flat-square&logo=github&logoColor=white" height="20" />
    </a>
    <a href="https://github.com/OpenSenseNova/SenseNova-SI/blob/main/LICENSE"><img src="https://img.shields.io/github/license/OpenSenseNova/SenseNova-SI"></a>
</p>

</div>


## 概览
尽管多模态基础模型已取得显著进展,但在空间智能方面仍存在明显不足。
本研究基于成熟的多模态基础,包括视觉理解模型(如Qwen3-VL、InternVL3)和统一理解生成模型(如Bagel),从尺度效应(Scaling)的视角构建了[**SenseNova-SI系列模型**](https://huggingface.co/collections/sensenova/sensenova-si)
我们采用系统化方法构建了包含800万样本的SenseNova-SI-8M数据集,通过严格的空间能力分类体系培养高性能、高鲁棒性的空间能力。
该系列模型在多项空间智能基准测试中取得突破性表现,同时保持强大的通用多模态理解能力。
本研究进一步分析了数据规模的影响,揭示了多样化数据训练带来的涌现泛化能力,探讨了过拟合与语言捷径的风险,提出了空间思维链推理的初步研究,并验证了下游应用潜力。
SenseNova-SI是一个持续迭代的项目,所有新训练的多模态空间智能基础模型均将陆续开源,以推动空间智能领域的研究发展。
*后续 SenseNova-SI 将与更大规模的内部模型进行集成。*

## 新闻
- [2026-05-12] 我们发布了 SenseNova-SI 系列的正式全量训练数据,[**SenseNova-SI-8M**](https://huggingface.co/datasets/sensenova/SenseNova-SI-8M)。SenseNova-SI-8M 包含 约 812 万 条精心整理的训练样本,覆盖 约 276 万 张唯一图像。 
- [2026-04-13] 我们发布了 [**SenseNova-SI-1.3-Qwen3-VL-8B**](https://huggingface.co/sensenova/SenseNova-SI-1.3-Qwen3-VL-8B),基于 **Qwen3-VL****14M** 规模 SI 数据训练,EASI-8 得分 **61.4**,在广泛空间智能基准上表现强劲,并相较此前 Qwen 系 SenseNova-SI 版本进一步提升了**开放式空间简答题**能力。
- [2026-04-01] 我们发布了 [**SenseNova-SI-1.5-InternVL3-8B**](https://huggingface.co/sensenova/SenseNova-SI-1.5-InternVL3-8B)。在多项空间智能基准上保持强劲表现, 并相较此前版本,显著提升了对**立体几何**问题的分析与解答能力,在SolidGeo MCQ 上达到**63.5** 的准确率。
- [2026-03-27] 我们发布了 [**SenseNova-SI-1.4-InternVL3-8B**](https://huggingface.co/sensenova/SenseNova-SI-1.4-InternVL3-8B)。训练数据扩展至 **29M** 规模,在多项空间智能基准上保持强劲表现,并相较此前版本在 **grounding****深度估计** 能力上有显著提升,在 RefCOCO avg 上达到 **89.21**、CountBench 上达到 **78.64**
- [2026-02-21] 我们的工作被收录在 CVPR 2026!一篇论文只是一个阶段性的成果,更重要的是继续推动空间智能模型的边界,并将我们的成果与社区分享。
- [2026-01-09] 我们发布了 [**SenseNova-SI-1.3-InternVL3-8B**](https://huggingface.co/sensenova/SenseNova-SI-1.3-InternVL3-8B),提升了开放式空间简答题能力。
- [2025-12-06] 为推进空间智能领域的研究,我们先发布一个高效的数据子集, [**SenseNova-SI-800K**](https://huggingface.co/datasets/sensenova/SenseNova-SI-800K), 以及发布模型 [**SenseNova-SI-1.1-InternVL3-8B-800K**](https://huggingface.co/sensenova/SenseNova-SI-1.1-InternVL3-8B-800K)。该模型仅使用 SenseNova-SI-800K 子集进行训练,为使用 800K 规模数据进行实验的研究者提供参考。
- [2025-12-06] 在本次发布中,我们推出[**SenseNova-SI-1.2-InternVL3-8B**](https://huggingface.co/sensenova/SenseNova-SI-1.2-InternVL3-8B), [**SenseNova-SI-1.1-Qwen2.5-VL-3B**](https://huggingface.co/sensenova/SenseNova-SI-1.1-Qwen2.5-VL-3B), [**SenseNova-SI-1.1-Qwen2.5-VL-7B**](https://huggingface.co/sensenova/SenseNova-SI-1.1-Qwen2.5-VL-7B), 与[**SenseNova-SI-1.1-Qwen3-VL-8B**](https://huggingface.co/sensenova/SenseNova-SI-1.1-Qwen3-VL-8B). **SenseNova-SI-1.2-InternVL3-8B** 在八个近期发布的空间智能基准测试(VSI、MMSI、MindCube、ViewSpatial、SITE、BLINK、3DSRBench、EmbSpatial-Bench)上, 在同等模型规模下均取得了开源模型的最新最优性能。
- [2025-11-15] 我们发布了 [**SenseNova-SI-1.1-InternVL3-2B**](https://huggingface.co/sensenova/SenseNova-SI-1.1-InternVL3-2B)[**SenseNova-SI-1.1-InternVL3-8B**](https://huggingface.co/sensenova/SenseNova-SI-1.1-InternVL3-8B), 在五个近期发布的空间智能基准测试(VSI、MMSI、MindCube、ViewSpatial、SITE)上, 在同等模型规模下均取得了开源模型的最新最优性能(state-of-the-art)。

## 模型库


<table>
  <thead>
    <tr>
      <th>模型</th>
      <th>基础架构</th>
      <th>数据集规模</th>
      <th>EASI-8</th>
      <th>其他说明</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <td>
        <a href="https://huggingface.co/sensenova/SenseNova-SI-1.5-InternVL3-8B/">
          SenseNova-SI-1.5-InternVL3-8B
        </a>
      </td>
      <td>SenseNova-SI-1.4-InternVL3-8B</td>
      <td>1.5M</td>
      <td>64.4</td>
      <td>增强立体几何能力</td>
    </tr>
    <tr>
      <td>
        <a href="https://huggingface.co/sensenova/SenseNova-SI-1.4-InternVL3-8B/">
          SenseNova-SI-1.4-InternVL3-8B
        </a>
      </td>
      <td>InternVL3</td>
      <td>29M</td>
      <td>63.7</td>
      <td>增强grounding与深度估计任务能力</td>
    </tr>
    <tr>
      <td>
        <a href="https://huggingface.co/sensenova/SenseNova-SI-1.3-InternVL3-8B/">
          SenseNova-SI-1.3-InternVL3-8B
        </a>
      </td>
      <td>InternVL3</td>
      <td>14M</td>
      <td>65.2</td>
      <td>空间智能最优模型,增强开放式简答题回答能力</td>
    </tr>
    <tr>
      <td>
        <a href="https://huggingface.co/sensenova/SenseNova-SI-1.3-Qwen3-VL-8B/">
          SenseNova-SI-1.3-Qwen3-VL-8B
        </a>
      </td>
      <td>Qwen3-VL</td>
      <td>14M</td>
      <td>61.4</td>
      <td>增强开放式简答题回答能力</td>
    </tr>
    <tr>
      <td>
        <a href="https://huggingface.co/sensenova/SenseNova-SI-1.2-InternVL3-8B/">
          SenseNova-SI-1.2-InternVL3-8B
        </a>
      </td>
      <td>InternVL3</td>
      <td>10M</td>
      <td>64.5</td>
      <td>-</td>
    </tr>
    <tr>
      <td>
        <a href="https://huggingface.co/sensenova/SenseNova-SI-1.1-InternVL3-8B/">
          SenseNova-SI-1.1-InternVL3-8B
        </a>
      </td>
      <td>InternVL3</td>
      <td>8M</td>
      <td>61.5</td>
      <td>-</td>
    </tr>
    <tr>
      <td>
        <a href="https://huggingface.co/sensenova/SenseNova-SI-1.1-InternVL3-2B/">
          SenseNova-SI-1.1-InternVL3-2B
        </a>
      </td>
      <td>InternVL3</td>
      <td>8M</td>
      <td>49.4</td>
      <td>-</td>
    </tr>
    <tr>
      <td>
        <a href="https://huggingface.co/sensenova/SenseNova-SI-1.1-Qwen3-VL-8B/">
          SenseNova-SI-1.1-Qwen3-VL-8B
        </a>
      </td>
      <td>Qwen3-VL</td>
      <td>8M</td>
      <td>58.1</td>
      <td>-</td>
    </tr>
    <tr>
      <td>
        <a href="https://huggingface.co/sensenova/SenseNova-SI-1.1-Qwen2.5-VL-7B">
          SenseNova-SI-1.1-Qwen2.5-VL-7B
        </a>
      </td>
      <td>Qwen2.5-VL</td>
      <td>8M</td>
      <td>51.0</td>
      <td>-</td>
    </tr>
    <tr>
      <td>
        <a href="https://huggingface.co/sensenova/SenseNova-SI-1.1-Qwen2.5-VL-3B/">
          SenseNova-SI-1.1-Qwen2.5-VL-3B
        </a>
      </td>
      <td>Qwen2.5-VL</td>
      <td>8M</td>
      <td>45.7</td>
    </tr>
    <tr>
      <td>
        <a href="https://huggingface.co/sensenova/SenseNova-SI-1.1-BAGEL-7B-MoT">
          SenseNova-SI-1.1-BAGEL-7B-MoT
        </a>
      </td>
      <td>BAGEL</td>
      <td>8M</td>
      <td>48.6</td>
      <td>统一的理解与生成模型</td>
    </tr>
  </tbody>
</table>

## 发布信息

### 模型

目前,我们基于流行的开源基础模型构建 SenseNova-SI,以最大化与现有研究流程的兼容性。
在本次发布中,我们推出
[**SenseNova-SI-1.5-InternVL3-8B**](https://huggingface.co/sensenova/SenseNova-SI-1.5-InternVL3-8B),
[**SenseNova-SI-1.4-InternVL3-8B**](https://huggingface.co/sensenova/SenseNova-SI-1.4-InternVL3-8B),
[**SenseNova-SI-1.3-InternVL3-8B**](https://huggingface.co/sensenova/SenseNova-SI-1.3-InternVL3-8B),
[**SenseNova-SI-1.3-Qwen3-VL-8B**](https://huggingface.co/sensenova/SenseNova-SI-1.3-Qwen3-VL-8B),
[**SenseNova-SI-1.2-InternVL3-8B**](https://huggingface.co/sensenova/SenseNova-SI-1.2-InternVL3-8B),
[**SenseNova-SI-1.1-InternVL3-8B**](https://huggingface.co/sensenova/SenseNova-SI-1.1-InternVL3-8B),
[**SenseNova-SI-1.1-Qwen3-VL-8B**](https://huggingface.co/sensenova/SenseNova-SI-1.1-Qwen3-VL-8B),
[**SenseNova-SI-1.1-Qwen2.5-VL-7B**](https://huggingface.co/sensenova/SenseNova-SI-1.1-Qwen2.5-VL-7B),
[**SenseNova-SI-1.1-Qwen2.5-VL-3B**](https://huggingface.co/sensenova/SenseNova-SI-1.1-Qwen2.5-VL-3B), 与
[**SenseNova-SI-1.1-InternVL3-2B**](https://huggingface.co/sensenova/SenseNova-SI-1.1-InternVL3-2B)
其中 **SenseNova-SI-1.4-InternVL3-8B** 在广泛的空间智能基准上表现强劲,在 **grounding** 任务上进一步提升,在 RefCOCO 全部划分上的平均分达到 **89.21**,在 CountBench 上达到 **78.64**。在我们基于 Ibims 数据集构造的深度估计任务中,相对深度达到 **95.56**,绝对深度达到 **80.31**
**SenseNova-SI-1.5-InternVL3-8B** 展现出较强的空间智能的同时,显著增强了分析和解决 **立体几何** 问题方面的能力。在SolidGeo MCQ上达到了 **63.5** 的准确率. 在基于 K12 题库构建的内部基准SolidMath和Math3D中,分别达到了 **72.7****68.9**

<table>
  <thead>
    <tr>
      <th>Model</th>
      <th>VSI</th>
      <th>MMSI</th>
      <th>MindCube-Tiny</th>
      <th>ViewSpatial</th>
      <th>SITE</th>
      <th>BLINK</th>
      <th>3DSRBench</th>
      <th>EmbSpatial-Bench</th>
    </tr>
  </thead>
  <tbody>
    <tr style="background:#F2F0EF;font-weight:700;text-align:center;">
      <td colspan="9"><em>Open-source Models (~2B)</em></td>
    </tr>
    <tr>
      <td>InternVL3-2B</td><td>32.9</td><td>26.5</td><td>37.5</td><td>32.5</td><td>30.0</td><td>50.8</td><td>47.7</td><td>60.1</td>
    </tr>
    <tr>
      <td>Qwen3-VL-2B-Instruct</td><td>50.3</td><td>28.9</td><td>34.5</td><td>36.9</td><td>35.6</td><td>53.2</td><td>47.5</td><td>70.1</td>
    </tr>
    <tr>
      <td>MindCube-3B-RawQA-SFT</td><td>17.2</td><td>1.7</td><td>51.7</td><td>24.1</td><td>6.3</td><td>35.1</td><td>2.8</td><td>37.0</td>
    </tr>
    <tr>
      <td>SpatialLadder-3B</td><td>44.8</td><td>27.4</td><td>43.4</td><td>39.8</td><td>27.9</td><td>43.0</td><td>42.8</td><td>58.2</td>
    </tr>
    <tr>
      <td>SpatialMLLM-4B</td><td>46.3</td><td>26.1</td><td>33.4</td><td>34.6</td><td>18.0</td><td>40.5</td><td>36.2</td><td>50.0</td>
    </tr>
    <tr>
      <td>VST-3B-SFT</td><td>57.9</td><td>30.2</td><td>35.9</td><td>52.8</td><td>35.8</td><td>58.8</td><td>54.1</td><td>69.0</td>
    </tr>
    <tr>
      <td>Cambrian-S-3B</td><td>57.3</td><td>25.2</td><td>32.5</td><td>39.0</td><td>28.3</td><td>37.7</td><td>50.9</td><td>63.5</td>
    </tr>
    <tr style="background:#F2F0EF;font-weight:700;text-align:center;">
      <td colspan="9"><em>Open-source Models (~8B)</em></td>
    </tr>
    <tr>
      <td>InternVL3-8B</td><td>42.1</td><td>28.0</td><td>41.5</td><td>38.6</td><td>41.1</td><td>53.5</td><td>44.3</td><td>76.4</td>
    </tr>
    <tr>
      <td>Qwen3-VL-8B-Instruct</td><td>57.9</td><td>31.1</td><td>29.4</td><td>42.2</td><td>45.8</td><td>66.7</td><td>53.9</td><td>77.7</td>
    </tr>
    <tr>
      <td>BAGEL-7B-MoT</td><td>31.4</td><td>31.0</td><td>34.7</td><td>41.3</td><td>37.0</td><td>63.7</td><td>50.2</td><td>73.1</td>
    </tr>
    <tr>
      <td>SpaceR-7B</td><td>41.5</td><td>27.4</td><td>37.9</td><td>35.8</td><td>34.2</td><td>49.6</td><td>40.5</td><td>66.9</td>
    </tr>
    <tr>
      <td>ViLaSR-7B</td><td>44.6</td><td>30.2</td><td>35.1</td><td>35.7</td><td>38.7</td><td>51.4</td><td>46.6</td><td>67.3</td>
    </tr>
    <tr>
      <td>VST-7B-SFT</td><td>60.6</td><td>32.0</td><td>39.7</td><td>50.5</td><td>39.6</td><td>61.9</td><td>54.6</td><td>73.7</td>
    </tr>
    <tr>
      <td>Cambrian-S-7B</td><td><strong>67.5</strong></td><td>25.8</td><td>39.6</td><td>40.9</td><td>33.0</td><td>37.9</td><td>54.8</td><td>72.8</td>
    </tr>
    <tr>
      <td><strong>SenseNova-SI-1.3-InternVL3-8B</strong></td>
      <td><strong>68.6</strong></td>
      <td><strong>42.5</strong></td>
      <td><strong>89.9</strong></td>
      <td><strong>61.3</strong></td>
      <td><strong>47.5</strong></td>
      <td><strong>68.0</strong></td>
      <td><strong>62.4</strong></td>
      <td><strong>81.0</strong></td>
    </tr>
    <tr>
      <td><strong>SenseNova-SI-1.3-Qwen3-VL-8B</strong></td>
      <td><strong>67.8</strong></td>
      <td><strong>39.5</strong></td>
      <td><strong>68.3</strong></td>
      <td><strong>55.8</strong></td>
      <td><strong>57.5</strong></td>
      <td><strong>63.0</strong></td>
      <td><strong>57.3</strong></td>
      <td><strong>82.1</strong></td>
    </tr>
    <tr>
      <td><strong>SenseNova-SI-1.4-InternVL3-8B</strong></td>
      <td>66.6</td>
      <td><strong>40.1</strong></td>
      <td><strong>88.8</strong></td>
      <td><strong>55.7</strong></td>
      <td><strong>47.9</strong></td>
      <td><strong>68.1</strong></td>
      <td><strong>60.4</strong></td>
      <td><strong>81.7</strong></td>
    </tr>
    <tr>
      <td><strong>SenseNova-SI-1.5-InternVL3-8B</strong></td>
      <td><strong>67.3</strong></td>
      <td><strong>38.3</strong></td>
      <td><strong>92.1</strong></td>
      <td><strong>59.0</strong></td>
      <td><strong>47.5</strong></td>
      <td><strong>69.5</strong></td>
      <td><strong>61.3</strong></td>
      <td><strong>80.3</strong></td>
    </tr>
    <tr style="background:#F2F0EF;color:#6b7280;font-weight:600;text-align:center;">
      <td colspan="9"><em>Proprietary Models</em></td>
    </tr>
    <tr style="color:#6b7280;">
      <td>Gemini-2.5-pro-2025-06</td><td>53.5</td><td>38.0</td><td>57.6</td><td>46.0</td><td>57.0</td><td>73.5</td><td>59.3</td><td>78.9</td>
    </tr>
    <tr style="color:#6b7280;">
      <td>Grok-4-2025-07-09</td><td>47.9</td><td>37.8</td><td>63.5</td><td>43.2</td><td>47.0</td><td>56.4</td><td>54.9</td><td>75.7</td>
    </tr>
    <tr style="color:#6b7280;">
      <td>GPT-5-2025-08-07</td><td>55.0</td><td>41.8</td><td>56.3</td><td>45.5</td><td>61.8</td><td>68.0</td><td>60.3</td><td>81.6</td>
    </tr>
  </tbody>
</table>

在 grounding 与深度估计基准上,我们报告如下结果。如需复现 RefCOCO 与 CountBench 结果,请参考 [lmms-eval](https://github.com/EvolvingLMMs-Lab/lmms-eval);深度估计结果基于我们内部构造的测试集评测。

<table>
  <thead>
    <tr>
      <th>Model</th>
      <th>RefCOCO avg</th>
      <th>CountBench</th>
      <th>Ibims Relative Depth</th>
      <th>Ibims Absolute Depth</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <td>InternVL3-8B</td><td>89.01</td><td>81.31</td><td>52.22</td><td>13.45</td>
    </tr>
    <tr>
      <td>SenseNova-SI-1.3-InternVL3-8B</td><td>83.85</td><td>73.92</td><td>68.60</td><td>59.23</td>
    </tr>
    <tr>
      <td><strong>SenseNova-SI-1.4-InternVL3-8B</strong></td>
      <td><strong>89.21</strong></td>
      <td><strong>78.64</strong></td>
      <td><strong>95.56</strong></td>
      <td><strong>80.31</strong></td>
    </tr>
  </tbody>
</table>


在立体几何问题基准上,结果如下。
SolidGeo MCQ 包括[SolidGeo](https://huggingface.co/datasets/SolidGeo/SolidGeo)中的单项选择题.
SolidMath 与 Math3D 基准数据集构建自K12题库,收录了中文立体几何选择题。其中SolidMath从同源数据中构建,Math3D从非同源数据中构建。

<table>
  <thead>
    <tr>
      <th>Model</th>
      <th>SolidGeo MCQ</th>
      <th>SpatialViz-Bench</th>
      <th>SolidMath</th>
      <th>Math3D</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <td>InternVL3-8B</td><td>36.4</td><td>32.0</td><td>42.5</td><td>43.7</td>
    </tr>
    <tr>
      <td>SenseNova-SI-1.3-InternVL3-8B</td><td>36.5</td><td>29.6</td><td>39.6</td><td>40.3</td>
    </tr>
    <tr>
      <td><strong>SenseNova-SI-1.5-InternVL3-8B</strong></td>
      <td><strong>63.5</strong></td>
      <td><strong>33.0</strong></td>
      <td><strong>72.7</strong></td>
      <td><strong>68.9</strong></td>
    </tr>
  </tbody>
</table>


### 数据集

为推进空间智能领域的研究,我们先发布一个高效的子集 [SenseNova-SI-800K](https://huggingface.co/datasets/sensenova/SenseNova-SI-800K)
由于 SenseNova-SI 专为研究扩展规律而设计,我们观察到这个子集已经取得了显著的性能提升。

<table>
  <thead>
    <tr>
      <th>Model</th>
      <th>SI Dataset</th>
      <th>VSI</th>
      <th>MMSI</th>
      <th>MindCube-Tiny</th>
      <th>ViewSpatial</th>
      <th>SITE</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <td>InternVL3-8B</td><td>-</td><td>42.1</td><td>28.0</td><td>41.5</td><td>38.6</td><td>41.1</td>
    </tr>
    <tr>
      <td>VST-7B-SFT</td><td>VST-P-4.1M</td><td>60.6</td><td>32.0</td><td>39.7</td><td>50.5</td><td>39.6</td>
    </tr>
    <tr>
      <td>Cambrian-S-7B</td><td>VSI-590K</td><td>67.5</td><td>25.8</td><td>39.6</td><td>40.9</td><td>33.0</td>
    </tr>
    <tr>
      <td><strong><a href="https://huggingface.co/sensenova/SenseNova-SI-1.1-InternVL3-8B-800K/">*SenseNova-SI-1.1-InternVL3-8B-800K</a></strong></td>
      <td><strong><a href="https://huggingface.co/datasets/sensenova/SenseNova-SI-800K">SenseNova-SI-800K</a></strong></td>
      <td><strong>60.9</strong></td>
      <td><strong>36.4</strong></td>
      <td><strong>56.9</strong></td>
      <td><strong>52.5</strong></td>
      <td><strong>47.7</strong></td>
    </tr>
    <tr>
      <td><strong><a href="https://huggingface.co/sensenova/SenseNova-SI-1.1-InternVL3-8B/">SenseNova-SI-1.1-InternVL3-8B</a></strong></td>
      <td><strong>SenseNova-SI-8M</strong></td>
      <td><strong>68.7</strong></td>
      <td><strong>43.3</strong></td>
      <td><strong>85.6</strong></td>
      <td><strong>54.6</strong></td>
      <td><strong>47.7</strong></td>
    </tr>
  </tbody>
</table>

请注意,*SenseNova-SI-1.1-InternVL3-8B-800K 是基于 SenseNova-SI-800K 子集训练的,旨在为研究人员提供 800K 规模训练数据的性能参考。该模型仅用于规模定律分析和研究验证,不作为 SenseNova-SI 系列的主要推荐模型。

#### 数据格式

我们的数据存储在 **SenseNova-SI-800K.jsonl** 文件中,采用 JSONL(JSON Lines)格式,其中每一行表示一个独立的数据条目。每个条目是一个包含以下三个主要字段的字典:**`id`**, **`conversations`**, and **`image`**. 

- `id`: 每条数据的唯一标识符。
- `image`: 一个字符串列表,指定图像路径,路径相对于数据根目录。
- `conversations`: 一个对话轮次列表,每轮对话是一个包含两个键值对的字典:
  - `from`: 表示说话者身份(例如 human 或 gpt)。
  - `value`: i表示文本内容。在`value`中,`<image>`占位符表示插入图像的位置,且`<image>`的数量与 image 字段中列出的图像数量相匹配。

```json
{
  "id": 0,
  "conversations": [
    {"from": "human", "value": "<image>\nuser input <image>\nuser input"},
    {"from": "gpt", "value": "assistant output"},
    {"from": "human", "value": "<image>\nuser input"},
    {"from": "gpt", "value": "assistant output"}
  ],
  "image": ["path/to/image1.jpg", "path/to/image2.jpg", "path/to/image3.jpg"],
}
```


## 🛠️ 快速上手

### 推理环境安装

我们推荐使用 [uv](https://docs.astral.sh/uv/) 来管理环境。

> uv 安装指南: <https://docs.astral.sh/uv/getting-started/installation/#installing-uv>

```bash
git clone git@github.com:OpenSenseNova/SenseNova-SI.git
cd SenseNova-SI/
uv sync --extra cu124 # 或以下值之一: [cu118|cu121|cu124|cu126|cu128|cu129], 取决于您的 CUDA 版本
source .venv/bin/activate
```

#### Hello World

无需图像的简单测试,以验证环境是否正确配置,并下载模型。

```bash
python example.py \
  --question "Hello" \
  --model_path sensenova/SenseNova-SI-1.4-InternVL3-8B
```
#### 切换已支持的模型

我们已**完整支持多种模型架构**。如需使用不同模型,仅需修改 `--model_path` 参数,其余代码无需任何改动。

使用 **BAGEL-MoT** 模型:
```bash
--model_path sensenova/SenseNova-SI-1.1-BAGEL-7B-MoT
```

使用 **Qwen3-VL** 模型:
```bash
--model_path sensenova/SenseNova-SI-1.3-Qwen3-VL-8B
```

### 示例

更多示例请参见 [示例](docs/zh/example.md)

#### BAGEL 图像生成示例

若要运行针对 BAGEL-7B-MoT 架构的图像生成示例,请使用以下命令:

```bash
python example_bagel.py \
  --model_path sensenova/SenseNova-SI-1.1-BAGEL-7B-MoT \
  --prompt "A chubby cat made of 3D point clouds, stretching its body, translucent with a soft glow." \
  --mode generate
```

如果想要开启thinking模型进行生成,可以使用`--mode think_generate`。相同的Prompt生成的效果对比:

<table>
  <tr>
    <th>mode=generate</th>
    <th>mode=think_generate</th>
  </tr>
  <tr>
    <td align="center" width="50%" style="padding:4px;">
      <img src="./examples/bagel-generate-example.jpg" alt="First image" width="100%">
    </td>
    <td align="center" width="50%" style="padding:4px;">
      <img src="./examples/bagel-think_generate-example.jpg" alt="Second image" width="100%">
    </td>
  </tr>
</table>

#### 示例1

该例题源自[SITE-Bench](https://github.com/wenqi-wang20/SITE-Bench):

```bash
python example.py \
  --image_paths examples/Q1_1.png \
  --question "Question: Consider the real-world 3D locations of the objects. Which is closer to the sink, the toilet paper or the towel?\nOptions: \nA. toilet paper\nB. towel\nGive me the answer letter directly. The best answer is:" \
  --model_path sensenova/SenseNova-SI-1.5-InternVL3-8B
# --model_path sensenova/SenseNova-SI-1.3-Qwen3-VL-8B
```

<!-- Example 1 -->
<details open>
  <summary><strong>示例1详情</strong></summary>
  <p><strong>Q: </strong>Question: Consider the real-world 3D locations of the objects. Which is closer to the sink, the toilet paper or the towel?\nOptions: \nA. toilet paper\nB. towel\nGive me the answer letter directly. The best answer is:</p>
  <table>
    <tr>
      <td align="center" width="50%" style="padding:4px;">
        <img src="./examples/Q1_1.png" alt="First image" width="100%">
      </td>
    </tr>
  </table>
  <p><strong>正确答案: A</strong></p>
</details>

#### 示例2

该例题源自[MMSI-Bench](https://github.com/InternRobotics/MMSI-Bench):


```bash
python example.py \
  --image_paths examples/Q2_1.png examples/Q2_2.png \
  --question "If the landscape painting is on the east side of the bedroom, where is the window located in the bedroom?\nOptions: A. North side, B. South side, C. West side, D. East side\nAnswer with the option's letter from the given choices directly. Enclose the option's letter within ``." \
  --model_path sensenova/SenseNova-SI-1.5-InternVL3-8B
# --model_path sensenova/SenseNova-SI-1.3-Qwen3-VL-8B
```

<!-- Example 2 -->
<details open>
  <summary><strong>示例2详情</strong></summary>
  <p><strong>Q: </strong>If the landscape painting is on the east side of the bedroom, where is the window located in the bedroom?\nOptions: A. North side, B. South side, C. West side, D. East side\nAnswer with the option's letter from the given choices directly. Enclose the option's letter within ``.</p>
  <table>
    <tr>
      <td align="center" width="50%" style="padding:4px;">
        <img src="./examples/Q2_1.png" alt="First image" width="100%">
      </td>
      <td align="center" width="50%" style="padding:4px;">
        <img src="./examples/Q2_2.png" alt="Second image" width="100%">
      </td>
    </tr>
  </table>
  <p><strong>正确答案: C</strong></p>
</details>


#### 示例3

该例题源自 [MMSI-Bench](https://github.com/InternRobotics/MMSI-Bench),测试模型在开放式简答题上的能力:

```bash
python example.py \
  --image_paths examples/Q3_1.png examples/Q3_2.png examples/Q3_3.png \
  --question "The robot is making tea. What is the order in which the pictures were taken?" \
  --model_path sensenova/SenseNova-SI-1.3-InternVL3-8B
```

<!-- Example 3 -->
<details open>
  <summary><strong>示例3详情</strong></summary>
  <p><strong>Q: </strong>The robot is making tea. What is the order in which the pictures were taken?</p>
  <table>
    <tr>
      <td align="center" width="33%" style="padding:4px;">
        <img src="./examples/Q3_1.png" alt="First image" width="100%">
      </td>
      <td align="center" width="33%" style="padding:4px;">
        <img src="./examples/Q3_2.png" alt="Second image" width="100%">
      </td>
      <td align="center" width="33%" style="padding:4px;">
        <img src="./examples/Q3_3.png" alt="Third image" width="100%">
      </td>
    </tr>
  </table>
  <p><strong>正确答案: Second, first, third</strong></p>
</details>


#### 示例4

该例题展示模型的 **grounding** 能力,数据来自 [RefCOCO](https://github.com/lichengunc/refer):

```bash
python example.py \
  --image_paths examples/Q4.png \
  --question "Please provide the bounding box coordinate of the region this sentence describes: <ref>blue shirt lady</ref>" \
  --model_path sensenova/SenseNova-SI-1.4-InternVL3-8B
```

<!-- Example 4 -->
<details open>
  <summary><strong>示例4详情</strong></summary>
  <p><strong>Q: </strong>Please provide the bounding box coordinate of the region this sentence describes: &lt;ref&gt;blue shirt lady&lt;/ref&gt;</p>
  <table>
    <tr>
      <td align="center" width="50%" style="padding:4px;">
        <img src="./examples/Q4.png" alt="First image" width="100%">
      </td>
    </tr>
  </table>
  <p><strong>正确答案: [0.096234, 0.161229, 0.436516, 1.000000]</strong></p>
</details>


#### 示例5

该例题展示模型的 **深度估计** 能力:

```bash
python example.py \
  --image_paths examples/Q5.png \
  --question "Identify the minimal distance between the point and the camera, in meters." \
  --model_path sensenova/SenseNova-SI-1.4-InternVL3-8B
```

<!-- Example 5 -->
<details open>
  <summary><strong>示例5详情</strong></summary>
  <p><strong>Q: </strong>Identify the minimal distance between the point and the camera, in meters.</p>
  <table>
    <tr>
      <td align="center" width="50%" style="padding:4px;">
        <img src="./examples/Q5.png" alt="First image" width="100%">
      </td>
    </tr>
  </table>
  <p><strong>正确答案: 4.4</strong></p>
</details>


#### 示例6

此示例展示模型的 **立体几何(三视图)** 能力:

```bash
python example.py \
  --image_paths examples/Q6.png \
  --question "Enclose your thinking process in <think> </think> tags and your final answer in <answer> </answer>" \
  --model_path sensenova/SenseNova-SI-1.5-InternVL3-8B
```


<!-- Example 6 -->
<details open>
  <summary><strong>示例6详情</strong></summary>
  <p><strong>Q: </strong>Enclose your thinking process in &lt;think> &lt;/think> tags and your final answer in &lt;answer> &lt;/answer></p>
  <table>
    <tr>
      <td align="center" width="50%" style="padding:4px;">
        <img src="./examples/Q6.png" alt="First image" width="100%">
      </td>
    </tr>
  </table>
  <p><strong>正确答案: D</strong></p>
</details>


#### 示例7

此示例展示模型的 **立体几何(展开图)** 能力:

```bash
python example.py \
  --image_paths examples/Q7.png \
  --question "请将你的思考过程放在<think></think>标签内,并将你的最终答案放在<answer></answer>标签内。" \
  --model_path sensenova/SenseNova-SI-1.5-InternVL3-8B
```


<!-- Example 7 -->
<details open>
  <summary><strong>示例7详情</strong></summary>
  <p><strong>问题:</strong>请将你的思考过程放在&lt;think> &lt;/think>标签内,并将你的最终答案放在&lt;answer> &lt;/answer>标签内。</p>
  <table>
    <tr>
      <td align="center" width="50%" style="padding:4px;">
        <img src="./examples/Q7.png" alt="First image" width="100%">
      </td>
    </tr>
  </table>
  <p><strong>GT: D</strong></p>
</details>


#### 一次测试多个问题

构建类似于[examples/examples.jsonl](examples/examples.jsonl)的文件,每一行代表一个问题。

模型只加载一次,按逐行的顺序逐个回答问题,问题之间互不干扰。

> `jsonl`更详细的格式可以参考[单图数据](https://internvl.readthedocs.io/en/latest/get_started/chat_data_format.html#single-image-data)和[多图数据](https://internvl.readthedocs.io/en/latest/get_started/chat_data_format.html#multi-image-data)

```bash
python example.py \
  --jsonl_path examples/examples.jsonl \
  --model_path sensenova/SenseNova-SI-1.3-InternVL3-8B
```

### 训练

#### 1. 下载数据集

用户可选择下载 [SenseNova-SI-800K](https://huggingface.co/datasets/sensenova/SenseNova-SI-800K) (一个下采样子集,专门用于研究尺度效应)或 [SenseNova-SI-8M](https://huggingface.co/datasets/sensenova/SenseNova-SI-8M) (官方全量训练数据集).
将 [SenseNova-SI-800K](https://huggingface.co/datasets/sensenova/SenseNova-SI-800K) 下载到 `training/data/` 目录:

```bash
pip install huggingface_hub
huggingface-cli download sensenova/SenseNova-SI-800K --repo-type dataset --local-dir training/data/SenseNova-SI-800K
```

将 [SenseNova-SI-8M](https://huggingface.co/datasets/sensenova/SenseNova-SI-8M) 下载到 `training/data/` 目录:

```bash
pip install huggingface_hub
huggingface-cli download sensenova/SenseNova-SI-8M --repo-type dataset --local-dir training/data/SenseNova-SI-8M
```

#### 2(a). 训练InternVL架构模型

**载预训练模型**

将 [InternVL3-8B](https://huggingface.co/OpenGVLab/InternVL3-8B) 下载到 training/pretrained_models/:

```bash
huggingface-cli download OpenGVLab/InternVL3-8B --local-dir training/pretrained_models/OpenGVLab/InternVL3-8B
```

**安装依赖**

```bash
conda create -n internvl python=3.10 -y
conda activate internvl
pip install uv
uv pip install -r training/InternVL/requirements.txt
uv pip install flash-attn==2.3.6
```

**开始训练**

```bash
bash training/InternVL/internvl_chat/shell/sensenova_si_800K_internvl3_8b.sh  #用SenseNova-SI-800K数据训练

bash training/intern_vl/internvl_chat/shell/sensenova_si_8M_internvl3_8b.sh  #或者用SenseNova-SI-8M数据训练
```

#### 2(b). 训练Qwen3-VL架构模型

训练框架为 [lmms-engine](https://github.com/EvolvingLMMs-Lab/lmms-engine),作为一个 Git 子模块包含在 `training/pretrained_models/` 目录下。

**下载预训练模型**

将 [Qwen3VL-8B](https://github.com/QwenLM/Qwen3-VL) 下载到 `training/pretrained_models/`:

```bash
huggingface-cli download Qwen/Qwen3-VL-8B-Instruct --local-dir training/pretrained_models/Qwen/Qwen3-VL-8B-Instruct
```

**安装依赖**

```bash
# Initialize the lmms-engine submodule (first time only)
git submodule update --init --recursive

conda create -n qwen3vl python=3.10 -y
uv pip install -e training/lmms-engine

# Optional: Performance optimizations
uv pip install flash-attn --no-build-isolation
uv pip install liger-kernel
```

**数据预处理**

先将 `SenseNova-SI-800K.jsonl` 和 `SenseNova-SI-8M.jsonl` 转换为 Qwen3-VL 训练数据格式:

```bash
python training/qwen3_vl/preprocess_sensenova_si_dataset.py \
  --src data/SenseNova-SI-800K.jsonl \
  --dst data/SenseNova-SI-800K_qwen3vl_format.jsonl  #预处理 SenseNova-SI-800K数据

python training/qwen3_vl/preprocess_sensenova_si_dataset.py \
  --src data/SenseNova-SI-8M.jsonl \
  --dst data/SenseNova-SI-8M_qwen3vl_format.jsonl  #预处理 SenseNova-SI-8M数据
```

**准备数据 YAML**
参考 [training/qwen3_vl/data_800K.yaml](training/qwen3_vl/data_800K.yaml) 和 [training/qwen3_vl/data_8M.yaml](training/qwen3_vl/data_8M.yaml)

**配置训练参数**
参考 [training/qwen3_vl/train_config_800K.yaml](training/qwen3_vl/train_config_800K.yaml) 和 [training/qwen3_vl/train_config_8M.yaml](training/qwen3_vl/train_config_8M.yaml)

**开始训练**

```bash
# Single node, 8 GPUs (default)
bash training/qwen3_vl/run.sh 800K  #用SenseNova-SI-800K数据训练

bash training/qwen3_vl/run.sh 8M  #或者用SenseNova-SI-8M数据训练
```

#### 2(c). 训练BAGEL架构模型

**下载预训练模型**

将 [BAGEL-7B-MoT](https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoT) 下载到 training/pretrained_models/:

```bash
huggingface-cli download ByteDance-Seed/BAGEL-7B-MoT --local-dir training/pretrained_models/BAGEL-7B-MoT
```

**安装依赖**

```bash
conda create -n bagel python=3.10 -y
conda activate bagel
pip install uv
uv pip install -r training/Bagel/requirements.txt
uv pip install flash_attn==2.5.8 --no-build-isolation
```

**开始训练**

```bash
bash training/Bagel/scripts/train_sensenova_si_800K.sh  #用SenseNova-SI-800K数据训练

bash training/bagel/scripts/train_sensenova_si_8M.sh  #或者用SenseNova-SI-8M数据训练
```

有关训练超参数(如学习率、batch size、FSDP 配置等)的详细信息,请参考 [training/Bagel/TRAIN.md](training/Bagel/TRAIN.md)。

### 评测

如需复现上述基准测试结果,请参考 [EASI](https://github.com/EvolvingLMMs-Lab/EASI) 在主流空间智能基准上评估 SenseNova-SI 的表现。

EASI 支持超过 20 种空间智能模型和 20 多种空间基准,并提供 Docker 实现一键式空间智能评估。


### 致谢

本项目包含基于 BAGEL、InternVL、lmms-engine 团队原始代码修改的代码。

* 源代码仓库:[BAGEL](https://github.com/bytedance-seed/BAGEL)、[InternVL](https://github.com/opengvlab/internvl)、[lmms-engine](https://github.com/EvolvingLMMs-Lab/lmms-engine)

我们衷心感谢原作者及贡献者的工作。
请参阅原始仓库以获取完整细节、更新及许可信息。

## 🖊️ 引用

```bib
@InProceedings{sensenova-si,
  title = {Scaling Spatial Intelligence with Multimodal Foundation Models},
  author = {Cai, Zhongang and Wang, Ruisi and Gu, Chenyang and Pu, Fanyi and Xu, Junxiang and Wang, Yubo and Yin, Wanqi and Yang, Zhitao and Wei, Chen and Sun, Qingping and Zhou, Tongxi and Li, Jiaqi and Pang, Hui En and Qian, Oscar and Wei, Yukun and Lin, Zhiqian and Shi, Xuanke and Deng, Kewang and Han, Xiaoyang and Chen, Zukai and Fan, Xiangyu and Deng, Hanming and Lu, Lewei and Pan, Liang and Li, Bo and Liu, Ziwei and Wang, Quan and Lin, Dahua and Yang, Lei},
  booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
  year = {2026}
}
```