肖 博揚


Email: xiao.boyang.816@s.kyushu-u.ac.jp
Room 1022, West II Building, 744 Motooka, Nishi-ku, Fukuoka, Japan



九州大学 大学院システム情報科学府 情報理工学専攻 博士後期課程


自己紹介

北京郵電大学にて通信工程及び管理工学の学士号を取得後,マンチェスター大学にて健康データサイエンスの修士号を取得した.これらの学際的な教育背景を通じて,コンピュータサイエンス,人工知能,およびデータ駆動型手法に関する基礎を身につけた.
在学中は,ディープラーニングおよびコンピュータビジョンに強い関心を持ち,画像セグメンテーションや生成モデルに関する課題に取り組んだ.これにより,モデル設計・学習・評価に関する実践的なスキルを習得した.
また,ブレイン・コンピュータ・インタフェース(BCI)に関する研究にも取り組み,脳波(EEG)取得のためのハードウェア設計および信号処理・特徴抽出を行った.この経験により,ハードウェアと機械学習を統合したマルチモーダルデータ解析への理解を深めた.
現在は,テキストからの動画生成におけるマルチモーダル生成モデルの研究に従事している.特に,長時間動画における時間的一貫性および意味的一貫性の維持に関心を持ち,言語情報と視覚生成の整合性に関する課題に取り組んでいる.


学歴

2019年9月 ~ 2023年7月 学士(通信工程及び管理工学),北京郵電大学,中国
2023年9月 ~ 2024年11月 修士(Health Data Science),マンチェスター大学,英国
2025年4月 ~ 現在   博士後期課程(機械学習),九州大学,日本


職務経歴

2021年9月 ~ 2021年11月 インターン,北京小米(Xiaomi)モバイルソフトウェア有限公司(北京),中国
2022年7月 ~ 2022年10月 開発インターン,エリクソン(中国)通信有限公司,(北京),中国
2024年10月 ~ 2025年1月 研究インターン,中国科学院 計算技術研究所,(北京),中国



研究分野

機械学習,生成モデル,動画生成,大規模言語モデル


研究計画

近年,生成モデルの発展により,テキストから動画を生成する手法の視覚的品質は大きく向上している.特に,拡散モデルに基づく動画生成モデルと,大規模言語モデルによるプロンプト設計の組み合わせにより,高品質な短時間動画の生成が可能となっている.しかしながら,意味的一貫性を保った長時間動画の生成は依然として重要な課題である.
先行実験の結果,現在の動画生成モデルおよび生成パイプラインにはいくつかの本質的な問題が存在することが明らかとなった.第一に,長文テキストに対する感度が低く,フレーム間で意味のドリフトやスタイルの不整合が生じる.第二に,既存の評価指標はこれらの問題に対して十分に敏感ではなく,時間的に蓄積される意味的劣化を適切に評価できない.第三に,フレーム間およびセグメント間の文脈を維持する機構が不十分であり,長時間動画生成において意味の崩壊や生成失敗が発生する.
本研究では,これらの課題を解決するために,長時間動画における意味的一貫性を維持する生成手法の構築を目指す.具体的には,(1)階層的な生成手法とフレーム間注意機構の導入による意味情報の継承,(2)参照動画要素のゼロショット統合による構造的ガイダンス,(3)推論時に生成結果を動的に補正する生成戦略,の検討を行う.
これにより,動画生成モデルの長時間化におけるスケーラビリティを向上させるとともに,テキストによる意図と生成結果との整合性を高めることを目指す.最終的には,短時間動画における視覚的妥当性と長時間動画における意味的一貫性のギャップを解消することを目的とする.



論文リスト

[1] Li, S., Xiao, B. & Xie, S. (2022). Animal recognition using Siamese network with two kinds of backbone networks. Proc. AIIIP 2022, 124562W. https://doi.org/10.1117/12.2659594 (Equally Contribution)
[2] Xiao, B. (2025). A Comparison of LSTM and CNN Performance in EEG Motor Imagery with Application to Edge Computing Non-invasive Brain-computer Interface Possibilities. Proc. AIIIP 2024, 273 - 278. https://doi.org/10.1145/3707292.3707376
[3] Zhang, X., Kang G., Xiao, B., Zhan, J. Tensor databases empower AI for science: A case study on retrosynthetic analysis. BenchCouncil Transactions on Benchmarks, Standards and Evaluations, Volume 5, Issue 1, 2025, 100216, ISSN 2772-4859, https://doi.org/10.1016/j.tbench.2025.100216.



Suzuki Lab., ISEE, Kyushu University
Last modified: April, 2026