Rio Yokota (@rioyokota) 's Twitter Profile
Rio Yokota

@rioyokota

Professor, Institute of Science Tokyo
Research interests: HPC+ML

ID: 167556472

linkhttps://www.rio.gsic.titech.ac.jp/en/index.html calendar_today16-07-2010 22:14:09

247 Tweet

466 Followers

288 Following

tsuki (@tensorcore) 's Twitter Profile Photo

I am honored to announce that my Ph.D. thesis has been selected as the winner of the Seiichi Tejima Research Award from Science Tokyo (formerly Tokyo Tech). Thank you all for supporting my great Ph.D. life!

I am honored to announce that my Ph.D. thesis has been selected as the winner of the Seiichi Tejima Research Award from Science Tokyo (formerly Tokyo Tech). Thank you all for supporting my great Ph.D. life!
Oleksii Kuchaiev (@kuchaev) 's Twitter Profile Photo

We are excited to release new Llama-Nemotron models. These models allow you to set reasoning ON/OFF during runtime. We also release all the post-training data under CC-BY-4! Try it now on build.nvidia.com/nvidia/llama-3… HF collection: huggingface.co/collections/nv…

We are excited to release new Llama-Nemotron models. These models allow you to set reasoning ON/OFF during runtime. We also release all the post-training data under CC-BY-4!
Try it now on build.nvidia.com/nvidia/llama-3…
HF collection: huggingface.co/collections/nv…
Kazuki Fujii (@okoge_kaz) 's Twitter Profile Photo

FP8学習を行う上で理解しておくべき技術について実装を添えて解説したブログのPart 1を書きました!! GTC25の発表で低精度学習への期待が高まっていますので、こちらもぜひ! zenn.dev/kaz20/articles…

Taishi Nakamura@ICLR2025🇸🇬 (@setuna7777_2) 's Twitter Profile Photo

LLM-jpのMoEモデルの事前学習をしました〜 8x13Bは、いままでllm-jpで公開されてきた中で一番良い性能になっています ぜひお試しください〜 ライセンスもApache2なので自由に使えます〜 huggingface.co/llm-jp/llm-jp-… huggingface.co/llm-jp/llm-jp-… huggingface.co/llm-jp/llm-jp-…

Naoaki Okazaki (@chokkanorg) 's Twitter Profile Photo

Swallow LeaderboardにGemma 3 1B, 4B, 12B, 27B, GPT-4 (gpt-4-0613), GPT-4.5 (gpt-4.5-preview-2025-02-27), o1 (o1-2024-12-17) を追加しました。日本語MT-BenchのトップはGPT-4.5 (0.8840) ですが、それにGemma 3 27B IT (0.8550) が続くというのは凄いです。 swallow-llm.github.io/leaderboard/in…

Taishi Nakamura@ICLR2025🇸🇬 (@setuna7777_2) 's Twitter Profile Photo

I'll be attending ICLR 2025 in Singapore 🇸🇬! Our work will be featured in: 🔬 Two papers at the main conference: - "Drop-Upcycling: Training Sparse Mixture of Experts with Partial Re-initialization" 📍 Hall 3 + Hall 2B #277 📅 Sat, Apr 26 | ⏰ 10AM-12:30PM (+08) - "Agent

I'll be attending ICLR 2025 in Singapore 🇸🇬!

Our work will be featured in:

🔬 Two papers at the main conference:
- "Drop-Upcycling: Training Sparse Mixture of Experts with Partial Re-initialization"
  📍 Hall 3 + Hall 2B #277
  📅 Sat, Apr 26 | ⏰ 10AM-12:30PM (+08)

- "Agent
Kazuki Fujii (@okoge_kaz) 's Twitter Profile Photo

Our Swallow-Code was featured! Thanks a lot Daniel van Strien Beyond Python, we aim to expand our approach to other major programming languages, like HuggingFace’s Stack-Edu, as future work. Haven’t read the paper yet? Check it out! Paper: arxiv.org/abs/2505.02881

Naoaki Okazaki (@chokkanorg) 's Twitter Profile Photo

Gemma-2-Llama Swallow 2B, 9B, 27Bを公開しました。各規模において、日本語の理解・生成・対話でトップクラスの性能ですので、ぜひご活用頂ければと思います。なお、モデル学習の計算資源として、GoogleからTPU Research Cloud (TRC) のご支援を受けました。 swallow-llm.github.io/gemma2-llama-s…

Kazuki Fujii (@okoge_kaz) 's Twitter Profile Photo

かつてメンテナンスしていた llm-recipes: github.com/okoge-kaz/llm-… の開発 & メンテナンスの辛さなどをまとめた技術ブログの需要ってあるのですかね...? もっと役立つ記事のほうが需要あるのかなぁと思い、途中まで書いて放置しているのですが...

Naoaki Okazaki (@chokkanorg) 's Twitter Profile Photo

Gemma-2-Llama SwallowがGoogle DeepMind社のGemmaverse(Gemma活用の事例集)で紹介されました。 deepmind.google/models/gemma/g…

Kazuki Fujii (@okoge_kaz) 's Twitter Profile Photo

Llama-3.3-Swallow-70Bの学習にAWS Sagemaker HyperPodを利用させていただいた件がAWS公式のTechBlogになりました! AWS Summit Japanでこちらについて、より詳しくお話しさせていただきます。 aws.amazon.com/jp/blogs/machi…

Kazuki Fujii (@okoge_kaz) 's Twitter Profile Photo

Excited to share our latest achievement: training Llama 3.3 Swallow, a 70B-parameter Japanese sovereign LLM, leveraging AWS SageMaker HyperPod! The model outperforms leading models like GPT-4o-mini in Japanese tasks, showcasing significant advancements in language AI. Read

chokudai(高橋 直大)@AtCoder (@chokudai) 's Twitter Profile Photo

AtCoder Heuristic Contestを解くAI向けベンチマーク「ALE-Bench」を、Sakana AIと共同開発しました! AtCoderのHeuristic部門は、Algorithm部門と比べて実践的な最適化の開発に近く、AIにこれが解けるようになればかなり役立つと思ってます!

Satoshi Matsuoka (@profmatsuoka) 's Twitter Profile Photo

Please spread the word! We have a big conference center in the heart oh Osaka (Grand Cube), lots of rooms for workshops/tutorials, papers, invited tracks, BoFs, etc. There is a large exhibit hall, and the auditorium holds 2700 people for exciting keynotes every day.

Kazuki Fujii (@okoge_kaz) 's Twitter Profile Photo

llm-jp-3.1-*-instruct4のモデルの性能がスコア上は非常に良くなったように見えている件についてです。

Kazuki Fujii (@okoge_kaz) 's Twitter Profile Photo

Swallowの今後のモデル(LLM)に期待している機能等を教えていただけますと幸いです。(Project内での優先度と需要が一致しているのかの確認も兼ねています) 可能であれば、使用しているシチュエーションや欲しい機能のレベル感などもいただけるとありがたいです。