Masahiro Tanaka (@toh_tana) 's Twitter Profile
Masahiro Tanaka

@toh_tana

大規模処理システムの研究開発 | DeepSpeed | Principal Researcher@Microsoft | PyTorch Annual Hackathon Winner | Redmond在住

ID: 1514970270636789764

linkhttps://tohtana.github.io/ calendar_today15-04-2022 14:14:44

1,1K Tweet

555 Followers

354 Following

Horace He (@chhillee) 's Twitter Profile Photo

This is pretty neat. They insert into torch.compile and insert some profile-guided optimizations as well as a bunch of other specific optimizations like offloading. Since torch.compile is all in Python all their compiler passes are fairly accessible too! github.com/deepspeedai/De…

ぬこぬこ (@schroneko) 's Twitter Profile Photo

MAI-DS-R1 MS AI チームによるDeepSeek-R1 の事後学習モデル。性能維持の上、過度な回答拒否を改善。Tulu 3 の SFT データセット 11 万件と内製のデータセット 35 万件を用いて訓練。評価ではオリジナルと同等性能を、Perplexity AI による R1-1776 よりもやや性能が高い。 huggingface.co/microsoft/MAI-…

Masahiro Tanaka (@toh_tana) 's Twitter Profile Photo

"Of course, it's you." という英文を、フリーレンのアニメ(のdub)で聞き、その奇妙な響きが印象に残っていた。 それから一年、厳密に同じではないが、ヘルシングで "Of course, I knew it was you." が出てきた。 こういう Chūnibyō 的な表現には憧れがあるが、なかなかピタッとはまる状況がない。

Masahiro Tanaka (@toh_tana) 's Twitter Profile Photo

社外のハッピーアワーの集まりに入れてもらった。 日本旅行から戻ったばかりの人/今から行く人が多くて驚く。 そして旅行に行った人は、みんなセブンイレブンの話をする。昨日の人もそうだった。「好きな横綱は」「武士道ってさ」とかよく分からない話も。 でもみんな日本好きだな。それはうれしい。

Masahiro Tanaka (@toh_tana) 's Twitter Profile Photo

Redditのようなところではどうしても色々言われてしまうとは思いますが、一応: Uncensoring はこのモデルで一番注意を払ったところで、ベンチマークではほぼ解除されたという結果です。 HarmBenchでの評価は、安全性に関するもので、政治や思想に基づく検閲的な制限を評価するようなものではないです。

Masahiro Tanaka (@toh_tana) 's Twitter Profile Photo

VSCodeのサポートも良くなったので、はやりのエージェントで遊んでみる。 第一印象は: 難しい仕事には役立たない。簡単な仕事でもすごく時間がかかる。 簡単なはずだが自分は詳しくないことを任せて、その間に違う用事ができるのは面白い。どうせすぐ賢くなるし、段々慣れていくのがいいかな。

Masahiro Tanaka (@toh_tana) 's Twitter Profile Photo

o3がすごく賢そうなこというから、信じてたのに、ちゃんと調査したら大半がデマカセだった。 自分が世界で500番目くらいには詳しい話題だと思ったのに。あいつ本当に侮れないよ。 なお話の2割くらいは正しそうで、それだけでも全部自力で調べるよりいい。そこがますます難しい。

Masahiro Tanaka (@toh_tana) 's Twitter Profile Photo

ベイエリアでの食事のお誘いが立て続けに届いて、なんだろな?と思ってたら、MLSysがあるからだった。会ってみたい人もいて、こんなことなら行けば良かったな。 なお、論文には会社のアドレス載せてるのに、プライベートのアドレスに連絡が来る。LinkedIn経由でもない。どこで見てるんだろ?

Masahiro Tanaka (@toh_tana) 's Twitter Profile Photo

今日は東大に呼んでもらってゲスト講義。大変に光栄なことで、いろんな人に自慢したい。 建物は新しそうなビルなのに、講義室にはなんと黒板、チョーク、黒板消しクリーナーまで。何十年かぶりに見て感動したが、プロジェクターもちゃんとあったので、使う機会はなかった。質疑で使えばよかった!

今日は東大に呼んでもらってゲスト講義。大変に光栄なことで、いろんな人に自慢したい。
建物は新しそうなビルなのに、講義室にはなんと黒板、チョーク、黒板消しクリーナーまで。何十年かぶりに見て感動したが、プロジェクターもちゃんとあったので、使う機会はなかった。質疑で使えばよかった!
Masahiro Tanaka (@toh_tana) 's Twitter Profile Photo

レイオフの話をそこらじゅうで見かける今日、直接関わりのある人たちは普段通りに見える。自分もまだTeamsもメールもアクセスできる。 一方、自分から辞めていく人も多い。アメリカ来て2年半、知り合いが辞めるのが寂しいという段階は過ぎ、色んなところにツテができるのもいいかな、という気持ち。

Masahiro Tanaka (@toh_tana) 's Twitter Profile Photo

長いのに読んでしまった、でも読んで良かった。 何をするにも大変な外国での仕事で、全身全霊で生きてる人がいるんだなって思うと、勇気づけられる。 自分もそこそこ覚悟を決めてアメリカに行ったはずが、わずか2年ほどで、だいぶ緩んでしまったと感じる。これ読んで、締め直さなきゃ、となった。

Masahiro Tanaka (@toh_tana) 's Twitter Profile Photo

ATCのプログラムが出ているのを見つけた。 共著がアクセプトされたし、ボストンには行ったことがないので、行ってみようかな。MLSysに行かなかったことも、後悔したし……。 30年もやってる由緒ある会議なのに、開催は今年が最後らしい。何でも変わっていくんだな。実際、発表も相当数が深層学習だし。

Masahiro Tanaka (@toh_tana) 's Twitter Profile Photo

今回のことで、ハーバードには(先生とか学生とかこれから留学する人とか)結構いるんだな、と知った。 アメリカの色んな大学の学生さんと話してても、日本人がいるという話を聞くことは(あるけど)少ないのに。CSの人が少ないだけ? 大変な局面だけど、なんとかうまくいってほしい。

Masahiro Tanaka (@toh_tana) 's Twitter Profile Photo

Hellsing Ultimate 見終わった。重度の厨二病的言い回し(無駄に単語が難しい)、しばしば挟まれる独仏語、少佐のわざとらしいドイツ語なまりなど、リスニング的には厳しいものがあったが、アニメ製作者の愛を感じるクオリティ。内容自体はまあ、こういう話ですよね、って感じ。 次は何がいいかねえ。