French sentence-initial words

Alice Carlberger (alice@speech.kth.se)
Fri, 11 Oct 1996 10:28:59 +0200

Dear Corpora List members,

Here are the results of the query I posted on the Corpora List last week
regarding frequency lists of French sentence-initial words from written
corpora. I hope this is not too much information to distribute universally
like this.=20

Note: Gilles Adda pointed out that, in the frequency list I sent, the word=
=20
"a" is, in fact, the word "`a" (preposition).

Best regards,

Alice Carlberger

---------------------------------------------------------------------------

The top 100 capitalised words from 4 million running words of Le Monde.=20
19705 Mr
13696 Le
10141 Il
10021 La
9639 Les
6901 L'
5278 Mais
4878 En
4271 A
4265 France
4064 C'
3320 On
3287 Ce
3212 Etat
3000 Pour
2940 Et
2932 Paris
2909 Dans
2788 Un
2610 Une
2480 Europe
2171 Cette
1947 Je
1923 Ils
1914 De
1850 Nous
1809 Au
1728 Si
1670 Elle
1649 Etats-Unis
1542 F
1524 D'
1442 Monde
1317 Michel
1313 Pierre
1295 Mme
1278 Parti
1249 =D3uvre
1239 Est
1227 Apr=E8s
1210 R=E9publique
1168 Ces
1161 RPR
1156 Jacques
1134 Des
1059 PS
1039 Jean
989 Selon
955 MM
895 URSS
863 J'
841 Tout
838 Fran=E7ais
829 Ainsi
818 Depuis
805 Fran=E7ois
792 Rocard
789 Gorbatchev
785 Conseil
771 RDA
770 Comme
764 Avec
763 Allemagne
759 Moscou
734 Sur
731 Son
727 Cela
699 Alain
683 Mitterrand
682 Assembl=E9e
681 Or
668 Parlement
668 Enfin
666 RFA
664 UDF
660 Pologne
658 Union
641 Plus
634 Quant
614 Front
599 Car
591 Sans
588 Alors
585 Par
574 Robert
557 Bernard
553 Philippe
545 Japon
545 Chine
544 Peugeot
537 Charles
531 S'
522 Hongrie
510 Deux
507 Afrique
498 Claude
495 Jean-Pierre
489 Commission
485 PC
483 Etats

---------------------------------------------------------------------------

The 20 most frequent bigrams with sentence markers (<s>)from 2 years worth=
of
running text from Le Monde (~40M words).

-1.1537 <s> le
-1.2683 <s> il
-1.2844 <s> la
-1.2973 <s> les
-1.4526 <s> l'
-1.5514 <s> mais
-1.5812 <s> en
-1.6570 <s> `a
-1.6634 <s> c'
-1.7024 <s> M.
-1.7616 <s> un
-1.7656 <s> on
-1.7664 <s> ce
-1.8080 <s> pour
-1.8128 <s> dans
-1.8204 <s> et
-1.8441 <s> une
-1.9244 <s> cette
-1.9816 <s> je
-1.9933 <s> de

---------------------------------------------------------------------------

The 200 most frequent *segment-initial* words in the 1991 United Nations=20
French corpus. Here, segment-initial =3D the word following ANY punctuation.=
=20
Sentence-initial words, i.e., words following only full-stops =3D words=20
starting with a capital letter.

54929 T
12857 de
11792 le
10812 et
10302 R
10067 les
9906 la
9799 Le
8689 0
7720 en
7652 des
6917 Les
6247 La
5457 1
4680 dans
4494 qui
4450 Il
3826 2
3654 par
3634 A
3440 du
3413 pour
3263 3
3228 il
3207 En
2787 4
2746 Page
2505 5
2468 au
2270 Francais
2081 sur
2071 ainsi
2068 Dans
2039 6
1983 que
1948 On
1932 /
1931 un
1846 7
1803 a
1736 notamment
1732 8
1713 aux
1681 d veloppement
1638 une
1563 Nations
1503 9
1365 TR
1363 Distr
1302 ce
1296 mais
1286 on
1272 Pour
1243 10
1183 FRANCAIS
1180 Au
1139 avec
1129 conform ment
1123 11
1118 comme
1092 Un
1086 dont
1082 M
1061 12
1060 GENERALE
1052 l'Assembl e
1039 De
1014 y
1012 Ces
1001 Une
935 13
932 Des
922 Elle
905 ont
901 14
863 ANGLAIS
859 15
857 l'Organisation
832 Cette
827 Ce
810 R publique
799 21
791 ou
784 pays
768 Je
763 -
749 18
748 Conseil
739 est
730 20
726 internationale
719 Total
716 16
710 Nous
696 Comit=09
692 activit s
689 19
680 Commission
672 25
----------------------------------------------------------------------------

Results from 20 million words (1 year) of running newspaper text from=20
Le Monde. "I think that this newspaper must well reflect the =20
"French formal written language". This list has been obtained =20
automatically, with a small automata pointing to the ends of sentences."

65075 Le
50036 La
47420 Il
45529 Les
34817 L
25712 A
24587 En
23026 Mais
20161 C
15936 Ce
15438 Un
15409 On
14449 Dans
14213 Pour
14111 Et
13498 Une
10878 Cette
9961 Au
9639 De
9463 Je
9292 Elle
8501 Ils
8364 Nous
7801 D
7710 Si
6555 Des
5782 Ces
5610 Apres
4679 Selon
4521 Depuis
4234 Comme
4143 Avec
4138 Tout
4030 Sur
3546 Ainsi
3447 Son
3283 Plus
3242 Cela
3085 Par
2976 Or
2807 Sans
2776 Alors
2753 Deux
2644 Car
2630 Enfin
2550 Quant
2520 Quand
2420 Aujourd
2210 Comment
2113 Du
2033 Que
2020 Cet
2008 Sa
1945 Elles
1901 Bien
1867 Tous
1802 Pourtant
1748 Des
1729 Vous
1693 Certains
1692 Qu
1584 Ses
1493 Pourquoi
1457 Trois
1434 Entre
1420 Certes
1363 Malgre
1334 Aux
1320 Rien
1248 Celui
----------------------------------------------------------------------------
----------------------------------------------------------------------------=
----
Alice Carlberger
Royal Institute of Technology
Department of Speech, Music and Hearing
Box 70014
S-100 44 Stockholm
SWEDEN
E-mail: alice@speech.kth.se
Phone: +46 8 790 75 62
Fax: +46 8 790 78 54
----------------------------------------------------------------------------=
----